Comme disait un jour un humoriste célèbre : « Pourquoi réinventer la roue quand on peut juste réduire le nombre de bits ? » Dans cet esprit, plongeons-nous dans l’univers fascinant de la quantification des modèles d’intelligence artificielle (IA).
La quantification, dans le monde de l’IA, renvoie à l’idée de réduire le nombre de bits nécessaires pour représenter une information. Imaginez qu’on demande l’heure, et au lieu de répondre avec précision à la milliseconde près, on se contente de dire « midi ». C’est cela, la quantification : être moins précis, mais pour de bonnes raisons pratiques. Mais hélas, cette technique a peut-être atteint ses limites.
Des études récentes menées par des chercheurs de Harvard, Stanford et autres institutions prestigieuses ont révélé que les modèles quantifiés peuvent se comporter moins bien que prévu, surtout quand ces modèles ont été entraînés sur de grandes quantités de données. Finalement, il pourrait être plus judicieux de se concentrer sur des modèles plus modestes dès le départ, plutôt que de chercher à compresser les modèles géants.
En gros, compresser à l’extrême un modèle de DE5 top de la gamme pourrait en faire un DE2 lambda.
Les géants du secteur, comme Meta avec son modèle Llama 3, commencent à ressentir les effets indésirables de cette surquantification. Ce modèle, une fois quantifié, semble moins performant, peut-être à cause de sa méthode d’entraînement initiale.
Alors que les laboratoires continuent à croire que « plus c’est grand, mieux c’est », il apparaît que cette course à la taille infinie n’apporte pas toujours les résultats escomptés. Les systèmes continuent d’être coûteux à déployer, et même Google pourrait dépenser des milliards par an uniquement pour répondre à des requêtes de recherche simples avec ces modèles massifs.
Tanishq Kumar, étudiant en mathématiques à Harvard et chercheur clé derrière ces découvertes, souligne qu’il est crucial de savoir quand et où tracer la ligne avec la quantification, surtout lorsqu’elle commence à nuire à la qualité des résultats.
En fin de compte, réduire la précision peut être alléchant, mais comme on dit, « choisir entre précision et inférence, c’est marcher sur le fil du binaire. » Donc, avant de vous lancer dans des aventures de quantification, assurez-vous de ne pas mettre la charrue avant les bits !
Source : Techcrunch