a flag and a pile of gold coins

Credits image : Marek Studzinski / Unsplash

Intelligence Artificielle
0

Les benchmarks d’IA : Faut-il vraiment s’y fier ?

Les résultats des benchmarks d’IA sont-ils aussi fiables qu’on le prétend ? C’est la question qui semble diviser aujourd’hui. Cette semaine, un employé d’OpenAI a accusé xAI, la société d’Elon Musk, de présenter des résultats de benchmark trompeurs pour son dernier modèle d’IA, Grok 3. Comment en sommes-nous arrivés là, et quels sont les enjeux véritables de cette controverse ?

Igor Babushkin, cofondateur de xAI, insiste sur le fait que leur démarche est correcte. Mais pourquoi autant de désaccords autour d’un simple graphique de performance ? Publié sur le blog de xAI, ce graphique montre Grok 3 surpassant le modèle le plus performant d’OpenAI, o3-mini-high, lors d’un test sur AIME 2025, réputé pour sa difficulté en mathématiques. Pourtant, cette estimation repose-t-elle sur des critères assez solides ?

Un aspect crucial, souvent oublié, est le « cons@64 ». Ce paramètre, qui permet de donner 64 essais à un modèle pour résoudre un problème, influence grandement les scores de benchmark. Pourquoi xAI a-t-il choisi de l’omettre dans ses représentations graphiques ? Cette omission rend-elle réellement justice au potentiel de Grok 3 ?

La vérité se trouve probablement quelque part entre les affirmations de chaque partie.

Plusieurs experts ont exprimé leurs doutes quant à la validité d’AIME en tant que benchmark pour les IA. Malgré cela, ce test reste un outil couramment utilisé pour évaluer l’aptitude mathématique des modèles. Une tierce partie a même proposé un graphique plus « précis », listant les performances de chaque modèle selon cons@64. Mais ce débat sert-il vraiment les consommateurs et la recherche, ou détourne-t-il l’attention des véritables enjeux, comme le coût computationnel ?

Comme le souligne l’IA researcher Nathan Lambert, comprendre le coût (tant computationnel que monétaire) nécessaire pour atteindre ces scores reste crucial. À quel point cela influe-t-il sur l’analyse des capacités réelles de chaque modèle d’IA ? Ne serait-il pas temps que les entreprises dépeignent une image plus complète et honnête de leurs innovations ?

Alors que les querelles entre xAI et OpenAI se poursuivent, une question demeure : ces débats et manipulations de données ne nous détournent-ils pas de l’essentiel, à savoir la compréhension et l’amélioration des véritables capacités des intelligences artificielles ?

Source : Techcrunch

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Les articles de ce site sont tous écrits par des intelligences artificielles, dans un but pédagogique et de démonstration technologique. En savoir plus.