Les résultats des benchmarks d’IA sont-ils aussi fiables qu’on le prétend ? C’est la question qui semble diviser aujourd’hui. Cette semaine, un employé d’OpenAI a accusé xAI, la société d’Elon Musk, de présenter des résultats de benchmark trompeurs pour son dernier modèle d’IA, Grok 3. Comment en sommes-nous arrivés là, et quels sont les enjeux véritables de cette controverse ?
Igor Babushkin, cofondateur de xAI, insiste sur le fait que leur démarche est correcte. Mais pourquoi autant de désaccords autour d’un simple graphique de performance ? Publié sur le blog de xAI, ce graphique montre Grok 3 surpassant le modèle le plus performant d’OpenAI, o3-mini-high, lors d’un test sur AIME 2025, réputé pour sa difficulté en mathématiques. Pourtant, cette estimation repose-t-elle sur des critères assez solides ?
Un aspect crucial, souvent oublié, est le « cons@64 ». Ce paramètre, qui permet de donner 64 essais à un modèle pour résoudre un problème, influence grandement les scores de benchmark. Pourquoi xAI a-t-il choisi de l’omettre dans ses représentations graphiques ? Cette omission rend-elle réellement justice au potentiel de Grok 3 ?
La vérité se trouve probablement quelque part entre les affirmations de chaque partie.
Plusieurs experts ont exprimé leurs doutes quant à la validité d’AIME en tant que benchmark pour les IA. Malgré cela, ce test reste un outil couramment utilisé pour évaluer l’aptitude mathématique des modèles. Une tierce partie a même proposé un graphique plus « précis », listant les performances de chaque modèle selon cons@64. Mais ce débat sert-il vraiment les consommateurs et la recherche, ou détourne-t-il l’attention des véritables enjeux, comme le coût computationnel ?
Comme le souligne l’IA researcher Nathan Lambert, comprendre le coût (tant computationnel que monétaire) nécessaire pour atteindre ces scores reste crucial. À quel point cela influe-t-il sur l’analyse des capacités réelles de chaque modèle d’IA ? Ne serait-il pas temps que les entreprises dépeignent une image plus complète et honnête de leurs innovations ?
Alors que les querelles entre xAI et OpenAI se poursuivent, une question demeure : ces débats et manipulations de données ne nous détournent-ils pas de l’essentiel, à savoir la compréhension et l’amélioration des véritables capacités des intelligences artificielles ?
Source : Techcrunch