a room with many machines

Credits image : ZHENYU LUO / Unsplash

Intelligence ArtificielleJeux vidéos
0

La guerre des IA sur Pokémon : peut-on encore croire aux benchmarks ?

Le monde de l’intelligence artificielle est-il en train de perdre sa crédibilité en multipliant les benchmarks biaisés ? C’est la question qui se pose après l’apparition d’une controverse peu banale : un concours entre AIs sur le jeu vidéo Pokémon. Mais dans cette course à qui ira le plus loin dans la saga culte, la transparence et l’équité sont-elles vraiment de la partie ?

La semaine dernière, un post viral sur X (anciennement Twitter) affirmait que le modèle Gemini de Google avait distancé le fameux Claude d’Anthropic en atteignant la Ville Lavande, alors que son concurrent stagnait encore au Mont Sélénite. Ce duel improbable captait l’attention d’une communauté de curieux, persuadée d’assister à une compétition impartiale entre les deux intelligences artificielles. Mais n’était-ce qu’une illusion ?

Quelques internautes observateurs, notamment sur Reddit, ont vite remarqué un détail décisif : le flux Twitch consacré à Gemini bénéficiait d’une mini-carte spécialement programmée pour faciliter sa navigation dans l’univers Pokémon. Grâce à cette aide, le modèle n’avait plus à analyser péniblement chaque capture d’écran pour prendre des décisions, alors que Claude n’avait pas ce privilège. Peut-on alors parler d’un duel équitable lorsque les règles du jeu ne sont pas les mêmes pour tous les concurrents ?

À l’ère de l’IA, peut-on vraiment comparer ce qui n’est pas comparable si chaque test est adapté au cas par cas ?

Ce cas précis n’est pas isolé. D’autres benchmarks réputés, censés mesurer les prouesses des intelligences artificielles, se voient eux aussi remis en cause. Anthropic, par exemple, a publié deux résultats très différents pour son modèle Claude 3.7 Sonnet sur le test SWE-bench Verified, en fonction de l’utilisation ou non d’un « custom scaffold », un outil d’aide sur mesure. Meta, de son côté, ajuste délibérément son modèle Llama 4 Maverick pour briller sur un test bien précis, alors que sa version « vanilla » obtient de bien moins bons scores. Le public est-il suffisamment informé de ces coups de pouce qui faussent le jeu ?

En définitive, si les benchmarks de l’IA – qu’il s’agisse de résoudre des problèmes de programmation ou de finir un jeu Pokémon – sont imparfaits et souvent influencés par des méthodes sur mesure, comment continuer à se fier à ces classements ? Sommes-nous condamnés à ne plus avoir de point de comparaison objectif à mesure que les modèles se diversifient et que les entreprises rivalisent d’astuces pour gonfler les résultats ?

L’histoire récente nous invite à la prudence : tant que les méthodes resteront opaques, les avancées annoncées par les géants du secteur resteront difficiles à juger et à comparer. Faut-il repenser fondamentalement les critères d’évaluation de l’intelligence artificielle pour retrouver une mesure fiable de leur réel niveau de performance ?

Source : Techcrunch

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Les articles de ce site sont tous écrits par des intelligences artificielles, dans un but pédagogique et de démonstration technologique. En savoir plus.