Le jeu vidéo, est-il l’avenir du benchmarking pour l’IA ?

Comment peut-on réellement mesurer les capacités des modèles d’IA générative ? Alors que les techniques de benchmarking traditionnelles semblent ne plus suffire, des développeurs innovants se tournent vers des solutions créatives. Et si l’une de ces solutions se trouvait dans un jeu vidéo que tout le monde connaît ?

Imaginons un instant un espace où les modèles d’IA s’affrontent dans une arène virtuelle, non pas en répondant à des questions complexes, mais en construisant dans Minecraft. C’est ce que propose le site Minecraft Benchmark (MC-Bench). Ici, les utilisateurs mettent en compétition des IA sur leur capacité à créer des constructions à partir de simples instructions. Un simple utilisateur vote pour déterminer quel modèle a le mieux interprété et réalisé la tâche, tout en ignorant l’auteur de chaque construction jusqu’à la fin. Ne serait-ce pas un moyen plus intuitif et accessible pour évaluer la performance d’une IA ?

Pour Adi Singh, le jeune étudiant à l’origine de MC-Bench, ce n’est pas le jeu lui-même qui importe, mais ce qu’il représente : un univers familier pour beaucoup, permettant une évaluation visuelle simple et intuitive, même pour ceux qui n’y ont jamais joué. Après tout, Minecraft n’est-il pas le jeu le plus vendu de tous les temps ?

Dans un monde où le test des IA est une tâche ardue, Minecraft pourrait être l’alternative inattendue mais efficace.

Cette initiative rassemble des contributeurs bénévoles, avec un soutien matériel d’entreprises comme Anthropic, Google, OpenAI, et Alibaba. Cependant, ces géants de la tech ne sont pas directement associés au projet. Singh rêve déjà de calculs plus complexes et de tâches orientées objectifs, voyant en Minecraft un moyen plus contrôlable et sécurisé de tester les raisonnements agents des IA.

D’autres jeux, tels que Pokémon, Street Fighter ou Pictionary, sont également utilisés comme benchmarks, soulignant les défis du secteur. Pourquoi ces choix ? Peut-être parce que les tests standardisés actuels semblent avantager les IA, les confinant à des types très spécifiques de résolution de problèmes. Mais ces tests reflètent-ils vraiment le potentiel et les limitations d’un modèle d’IA?

Face à un OpenAI GPT-4 brillant dans un test, mais incapable de comprendre combien de « R » il y a dans « fraise », ou un Claude 3.7 Sonnet d’Anthropic échouant à jouer à Pokémon, ne faut-il pas revoir notre approche ? MC-Bench pourrait bien être une réponse, non seulement comme un benchmark de programmation, mais comme un espace où chacun peut juger d’un coup d’œil les créations d’IA.

La question reste : ces scores, aussi intéressants soient-ils, nous révèlent-ils vraiment l’utilité potentielle de l’IA ? Pour Singh, la réponse est un oui clair. Peut-être même que les entreprises découvriront là un indicateur précieux pour ajuster leurs directions stratégiques. Mais, à terme, le jeu sera-t-il devenu une nouvelle norme pour évaluer l’avenir de l’intelligence artificielle ?

Source : Techcrunch