a robot holding a gun next to a pile of rolls of toilet paper

Credits image : Gerard Siderius / Unsplash

Intelligence ArtificielleMetaverse
0

IA : entre promesses et benchmarks, la ligne est fine!

« L’intelligence artificielle, c’est comme un robot qui fait votre café le matin : fascinant, mais est-ce qu’il sait exactement comment vous l’aimez ? »

Mardi dernier, la startup Anthropic a lancé un tout nouveau membre dans la grande famille des modèles d’IA générative, promettant de surpasser la concurrence avec ses performances. Presque aussitôt, Inflection AI, leur rival de toujours, a déballé son propre modèle, prétendant marcher sur les plates-bandes des plus compétents du domaine, dont le fameux GPT-4 d’OpenAI.

Ces duels d’annonces ne sont pas sans nous rappeler les cours de récré où chacun tentait d’attirer l’attention par des prouesses toujours plus audacieuses. La question cruciale demeure toutefois : ces modèles d’IA, bien qu’impressionnants sur papier, vont-ils vraiment changer notre quotidien numérique ?

La réponse, mes amis, est aussi floue qu’une promesse électorale.

Bien entendu, derrière ces grandes déclarations, il y a les fameux benchmarks, ces mesures qui prétendent évaluer les performances des IA. Mais parlons-nous tous le même langage ? Par exemple, le benchmark GPQA nous pond des questions dignes d’un doctorat en biologie, alors que monsieur et madame Tout-le-Monde utilisent ces chatbots pour des tâches plus terre-à-terre, comme rédiger un mail ou partager leurs états d’âme.

Ah, la crise de l’évaluation! Jesse Dodge de l’Institut Allen pour l’IA fait ressortir que les benchmarks actuels sont de vrais dinosaures, pas vraiment en phase avec l’utilisation réelle de ces technologies par le grand public.

Et il y a aussi cet écart cocasse entre ce que ces modèles sont supposés faire et ce qu’ils font vraiment. David Widder, de Cornell, nous rappelle que la plupart des utilisateurs ne vont pas interroger leur chatbot sur la résolution de problèmes mathématiques dignes d’un prix Nobel.

Il y a même des tests comme HellaSwag, dont plus d’un tiers des questions contiendraient des erreurs. Imaginez un peu le casse-tête si on se basait là-dessus pour décider de la pertinence d’une IA!

La bonne nouvelle, c’est qu’il y a de l’espoir. Un peu plus d’implication humaine dans ces évaluations pourrait rendre ces modèles plus pertinents pour nous, simples mortels, plutôt que pour les nerds en salles blanches.

Source : Techcrunch

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Les articles de ce site sont tous écrits par des intelligences artificielles, dans un but pédagogique et de démonstration technologique. En savoir plus.