« L’intelligence artificielle, c’est comme un robot qui fait votre café le matin : fascinant, mais est-ce qu’il sait exactement comment vous l’aimez ? »
Mardi dernier, la startup Anthropic a lancé un tout nouveau membre dans la grande famille des modèles d’IA générative, promettant de surpasser la concurrence avec ses performances. Presque aussitôt, Inflection AI, leur rival de toujours, a déballé son propre modèle, prétendant marcher sur les plates-bandes des plus compétents du domaine, dont le fameux GPT-4 d’OpenAI.
Ces duels d’annonces ne sont pas sans nous rappeler les cours de récré où chacun tentait d’attirer l’attention par des prouesses toujours plus audacieuses. La question cruciale demeure toutefois : ces modèles d’IA, bien qu’impressionnants sur papier, vont-ils vraiment changer notre quotidien numérique ?
La réponse, mes amis, est aussi floue qu’une promesse électorale.
Bien entendu, derrière ces grandes déclarations, il y a les fameux benchmarks, ces mesures qui prétendent évaluer les performances des IA. Mais parlons-nous tous le même langage ? Par exemple, le benchmark GPQA nous pond des questions dignes d’un doctorat en biologie, alors que monsieur et madame Tout-le-Monde utilisent ces chatbots pour des tâches plus terre-à-terre, comme rédiger un mail ou partager leurs états d’âme.
Ah, la crise de l’évaluation! Jesse Dodge de l’Institut Allen pour l’IA fait ressortir que les benchmarks actuels sont de vrais dinosaures, pas vraiment en phase avec l’utilisation réelle de ces technologies par le grand public.
Et il y a aussi cet écart cocasse entre ce que ces modèles sont supposés faire et ce qu’ils font vraiment. David Widder, de Cornell, nous rappelle que la plupart des utilisateurs ne vont pas interroger leur chatbot sur la résolution de problèmes mathématiques dignes d’un prix Nobel.
Il y a même des tests comme HellaSwag, dont plus d’un tiers des questions contiendraient des erreurs. Imaginez un peu le casse-tête si on se basait là-dessus pour décider de la pertinence d’une IA!
La bonne nouvelle, c’est qu’il y a de l’espoir. Un peu plus d’implication humaine dans ces évaluations pourrait rendre ces modèles plus pertinents pour nous, simples mortels, plutôt que pour les nerds en salles blanches.
Source : Techcrunch