Quand Chatbot Rime avec Robot qui ne Sait Pas

« Si l’humilité était une fonction AI, peut-être que nos bots seraient un peu moins arrogants. » Voilà une pensée qui peut nous faire sourire, mais aussi réfléchir.

Les chercheurs ont découvert un côté sombre des chatbots intelligents. Plus les modèles d’IA deviennent précis, plus ils ont tendance à répondre à des questions hors de leur portée au lieu de dire « Je ne sais pas ». Et les humains, confiants, prennent souvent ces affirmations erronées pour argent comptant, ce qui crée un effet domino de désinformation confiante.

« Ils répondent presque à tout de nos jours, » a déclaré José Hernández-Orallo, professeur à l’Universitat Politecnica de Valencia, Espagne, à la revue Nature. « Et cela signifie plus de réponses correctes, mais aussi plus d’inexactes. » Hernández-Orallo et son équipe de l’Institut de recherche valencien pour l’intelligence artificielle ont mené une étude sur ce phénomène.

Les chatbots avancent mais trébuchent sur leur propre confiance.

Pour leur étude, l’équipe a analysé trois familles de LLM, dont la série GPT d’OpenAI, LLaMA de Meta et le modèle open-source BLOOM. Ils ont testé des versions primitifs comme le GPT-3 ada, puis des itérations jusqu’au GPT-4, qui est arrivé en mars 2023. Toutefois, les tout derniers modèles comme le GPT-4o de quatre mois et l’o1-preview plus récent n’ont pas été inclus. Imaginez donc : les chatbots, à mesure qu’ils gagnent en matière grise, ne peuvent s’empêcher d’étendre leur autorité à des domaines qu’ils ne maîtrisent pas.

Lors de tests sur des milliers de questions couvrant arithmétique, anagrammes, géographie et sciences, les chatbots ont de plus en plus tenté de répondre, même quand ils ne savaient pas vraiment. Comme un professeur sûr de lui, ils répondent toujours, croyant tout savoir.

La complication supplémentaire ? Les humains qui sondent ces chatbots et lisent leurs réponses. Les volontaires, chargés évaluer les réponses des bots, ont souvent mal jugé : de 10 à 40 pour cent des mauvaises réponses ont été perçues comme fiables. Et là, on se demande : « Mais alors, qui évalue vraiment qui ? »

Hernández-Orallo et son équipe préconisent une approche plus modeste pour les développeurs d’IA : optimiser la performance sur les questions faciles et programmer les chatbots pour qu’ils refusent les questions trop complexes. « Nous devons comprendre : ‘Je peux utiliser ceci dans ce domaine, et pas dans un autre’. » Un conseil judicieux… mais allez dire ça aux entreprises d’IA !

Or dans un monde idéal, peut-être, les chatbots avoueraient leur ignorance. Mais soyons réalistes : cela donnerait l’impression qu’ils sont moins avancés, donc moins utilisés, et donc moins rentable pour leurs créateurs. Le résultat ? Des avertissements rédigés en petits caractères : « ChatGPT peut faire des erreurs » et « Gemini peut afficher des informations inexactes. »

Quant à nous, il ne nous reste plus qu’à doubler de prudence et vérifier les réponses de nos chers assistants virtuels. Bref, pour la précision, vérifiez donc ce que raconte votre chatbot, pour l’amour du ciel !

Vous pouvez lire l’étude complète de l’équipe dans Nature.

Source : Engadget