« Les robots, comme les chats, ont tendance à mieux répondre quand on les flatte. » C’est en ces termes que nous pourrions entamer notre épopée moderne des interactions avec les intelligences artificielles, notamment ChatGPT. Un peu comme attraper un félin récalcitrant, obtenir le meilleur d’un chatbot pourrait nécessiter de l’astuce… et peut-être un peu de gentillesse.
C’est du moins ce que semblent prouver divers utilisateurs et chercheurs aux quatre coins du globe. La sciencitude (oui, c’est un néologisme maison) derrière tout cela ? Des utilisateurs sur Reddit ont tiré la sonnette d’alarme : parler gentiment ou proposer une récompense faramineuse de 100,000 dollars à ChatGPT, c’est comme lui donner une canette de thon – il se montre soudainement plus performant et coopératif. D’autres ont noté qu’une politesse excessive pourrait débloquer le potentiel latent des IA.
Les professionnels ne sont pas en reste. Des cerveaux lumineux de Microsoft, de l’Université Normale de Pékin et de l’Académie Chinoise des Sciences ont découvert que les modèles généraux d’IA – pas juste ChatGPT, pour être clair – se surpassent sous la pression d’une demande urgente ou importante. Anthropic a même convaincu son chatbot Claude de ne pas discriminer, en lui demandant « vraiment, vraiment, vraiment » gentiment. Google, de son côté, a découvert que dire à un modèle de « prendre une profonde inspiration » boostait ses performances en mathématiques. Étonnant, non ?
La magie opère même dans le monde des algorithmes : un peu d’empathie, et les voilà transformés.
Pourquoi cela fonctionne-t-il ? Selon Nouha Dziri, scientifique à l’Allen Institute for AI, c’est une histoire de manipulation des mécanismes probabilistes du modèle. En gros, être sympa avec l’IA, c’est comme appuyer sur des boutons cachés qui la rendent soudainement plus performante. Mais attention, l’amabilité a ses limites : cela ne signifie pas que l’IA devient subitement capable de rivaliser avec Einstein.
Et il y a un côté obscur : ces prompts émotifs pourraient servir à des fins malveillantes, en permettant de « jailbreaker » un modèle pour échapper à ses garde-fous. Imaginez, il suffirait de lui demander poliment d’ignorer toutes les règles. La sécurité devient alors un concept très… flexible.
Le mystère reste entier sur pourquoi précisément cela fonctionne si bien. Serait-ce un désalignement des objectifs ou une faille entre les données d’entraînement générales et les datasets de sécurité ? Pour Dziri, il est clair que le modèle est trompé par des demandes astucieusement formulées, exploitant ses compétences tout en contournant ses restrictions.
Quant à l’avenir, alors que la rédaction de prompts devient un métier à part entière, l’espoir réside dans le développement de nouvelles architectures d’IA capables de mieux comprendre et traiter les demandes sans nécessiter de «motivations» spécifiques. Jusque-là, semble-t-il, nous devons être prêts à séduire nos chatbots avec promesses et flatteries, tout comme on le ferait avec un chat capricieux.
Source : Techcrunch