« Ce n’est pas que l’homme ait une solution à tout, mais il a ce talent extraordinaire pour poser des questions compliquées. » Voilà qui pourrait être la devise de Will Shortz, le maître des mots croisés du New York Times. Chaque dimanche, il met des milliers d’auditeurs de NPR au défi dans son segment puzzle. Mais saviez-vous que ces tests cérébraux se transforment également en duels d’intelligence artificielle?
En effet, on a récemment découvert que les puzzles de Will Shortz servent de banc d’essai à des chercheurs des quatre coins du globe, de Wellesley College aux startups comme Cursor. Leur mission : évaluer jusqu’où nos amis les robots peuvent résoudre des problèmes énigmatiques qui laissent même les humains perplexes.
Le défi est de taille. La plupart des tests actuels pour IA se concentrent sur des compétences un peu comme si on demandait à un éléphant de monter aux arbres – c’est-à-dire totalement déconnectées de ce que monsieur et madame Tout-le-Monde pourraient utiliser. Les énigmes de Shortz, en revanche, forcent les modèles à sortir de leur zone de confort en évitant ce qu’on appelle la « mémoire par cœur ».
Les puzzles, un test cérébral pour l’IA, ou simplement une occasion pour elle de montrer qu’elle peut aussi « craquer » face à la pression?
L’ironie dans tout cela, c’est que certaines IA, comme le modèle R1 de DeepSeek, finissent par balancer un « je renonce », lançant une réponse fausse comme on lâche un ballon. Cela nous rappelle évidemment tous ces moments où l’on abandonne face à un Sudoku coriace!
Cerise sur le gâteau, ces modèles prennent parfois le temps de reconsidérer une réponse correcte, comme s’ils avaient soudainement douté d’avoir bien résolu un Rubik’s cube – le syndrome du « trop réfléchir », pourrait-on dire !
Dans cette course au cerveau d’IA le plus affûté, le modèle o1 arrive en tête avec 59 %, suivi de près par l’o3-mini. C’est un peu comme une compétition de Quidditch où le but serait non seulement d’attraper le Vif d’Or, mais aussi de comprendre pourquoi on l’attrape. Les prochaines étapes ? Élaborer des tests encore plus ouverts pour que chacun puisse apprécier ce que les modèles peuvent, ou ne peuvent pas, accomplir.
Alors, la prochaine fois que vous vous sentirez en dessous de la moyenne face aux mots croisés du dimanche, rappelez-vous : même l’IA peut avoir ses moments de « bug » mental. Et comme dirait un certain Will Shakespeare dans un de ses jours sombres : « To AI or not to AI, telle est la question ! »
Source : Techcrunch