« L’intelligence, c’est ce qui reste quand on a tout oublié. » Voilà une citation qui pourrait bien s’appliquer à notre chère intelligence artificielle, encore en quête de son « génie » universel. Le monde de l’IA bruisse de discussions autour d’un vieux test, le ARC-AGI, qui semble pourtant avoir la dent dure. Mis au point par François Chollet, le test fait figure de boussole (un peu aimantée). Censé évaluer des IA sur leur capacité à apprendre comme des grands sans aide, il semblerait que le test ait quelques ratés.
En 2019, François Chollet, étoile montante du monde de l’IA, a lancé le benchmark ARC-AGI, ou « Corpus d’Abstraction et de Raisonnement pour l’Intelligence Artificielle Générale » pour les intimes. Ce test vise à mesurer si un système d’IA peut développer de nouvelles compétences hors de son terrain de données habituel. Chollet soutient qu’il est le seul à mesurer les progrès vers une intelligence générale. Rien que ça !
Mais depuis son lancement, les résultats n’ont pas été très mirobolants : jusqu’à cette année, la meilleure performance d’une IA sur ce test avoisinait un piètre tiers des tâches résolues. Chollet a pointé du doigt la fixation de l’industrie sur les modèles de langage de grande taille (LLM), incapables selon lui de réellement « raisonner ». Juste des perroquets mathématiques, si l’on en croit François, qui ne peuvent qu’imiter ce qu’on leur apprend sans saisir la nouveauté.
En gros, l’IA pourrait tirer plus vite que son ombre, mais tomberait en rade dès que les piles sont à plat.
Pour pimenter la recherche, Chollet et Mike Knoop de Zapier ont lancé une compétition en juin avec un prix d’un million de dollars pour l’IA open source qui viendrait à bout du test ARC-AGI. Sur les 17 789 propositions, la meilleure a frôlé la note de 55.5 %, à plusieurs années-lumière pourtant des 85 % requis pour démontrer une intelligence humaine. Pas de quoi décrocher la lune, dirons-nous !
Selon Knoop, cette avancée de 20 % n’est guère synonyme d’un bond vers l’AGI. En réalité, bon nombre de ces IA ont réussi grâce à la « force brute », menaçant la pertinence même du test. Maigre consolation, il avoue que le test n’a pas changé depuis 2019 et n’est pas exempt de défauts. Critiques et scepticisme sont de la partie, notamment autour de l’idée qu’ARC-AGI soit la clé vers l’AGI, alors que la définition même de cette intelligence reste sujette à débat.
Qu’à cela ne tienne, Chollet et Knoop prévoient de sortir une version améliorée du benchmark en 2025, en espérant stimuler la recherche sur les véritables défis non résolus de l’IA. Mais transformer un échec en succès ne semble pas vraiment à portée de main de l’IA, un dénouement aussi houleux qu’un débat sur ce qu’est vraiment l’intelligence, chez les humains comme chez les machines !
Et si l’on disait que l’IA a autant de chance de devenir « géniale » que nous avons de chance de résoudre un Rubik’s Cube les yeux fermés ?
Source : Techcrunch