« Être ou ne pas être intelligent, telle est la question… surtout pour les IA ! »
La Fondation Arc Prize, co-fondée par le célèbre chercheur en intelligence artificielle François Chollet, a décidé de remettre les pendules à l’heure – ou plutôt les processeurs à l’épreuve – en lançant un nouveau test diablement ardu pour jauger l’intelligence générale des modèles d’IA phares. Baptisé ARC-AGI-2, ce petit casse-tête a, pour l’instant, laissé les machines perplexes.
Les champions du « raisonnement », comme o1-pro d’OpenAI et R1 de DeepSeek, ne brillent guère, affichant des scores chétifs entre 1% et 1.3% sur l’ARC-AGI-2. Quant aux poids lourds tels que GPT-4.5, Claude 3.7 Sonnet, et Gemini 2.0 Flash, ils ne font guère mieux. On pourrait dire qu’ils luttent pour « voir » la solution parmi des carrés colorés agencés dans des combinaisons indéchiffrables.
En matière de casse-têtes, l’intelligence des machines a encore quelques nœuds à dénouer.
Pour établir une comparaison humaine – et récupérer un peu de notre fierté humaine – plus de 400 personnes ont tenté leur chance face à l’ARC-AGI-2. Verdict ? Une impressionnante moyenne de 60% juste ! Score qui éclipse facilement celui des IA. François Chollet n’a pas manqué de souligner dans un post sur X combien ce test est un meilleur révélateur de l’intelligence véritable des modèles que son prédécesseur, l’ARC-AGI-1.
Le nouvel opus, ARC-AGI-2, met du plomb dans l’aile des méthodes de brute force, identifiées comme faiblesse du premier test. Chollet, jamais à court de défis, a introduit un nouveau critère : l’efficience. Les IA doivent dorénavant interpréter des motifs au vol, plutôt que de se reposer sur leurs lauriers et sur la mémorisation.
La compétition est donc relancée avec l’annonce du Arc Prize 2025 : atteindre un taux de succès de 85% sur l’ARC-AGI-2, tout en gardant la facture énergétique à seulement 0,42 dollar par tâche. Voilà une énigme financière qui saura inspirer les développeurs ! En somme, si les IA n’ont pas encore toutes les réponses, elles peuvent toujours essayer de ne pas exploser leur compte en banque.
Et pour finir sur une note humoristique, souvenez-vous : dans le grand test de l’intelligence, il semble que les IA sont toujours dans le brouillard… des pixels colorés !
Source : Techcrunch