« Les grandes intelligences artificielles sont comme des boîtes noires », dit-on souvent. Eh bien, OpenAI s’est lancé dans l’archéologie pour creuser ces boîtes et démystifier les secrets qu’elles renferment !
OpenAI développe en effet un outil pour identifier automatiquement les parties responsables du comportement de ses propres modèles de langage, tels que ChatGPT. Bien que le projet en soit encore à ses débuts, le code est déjà disponible en open source sur GitHub.
Le but de cet outil n’est pas des moindres : comprendre et anticiper les problèmes potentiels des modèles IA afin de garantir des réponses fiables et contrôlées. Pour ce faire, l’outil d’OpenAI se penche sur la structure des modèles, étudiant leur architecture et cartographiant leur « cerveau ».
L’outil d’OpenAI ouvre la boîte noire des modèles de langage et révèle les secrets de leur fonctionnement.
Pour les non-initiés, les modèles de langage sont composés de « neurones » chargés d’interagir avec des structures de texte pour influencer les réponses du modèle. L’outil développé par OpenAI utilise cette structure pour décomposer les modèles en leurs éléments essentiels. Il examine ensuite les cas où un neurone particulier s’active fréquemment et génère une explication. Pour vérifier l’exactitude de celle-ci, l’outil compare le comportement du neurone simulé à celui du neurone réel.
Les chercheurs d’OpenAI ont réussi à générer des explications pour tous les 307 200 neurones de leur modèle GPT-2. Les explications et le code de l’outil sont disponibles avec le dataset sorti récemment.
Un jour, des outils comme celui-ci pourraient être utilisés pour améliorer les performances des modèles de langage en réduisant leurs biais et leur toxicité. Cependant, il reste encore du chemin à parcourir avant d’en arriver là. Actuellement, l’outil est capable d’expliquer avec confiance environ 1 000 neurones, une fraction infime du total.
Neuro’Dig : OpenAI fait parler les neurones
AI Neurons
Source : Techcrunch