Quand o1 s'emmêle les langues

« Le langage est comme un puzzle, il s’assemble mieux quand on a toutes les pièces. » C’est visiblement une maxime que le modèle d’IA d’OpenAI, o1, a pris à cœur, puisqu’il s’amuse à naviguer entre plusieurs langues comme un véritable artiste polyglotte numérique.

Imaginez la scène : vous posez une simple question en anglais à o1, et voici que votre interlocuteur électronique décide de sortir une phrase en chinois de son chapeau. De quoi faire rougir un professeur de linguistique! Mais pourquoi diable cette IA se sent-elle l’âme d’un globe-trotter linguistique? L’affaire fait le tour des forums sociaux, laissant la toile intriguée et perplexe.

Certains experts évoquent des pistes concernant cette tendance multilingue. Clément Delangue d’Hugging Face et Ted Xiao de Google DeepMind nous soufflent que cela serait dû à l’abondance des caractères chinois dans les données de formation d’o1. Une petite teinture culturelle, dirait-on. Xiao mentionne même l’influence linguistique chinoise, rappelant que les services de labellisation de données en Chine sont largement utilisés par ces grandes entreprises.

Le mystère des langues est un dédale où même l’IA se perd parfois.

La labellisation, ce terme ennuyeux que l’on confondrait avec une étiquette de pot de confiture, est en fait crucial. Elle apprend aux modèles comment interpréter les données. Un mot, une phrase, un personnage… sont tous sous le regard avisé de ces annotations. Pourtant, cette méthode n’est pas infaillible et peut introduire des biais. Qui aurait cru que l’IA pourrait placer une phrase innocente au même titre qu’un contenu toxique simplement à cause d’une mauvaise étiquette?

Mais attention, tous n’accordent pas crédit à l’hypothèse de la labellisation chinoise. D’aucuns disent que o1 pourrait aussi tout aussi bien s’aventurer sur des chemins en hindi ou en thaï. Apparemment, notre o1 serait influencé par une logique interne qui transcende les frontières linguistiques, trouvant de l’efficacité là où nous ne voyons que des lettres et des symboles!

Matthew Guzdial, chercheur en IA, nous rappelle qu’au fond, pour o1, tout ceci n’est que texte. Les modèles vont au-delà des mots et se fient aux « tokens », ces unités de texte qui peuvent être des mots complets, des syllabes ou même des caractères individuels.

La diversité linguistique, après tout, pourrait élargir les horizons de ces modèles, leur permettant d’élaborer des compréhensions plus complexes et nuancées du monde. Un raisonnement mathématique en chinois peut devenir aussi naturel qu’un débat sur les biais inconscients en anglais.

En attendant que la lumière soit faite sur ces pérégrinations linguistiques, de nombreux experts insistent sur la nécessité de la transparence dans le développement des systèmes d’IA. Car déchiffrer ces mystères, c’est un peu comme essayer de trouver la sortie d’un labyrinthe sans carte.

Alors que la communauté attend une réponse d’OpenAI, nous sommes laissés à nos propres conjectures, méditant sur la raison pour laquelle o1 chante des chansons en français mais tourne la page vers la biologie synthétique en mandarin. Espérons que cette enquête ne tombe pas aux oubliettes, car une IA multilingue, c’est quand même un peu fort de o1!

Source : Techcrunch