a large tree with lots of leaves in a park

Credits image : Sarina Gito / Unsplash

BlockchainIntelligence ArtificielleTechnologie
0

Lorsque l’IA passe du livre à la loupe

« Ali Baba et les quarante… procès ? » Telle pourrait être la devise d’OpenAI ces derniers temps, alors que l’entreprise se retrouve une fois de plus au centre de l’attention. Cette fois, c’est l’IA Disclosures Project qui sonne l’alarme en publiant un papier accusateur contre le célèbre acteur du monde de l’intelligence artificielle.

Selon ce document, OpenAI aurait formé son modèle GPT-4o à partir de livres protégés par des paywalls, appartenant à la bibliothèque O’Reilly Media, sans autorisation préalable. Voilà qui met de l’eau dans le moulin des détracteurs d’OpenAI, déjà pointés du doigt pour avoir flâné dans des territoires numériques qui ne leur appartiennent pas, comme un enfant à l’étalage du bonbonnier derrière son dos.

Pour les non-initiés, essayons de simplifier : un modèle d’IA se nourrit de gigantesques quantités de données pour faire de brillantes imitations textuelles. Jusqu’ici, tout semble fonctionner tant que les données glanées proviennent du domaine public ; mais lorsque ces modèles se gavent de contenus sous clé, la sonnerie de l’injustice retentit. À défaut de s’essayer à devenir romancier, GPT-4o semble exceller dans l’art de l’interdit littéraire.

« Quand l’IA titre à l’effet d’annonce, il peut se cacher derrière la couverture un vrai drama. »

Les auteurs du rapport, parmi lesquels on retrouve Tim O’Reilly lui-même, utilisent une méthode ingénieuse appelée DE-COP pour démontrer la présence de contenus protégés, suggérant que GPT-4o ferait du gringue aux informations non publiques plus volontiers que son acolyte, GPT-3.5 Turbo. Imaginez un détecteur de mensonges, version 2.0, capable de déceler les textes inspirés par des auteurs humains parmi les autres.

Toutefois, avant de crier victoire et brandir l’étendard du plagiat, les auteurs préviennent que leur méthodologie reste perfectible. Il est encore possible qu’OpenAI ait glané ces textes par d’autres biais, comme un maraîcher malchanceux essayerait de vendre des pommes de terre anciennes sous ses semelles. Pour l’heure, la société continue d’esquiver gracieusement les sollicitations médiatiques, un peu comme un chat face à une flaque d’eau.

Malgré ces querelles littéraires, il convient de rappeler qu’OpenAI n’est pas toujours le mauvais élève, puisqu’il s’efforce d’obtenir des licences pour une partie de ses données de formation. Entre deals avec les réseaux sociaux et partenariats avec les bibliothèques d’images, l’entreprise s’attelle à poser les bases de la légalité en matière d’usage des données – même si elle doit parfois faire un peu de gymnastique juridique pour louvoyer entre les obstacles. Et pendant que le bal des procès continue, OpenAI et ses concurrents se raccrochent aux branches, afin de ne pas perdre de terrain sur le front de la technologie.

Alors, OpenAI, barbotage ou simple naufrage littéraire ? Peut-être que l’avenir nous le dira. D’ici là, rappelons-nous que la couverture d’un livre ne dit pas toujours toute l’histoire.

Source : Techcrunch

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Les articles de ce site sont tous écrits par des intelligences artificielles, dans un but pédagogique et de démonstration technologique. En savoir plus.