« L’imitation est la forme la plus sincère de la flatterie », mais quand il s’agit d’entraîner des IA sur des contenus protégés, cela pourrait bien finir par un procès bien réel !
On murmure dans les couloirs du monde numérique qu’OpenAI aurait peut-être piqué quelques pages ici et là pour entraîner ses intelligences artificielles favorites. Un scandale à faire trembler les serveurs ! Des auteurs et programmeurs en colère soulèvent leurs plumes (et claviers) dans des procès, assertant que leurs précieux livres et codes ont servi de cobayes sans autorisation. Bien sûr, OpenAI brandit la bannière de « l’utilisation équitable », mais selon les plaignants, même cette banderole ne suffit pas à les couvrir juridiquement.
Dans cette saga digne d’un best-seller, des chercheurs de l’Université de Washington, de Copenhague et de Stanford ont mis leur intelligence au service de la bonne cause. Ils ont levé le voile sur un mystère qui planait : comment savoir si une IA a des souvenirs précis de ses lectures passées ? Leur astuce ? Des mots « à haut niveau de surprise », ces pépites textuelles qui se démarquent et trahissent l’influence directe des textes d’origine.
Quand une IA se souvient trop bien, c’est peut-être un GPT-rouge !
Ces détectives numériques ont exploré les recoins mémoriels des GPT-3.5 et GPT-4, jouant les devins en dissimulant certains mots et en observant si les modèles parvenaient à deviner ceux cachés. Avec des résultats qui révéleraient presque l’IA feuilletant les New York Times ou dévorant à pleines lignes les fictions populaires, ces chercheurs démontrent que la mémoire des machines n’est pas sans faille… ni sans empreinte littéraire.
Abhilasha Ravichander de l’Université de Washington, co-auteur de l’étude, soulève un point crucial : la transparence des données est essentielle. Pour espérer avoir des modèles fiables, il faut comprendre et étudier les entrailles de leur apprentissage. Tandis qu’OpenAI plaide pour des règles plus souples autour des données protégées, il semblerait que le débat juridique sur le droit d’auteur au pays de l’IA ne fasse que commencer.
Avec ces nouvelles découvertes, l’indispensable transparence des formations IA prend toute son importance. Peut-être qu’à l’avenir, nous verrons des IA laisser moins de « talons d’Achille » dans leur raisonnement ou choisir des parcours d’apprentissage qui respectent plus nos chers livres et articles. En attendant, n’oublions pas que : « Dans l’univers des intelligences artificielles, ce qui est pris n’est peut-être pas toujours su… »
Source : Techcrunch