Que se passe-t-il vraiment entre OpenAI, le New York Times, et le Daily News? Les journaux accusent OpenAI d’avoir utilisé leurs contenus protégés par le droit d’auteur pour développer ses modèles d’intelligence artificielle sans autorisation. À qui la faute dans cette affaire complexe de données perdues?
Tout a débuté par la mise à disposition de machines virtuelles par OpenAI permettant au Times et au Daily News de chercher leurs contenus dans les ensembles de données d’entraînement de l’IA. S’agit-il d’une simple mésaventure technique ou d’une négligence de proportion inquiétante? En effet, les avocats des éditeurs affirment qu’une suppression accidentelle a effacé des données cruciales de leurs recherches.
Bien qu’OpenAI ait tenté de récupérer ces données, la structure des dossiers et les noms de fichiers manquants rendent impossible toute utilisation des données remises. Les journaux ont dû refaire un travail titanesque, engageant des ressources humaines et technologiques considérables. Pourquoi tant de temps et d’efforts perdus à une époque où chaque information compte?
La question cruciale demeure: qui est véritablement responsable de cette disparition de données?
Toutefois, les avocats des plaignants semblent pencher pour une explication sans malice intentionnelle, malgré la revendication que OpenAI serait mieux placé pour scruter ses propres bases de données. Quelle pourrait être la prochaine étape dans ce contexte flou, où chaque partie semble pointer du doigt l’autre pour des erreurs de configuration potentiellement désastreuses?
La défense d’OpenAI s’appuie sur l’affirmation que cette perte de données ne résulte que d’une mauvaise configuration demandée par les plaignants eux-mêmes. Est-ce une déclaration qui tient la route, surtout quand les termes et conditions réels de l’utilisation de données par OpenAI paraissent pour le moins vagues?
Sur un plan plus large, la légalité de l’entraînement des modèles IA sur des données disponibles publiquement – comme les articles de presse – est encore débattue. OpenAI soutient que cela relève de l’usage équitable, mais est-ce éthique d’utiliser ces ressources sans rétribution, alors que de nombreux accords de licence sont déjà signés avec d’autres éditeurs?
Avec des accords déjà en place avec des groupes médiatiques majeurs, pourquoi OpenAI hésite-t-il à clarifier sa position sur l’utilisation des contenus protégés par le droit d’auteur sans permission préalable? Faut-il s’attendre à plus de transparence dans l’avenir ou ce mystère juridique reste-t-il insoluble?
Source : Techcrunch