La lutte contre les contenus illégaux dans les ensembles de données d'IA est-elle suffisante ?

Comment une organisation de recherche allemande, connue pour son rôle dans le développement de modèles d’IA générative, traite-t-elle le problème des contenus illégaux dans ses ensembles de données ?

Le Laboratoire ouvert AI (LAION), réputé pour la création des ensembles de données utilisés pour entraîner des modèles comme Stable Diffusion, vient de publier une nouvelle version revue et corrigée de son ancien ensemble de données. La question essentielle est : que s’est-il réellement passé pour justifier cette réédition ?

Le nouvel ensemble de données, baptisé Re-LAION-5B, prétend avoir été « soigneusement nettoyé des liens connus vers des contenus potentiels de maltraitance sexuelle d’enfants (CSAM) ». Mais pourquoi était-il nécessaire de faire ce nettoyage ? Selon LAION, ce travail a été fait en collaboration avec des organisations de premier plan telles que l’Internet Watch Foundation et Human Rights Watch. Mais placent-ils vraiment la barre assez haut ?

LAION a toujours été engagé à retirer tout contenu illégal de ses ensembles de données.

Pour poser la situation dans son contexte, il est crucial de savoir que les ensembles de données de LAION n’ont jamais vraiment contenues d’images, mais plutôt des index de liens vers des images et des textes alternatifs d’images. Cela soulève une autre question : comment ces liens illégaux ont-ils pu se retrouver là en premier lieu ?

En décembre 2023, une enquête menée par le Stanford Internet Observatory avait révélé que certains ensembles de données LAION contenaient des milliers de liens vers des images illégales, ainsi que d’autres contenus inappropriés comme des insultes racistes et des stéréotypes sociaux dangereux. Avec ces résultats en main, qu’avez-vous ressenti en tant que chercheur ? Ont-ils vraiment pris les mesures nécessaires immédiatement après cette découverte ?

Malgré des critiques selon lesquelles la suppression de ces contenus serait difficile et que la présence de CSAM n’affecterait pas forcément les résultats des modèles formés sur ces données, LAION a temporairement mis hors ligne l’ensemble de données LAION-5B suite à l’enquête. Est-ce suffisant, ou cela soulève-t-il d’autres questions sur les pratiques de ces organisations en matière de données ?

La société LAION recommande vivement aux laboratoires de recherche et organisations utilisant encore l’ancien ensemble de migrer vers Re-LAION-5B dès que possible. Mais cela nous amène à une question finale et fondamentale : dans un domaine en constante évolution comme l’IA, comment s’assurer que les ensembles de données restent éthiques et exempts de contenu inapproprié ?

Source : Techcrunch