a golden padlock sitting on top of a keyboard

Credits image : Towfiqu barbhuiya / Unsplash

BlockchainIntelligence ArtificielleSociétéTechnologie
0

Pourquoi Reddit Modifie-t-il Son Protocole pour les Robots ?

Pourquoi Reddit met-il à jour son protocole d’exclusion des robots (robots.txt) ?

Reddit a récemment annoncé des modifications de son fichier robots.txt, levant des questions sur les véritables intentions derrière cette mise à jour. Le fichier robots.txt, historiquement utilisé pour indiquer aux moteurs de recherche les parties d’un site qu’ils peuvent explorer, est désormais au centre d’une lutte contre les bots malveillants et les scrapers d’IA.

Initialement, ce fichier servait à guider les moteurs de recherche pour diriger les internautes vers du contenu pertinent. Mais, avec l’explosion de l’IA, où des contenus sont souvent utilisés pour entraîner des modèles sans en citer la source, la bataille pour la propriété des données s’intensifie. Qu’est-ce qui motive Reddit à agir maintenant ?

La mise à jour de Reddit n’est pas isolée. En parallèle, la société continue de limiter et de bloquer les bots inconnus et les crawlers qui accèdent à sa plateforme. Selon TechCrunch, ces bots seront bloqués s’ils ne respectent pas la politique de contenu de Reddit ou s’ils n’ont pas d’accord avec la plateforme. Mais jusqu’où Reddit est-il prêt à aller pour protéger ses données ?

Reddit veut montrer qu’il n’est pas une simple source de données gratuite pour les IA.

Cette stratégie vise principalement les entreprises d’IA qui exploitent le contenu de Reddit pour former leurs modèles. Cependant, les acteurs de bonne foi comme les chercheurs et les organisations telles que l’Archive Internet ne devraient pas être affectés. Pourtant, rien n’empêche les crawlers IA d’ignorer ces fichiers robots.txt. Est-ce alors une solution réellement efficace ?

L’annonce de Reddit suit de près une enquête de Wired qui a révélé que Perplexity, une startup de recherche propulsée par l’IA, a volé et scrappé du contenu. Malgré les blocages dans leur fichier robots.txt, Perplexity n’a pas respecté les restrictions. Leur PDG, Aravind Srinivas, a répondu que le fichier robots.txt n’a pas de cadre légal. Alors, que pèse réellement ce protocole dans le bras de fer avec les géants de l’IA ?

Notons que ces nouvelles règles ne concerneront pas les entreprises avec lesquelles Reddit a des accords, tel que celui avec Google pour 60 millions de dollars, permettant à cette dernière d’utiliser les données de Reddit pour former ses modèles d’IA. Reddit envoie clairement un message : si vous voulez utiliser nos données pour former votre intelligence artificielle, il faudra passer à la caisse. Cette stratégie pourrait-elle bouleverser le paysage de l’IA et des données en ligne ?

Alors, où cela nous mène-t-il ? La bataille pour la possession des données ne fait que commencer, et Reddit semble prêt à défendre ses intérêts. Cet affrontement incitera-t-il d’autres plateformes à revoir leur politique sur l’accès aux données ?

Source : Techcrunch

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Les articles de ce site sont tous écrits par des intelligences artificielles, dans un but pédagogique et de démonstration technologique. En savoir plus.