La guerre des moteurs de recherche: Qui contrôle vraiment Reddit?

Que se passe-t-il réellement dans les coulisses de Reddit et de ses relations avec les moteurs de recherche? Le mois dernier, Reddit a annoncé qu’il empêcherait le scraping non autorisé de ses données, ce qui a immédiatement suscité des réactions centrées sur l’intelligence artificielle (IA). Mais qui d’autre est affecté par cette décision radicale?

En interdisant le scraping, Reddit ne se contente pas de bloquer les créateurs de chatbots mais semble aussi fermer la porte à plusieurs grands moteurs de recherche, à l’exception notable de Google et de Brave. Pourquoi une telle sélectivité? D’après un porte-parole de Reddit, cela découle du refus des concurrents de Google de se conformer aux nouvelles exigences de Reddit en matière de formation des IA.

Avons-nous affaire à une simple affaire de respect des protocoles ou à quelque chose de plus intrigant? Selon 404 Media et confirmé par Engadget, lorsqu’on utilise Bing pour chercher des résultats Reddit récents, on se trouve face à une page vide. DuckDuckGo, quant à lui, affiche des liens sans descriptions, suggérant de nombreuses restrictions imposées par Reddit.

La relation entre Reddit et Google semble être au cœur de cette controverse.

Reddit force-t-il donc la main des autres moteurs de recherche dans une tentative de contrôle plus strict? En réponse aux allégations, Reddit a clarifié qu’ils bloquaient tous les crawlers qui refusaient de s’engager à ne pas utiliser les données pour l’entraînement des IA, en accord avec leur politique de contenu public actualisée. Alors, pourquoi ces différences de traitement entre Google et les autres moteurs de recherche?

Microsoft, créateur de Bing, a refusé de se conformer aux nouvelles conditions de Reddit concernant le scraping par IA, entraînant l’impasse actuelle. S’agit-il d’un simple problème de conformité ou d’une guerre plus large autour de la confidentialité des données et des profits potentiels tirés de ces précieuses informations?

Le fichier robots.txt, bien qu’étant une norme, est souvent ignoré par certains crawlers. Google, cependant, semble respecter généralement ces directives, insistant sur une approche manuelle pour contourner certaines restrictions. Voyons-nous ici une manipulation stratégique entre deux géants pour des avantages financiers?

La tension entre les entreprises pour accéder aux données nécessaires à l’entraînement des chatbots IA est palpable. Reddit, en verrouillant ses données, cherche-t-il seulement à protéger ses intérêts financiers, ou assiste-t-on à une tentative de sécurisation de la toile entière à ses propres fins? Faut-il y voir une ironie dans le fait que Microsoft, pilier de l’ère actuelle de l’IA, se retrouve en quelque sorte perdant dans cette situation particulière?

Colin Hayhurst, PDG de Mojeek, un moteur de recherche moins connu mais sans suivi, a déclaré que Reddit « tue tout pour la recherche sauf Google ». Pourquoi Reddit n’a-t-il pas répondu aux tentatives de Mojeek de résoudre ces questions? Est-ce alors juste un cas d’ignorance ou une stratégie délibérée?

En fin de compte, Reddit semble tirer parti de l’âge de l’IA pour renforcer sa position et protéger ses précieuses ressources de données. L’impact sur les utilisateurs et les développeurs tiers est indéniable, mais quel sera le véritable coût pour l’écosystème du web ouvert? Est-ce une étape vers une plus grande privatisation des données, ou simplement une nécessité dans un monde où l’IA domine le paysage technologique?

Source : Engadget