Comment les géants de la technologie garantissent-ils la précision de leurs intelligences artificielles génératives ? Derrière chaque réponse fluide et chaque interaction apparemment intuitive des chatbots se trouve une armée de « prompt engineers » et d’analystes. Leur mission ? Évaluer l’exactitude des réponses pour mieux entraîner l’IA. Mais que se passe-t-il quand des directives internes remettent en question leurs méthodes de travail ?
Un récent changement interne chez Google, impliquant des sous-traitants travaillant sur Gemini, soulève des inquiétudes. Gemini pourrait-il fournir des informations inexactes sur des sujets délicats comme la santé ? D’après des documents internes obtenus par TechCrunch, une nouvelle directive interdit aux contractants de « passer » certaines tâches, même si elles dépassent leur expertise. Pourquoi une telle décision, et quel impact cela pourrait-il avoir sur la qualité des réponses générées par l’IA ?
Auparavant, les contractants, employés via GlobalLogic, une société appartenant à Hitachi, pouvaient ignorer les prompts en dehors de leur domaine de compétence. Cela garantissait que seules des personnes qualifiées évaluaient les réponses en fonction de critères tels que la « véracité ». Mais avec le changement récent, cette capacité à « passer » les tâches a été restreinte, soulevant des questions sur la capacité des contractants à évaluer correctement des sujets spécialisés.
L’absence de possibilité de skip accroît-elle le risque d’imprécisions fatales?
Les nouveaux directives obligent les contractants à essayer de noter les parties qu’ils comprennent tout en signalant leur manque de connaissances spécialisées. Cela pourrait avoir des conséquences directes sur la précision des informations partagées par Gemini, surtout lorsqu’il s’agit de sujets aussi techniques que les maladies rares. Que signifie-t-il pour la fiabilité de l’IA lorsque les évaluateurs ne sont pas suffisamment qualifiés pour évaluer la précision des déclarations?
Pourquoi Google a-t-il pris une telle décision, et pourquoi n’a-t-il pas répondu aux demandes de commentaires ? Il semble que seuls deux scénarios permettent aux contractants d’ignorer un prompt : soit lorsque des informations cruciales manquent, soit lorsque le contenu est potentiellement nocif. Ces restrictions obligent-elles les évaluateurs à naviguer des terrains inconnus sans les outils appropriés ?
Ces changements dans la gestion des évaluations de l’IA soulèvent des questions essentielles sur l’avenir de l’IA générative. Comment peut-on garantir l’exactitude sans experts pour superviser les réponses critiques? Et la confiance du public dans les conseils prodigués par une IA sans surveillance adéquate est-elle en jeu?
Google est-il prêt à prendre la responsabilité des erreurs potentielles causées par ces nouvelles directives, surtout dans des domaines sensibles ? Devrait-on s’inquiéter de la manière dont ces intelligences sont formées et contrôlées ?
Source : Techcrunch