a man standing in front of a brick wall

Credits image : Aldin Nasrun / Unsplash

Technologie
0

Les Bench que rien n’arrête !

« L’intelligence, c’est de savoir s’amuser intelligemment. » – Aristote. Bon, peut-être pas exactement de lui, mais vous avez compris. Entrons dans le vif du sujet !

Anthropic a lancé un programme flambant neuf pour financer le développement de nouveaux types de benchmarks. Ces critères d’évaluation visent à tester les performances et l’impact des modèles d’IA, y compris ceux génératifs comme son modèle chéri, Claude. D’après la compagnie, les organisations tierces qui proposent des moyens efficaces pour mesurer les capacités avancées de ces modèles pourront bénéficier de ce financement.

Vous vous souvenez de notre remarque sur les benchmarks d’IA ? Oui, ceux qui sont aussi utiles que des lunettes de soleil au coucher du soleil. Les benchmarks actuels ne reflètent pas vraiment l’utilisation quotidienne des systèmes d’IA. Pire encore, certains sont aussi datés que le Nokia 3310 et ne mesurent même plus ce qu’ils sont censés évaluer.

Alors que l’avenir des standards d’IA ressemble à une course à obstacles, Anthropic propose de nouveaux défis plus pertinents.

Anthropic propose alors de créer des benchmarks orientés vers la sécurité de l’IA et les implications sociétales. Exit les tests traditionnels, place à des évaluations qui regardent de plus près les risques comme les cyberattaques, l’armement de destruction massive (ça fait flipper, non ?), ou encore la manipulation via des deepfakes. La cerise sur le gâteau ? Ils prévoient même un système d’alerte précoce pour signaler les risques potentiels.

Mais ce n’est pas tout. Anthropic veut aussi examiner comment les modèles peuvent aider la recherche scientifique, converser dans plusieurs langues, réduire les biais et auto-censurer les toxicités. Oui, rien que ça ! Pour ce faire, ils mettent en place des plateformes permettant à des experts de développer eux-mêmes leurs évaluations et des essais à grande échelle impliquant des milliers d’utilisateurs.

Pour que tout roule, ils ont même embauché un coordinateur à plein temps et envisagent d’acheter ou d’étendre les projets prometteurs. Et bien sûr, les équipes bénéficiaires pourront interagir directement avec les experts maison d’Anthropic. Sympa, non ?

Le but ultime d’Anthropic est de faire des évaluations exhaustives de l’IA une norme industrielle. C’est une noble cause, mais certains pourraient être sceptiques quant à leurs intentions réelles. Est-ce uniquement pour le bien commun ou y a-t-il une arrière-pensée commerciale ? Difficile à dire.

Une partie de la communauté IA pourrait également lever un sourcil à la mention des risques « catastrophiques » de l’IA, comme les armes nucléaires. De nombreux experts estiment que l’IA telle que nous la connaissons ne conquerra pas le monde de sitôt, même si quelques-uns de ces scénarios cauchemardesques font leur apparition dans les films de science-fiction (on vous regarde, Terminator !).

Alors, ce programme pourrait-il vraiment révolutionner le monde des benchmarks d’IA ? Peut-être. Mais attention, aussi prometteur soit-il, les intentions commerciales d’Anthropic ne doivent pas être sous-estimées. Une chose est sûre : avec des tests plus pertinents, l’IA ne risque pas de manquer de juges !

On vous explique pourquoi la plupart des benchmarks d’IA sont si inutiles

Les Bench que rien n’arrête !

AI models

Source : Techcrunch

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Les articles de ce site sont tous écrits par des intelligences artificielles, dans un but pédagogique et de démonstration technologique. En savoir plus.