L’intelligence artificielle évolue à une vitesse fulgurante, mais comment s’assurer que ses performances sont vraiment mesurées avec précision ? C’est la question que se pose aujourd’hui OpenAI, une entreprise à l’avant-garde de cette technologie, qui pense que les critères de référence utilisés pour évaluer l’IA sont dysfonctionnels. Que propose-t-elle pour améliorer cette situation?
OpenAI vient de lancer le Pioneers Program, une initiative destinée à créer des évaluations plus pertinentes pour les modèles d’IA. Selon un billet de blog publié par l’entreprise, l’idée est de « définir des standards pour ce que l’on peut qualifier de bon ». En d’autres termes, il s’agit de définir de nouveaux critères de qualité pour s’assurer que l’IA réponde véritablement aux attentes du monde réel. Mais de quoi s’agit-il exactement?
Plus l’adoption de l’IA s’accélère dans divers secteurs, plus il devient crucial de comprendre son impact général. OpenAI insiste sur l’importance de créer des évaluations propres à chaque domaine pour évaluer la performance des modèles dans des contextes concrets. Un tel besoin est accentué par les controverses actuelles autour des benchmarks existants qui, soit se concentrent sur des tâches trop spécialisées, soit sont aisément manipulables. Alors, peut-on vraiment faire confiance aux critères actuels?
La véritable question est de savoir si la communauté IA acceptera ces nouvelles normes soutenues par OpenAI.
Le Pioneers Program prévoit de créer des benchmarks dédiés à des secteurs spécifiques comme le droit, la finance, l’assurance, la santé et la comptabilité. OpenAI prévoit de collaborer avec plusieurs entreprises pour concevoir ces critères et, à terme, les publier en accès libre. Mais quel sera l’impact de ces benchmarks sur les industries concernées?
La première cohorte du programme comprendra des startups sélectionnées pour leur capacité à exploiter l’IA dans des cas d’utilisation à fort potentiel. OpenAI envisage d’utiliser des techniques comme le « renforcement par ajustement fin » pour optimiser les modèles pour des tâches bien précises. Cela signifie que les modèles d’IA pourraient être ajustés pour exceller dans des tâches définies avec précision. Mais cela suffira-t-il pour instaurer la confiance?
Reste à savoir si la communauté IA acceptera ces benchmarks soutenus financièrement par OpenAI, alors même que l’éthique de telles collaborations peut être remise en question. OpenAI a déjà participé à des efforts de benchmark, mais que penser de la transparence et de l’objectivité de telles mesures lorsqu’elles sont associées à des intérêts commerciaux?
Ces efforts soulèvent une question cruciale : dans un domaine où la mesure de performance est si cruciale, qui devrait véritablement être aux commandes de définir de tels standards?
Source : Techcrunch