Quel futur pour les tests de sécurité des modèles IA?

Les tests actuels pour évaluer la sécurité des modèles de l’IA sont-ils suffisants? Face à une demande croissante pour une IA sûre et fiable, de nouveaux tests et benchmarks voient le jour, mais sont-ils à la hauteur de cette importante mission?

Les modèles d’IA générative, capables d’analyser et de produire du texte, des images et plus encore, suscitent des inquiétudes croissantes quant à leur imprévisibilité et erreurs potentielles. Divers organismes, des agences publiques aux grandes entreprises tech, proposent désormais des benchmarks pour évaluer la sécurité de ces modèles, mais qu’en est-il de leur efficacité?

En fin d’année dernière, la startup Scale AI a établi un laboratoire dédié à l’évaluation de la sécurité des modèles. Plus récemment, le NIST et l’U.K. AI Safety Institute ont mis au point des outils pour évaluer les risques liés aux modèles d’IA. Toutefois, ces évaluations sont-elles vraiment à la hauteur des attentes?

« Malgré leur utilité, les évaluations actuelles sont souvent incomplètes et peuvent être manipulées. »

L’Ada Lovelace Institute (ALI) au Royaume-Uni a récemment mené une étude en interrogeant des experts issus de divers laboratoires académiques et sociétés civiles. Les conclusions sont sans appel: bien que les évaluations actuelles soient utiles, elles présentent de nombreuses lacunes et ne reflètent pas forcément le comportement des modèles dans des scénarios réels. Pourquoi ces tests sont-ils alors jugés insuffisants?

Elliot Jones, chercheur senior à l’ALI, souligne que les produits que nous utilisons au quotidien, qu’il s’agisse de smartphones, de médicaments ou de voitures, sont soumis à des tests rigoureux avant leur mise sur le marché. Pourquoi ne pas exiger le même niveau de rigueur pour les modèles d’IA?

Les désaccords sont frappants au sein de l’industrie de l’IA concernant les méthodes d’évaluation. Certains tests se concentrent uniquement sur les modèles en laboratoire sans prendre en compte leur impact potentiel sur les utilisateurs finaux. Les spécialistes interrogés notent également que l’évaluation de la performance d’un modèle via des benchmarks peut être trompeuse, surtout si le modèle a été entraîné sur les mêmes données que celles utilisées pour le tester. La contamination des données est-elle alors une vraie menace pour la fiabilité des benchmarks?

Mahi Hardalupas, chercheur à l’ALI, explique que les développeurs peuvent manipuler les benchmarks en entraînant les modèles sur les mêmes jeux de données que ceux utilisés pour les évaluations, biaisant ainsi les résultats. De plus, la variance même minime dans un modèle peut causer des changements de comportement imprévisibles, compromettant les fonctionnalités de sécurité. Ne devrait-on pas régulièrement revoir et adapter ces tests pour qu’ils restent pertinents?

Le « red-teaming », bien que largement utilisé pour identifier les failles des modèles, présente également des défis. Selon les experts, cette méthode manuelle est coûteuse et fastidieuse, mettant les plus petites entreprises à désavantage. Comment ces entreprises peuvent-elles assurer la sécurité de leurs modèles avec des ressources limitées?

Pour surmonter ces obstacles, il faudrait plus d’engagement des organismes publics. Hardalupas insiste sur la nécessité pour les autorités de clarifier leurs attentes vis-à-vis des évaluations, tout en exigeant plus de transparence des communautés d’évaluateurs quant à leurs limitations. Est-ce le début d’une collaboration renforcée entre le secteur public et privé pour une IA plus sûre?

Source : Techcrunch