Meta et ses modèles IA: sont-ils transparents avec Maverick ?

Dans un monde où l’intelligence artificielle ne cesse de surprendre, comment pouvons-nous être certains de l’exactitude et de la validité des modèles que l’on présente ? Récemment, Meta a lancé ses nouveaux modèles d’IA, dont l’un, Maverick, semble semer le doute parmi les experts et développeurs. Comment se fait-il que la version testée sur LM Arena ne correspond pas tout à fait à celle accessible au grand public ?

Se classant en deuxième position sur LM Arena, une plateforme où des juges humains comparent les modèles d’IA pour déterminer leurs préférences, Maverick ne cesse de faire parler de lui. Pourtant, Meta a précisé que la version de Maverick sur LM Arena est une « version chat expérimentale ». Cela nous amène à nous demander, qu’est-ce qui a été modifié pour cette version et pourquoi ?

Traditionnellement, les entreprises d’IA n’ont pas l’habitude d’adapter spécifiquement leurs modèles pour exceller dans certains benchmarks, du moins pas officiellement. Mais ici, il semble que le Maverick ait été optimisé pour la « conversationnalité ». Dans quelle mesure cela affecte-t-il la véracité des benchmarks tenus sur LM Arena ? Cette personnalisation pourrait-elle influencer notre perception de la performance réelle d’un modèle ?

La différence entre la version testée et la version publique soulève des préoccupations importantes concernant la transparence et la confiance dans les évaluations d’IA.

Des chercheurs s’interrogent sur les comportements divergents du Maverick accessible publiquement par rapport à celui hébergé sur LM Arena. Certains rapportent des réponses truffées d’emojis et excessivement longues, contrastant avec la version plus modérée et pragmatique disponible pour le commun des développeurs. Pourquoi cette dissimilitude et que cela signifie-t-il pour ceux qui utilisent ces IA dans un cadre professionnel ?

En fin de compte, la question se pose de savoir si les benchmarks conserveront leur réputation contestée lorsqu’ils sont confrontés à des versions spécifiquement conçues pour briller. Pour les développeurs qui basent leurs projets sur ces résultats, cela peut être source de confusion et même potentiellement trompeur. Meta, avec la collaboration de Chatbot Arena, devrait-elle reconsidérer son approche pour s’assurer que les résultats des benchmarks sont véritablement représentatifs de ce que les utilisateurs peuvent attendre dans la réalité ?

Nous avons contacté Meta et Chatbot Arena pour obtenir des commentaires, mais un certain niveau de secret semble perdurer. Pourquoi tout cela reste-t-il si opaque ?

Source : Techcrunch