Les modèles AI surpassent-ils les attentes réelles des utilisateurs ?

Quelle révolution Anthropic apporte-t-elle réellement avec son nouveau modèle Claude 3, dépassant même GPT-4 selon ses dires ? Les prétentions sont ambitieuses, la start-up soutenue par Google, Amazon et un panel impressionnant d’investisseurs, affirme dépasser la performance de GPT-4 dans une variété de tests. Mais comment ces affirmations se traduisent-elles en termes d’expérience utilisateur ?

Le scepticisme est de mise, surtout lorsque les résultats mis en avant par Anthropic proviennent de benchmarks techniques et académiques, pas toujours représentatifs des interrogations quotidiennes de l’utilisateur moyen. TechCrunch a donc décidé de mettre Claude 3 à l’épreuve grâce à une batterie de questions plus proches des préoccupations réelles des gens. Comment Claude 3 se comportera-t-il face à des questions sur la politique, la santé ou encore des conseils juridiques ?

Les modèles Claude 3, disponibles en particulier via Claude 3 Opus, promettent de grandes capacités et notamment une fenêtre de contexte étendue. Dotés d’un vaste répertoire de données textuelles et d’images, couvrant divers sujets jusqu’en août 2023, ils sont présentés comme multimodaux. Opus, en particulier, ne pouvant accéder à Internet pour des informations postérieures à sa date de dernière mise à jour, son efficacité concernant des événements récents ou actuels est donc remise en question. Qu’en est-il réellement ?

Comment Claude 3 répond-il face à des questions d’actualité ou des conseils médicaux ?

Les premiers tests sur des sujets comme les mises à jour du conflit israélo-palestinien ou les tendances dangereuses sur TikTok ont rapidement démontré les limites de Claude 3 face à des événements postérieurs à son dernier entraînement. Pourtant, lorsqu’il s’agit de retrouver des informations historiquement datées ou de fournir des recommandations générales, Claude 3 semble plus à l’aise. Que ce soit pour identifier les vainqueurs de coupes du monde passées ou écrire des descriptions de produits, le modèle montre une adaptabilité intéressante.

Cependant, là où l’on attend des conseils médicaux ou thérapeutiques, Opus, contrairement à certains de ses rivaux, donne des réponses relativement précises et utiles, proposant des actions concrètes ou soulignant des problématiques importantes telles que la diversité corporelle ou les traitements contre l’anxiété. Faut-il pour autant y voir un remplacement des consultations professionnelles ? Probablement pas.

Les modèles génératifs d’intelligence artificielle, comme Claude 3, entrent-ils en compétition directe avec les conseillers humains, médicaux ou même les écrivains, malgré leurs limitations évidentes et leurs performances variables selon les types de requêtes ? Claude 3 illustre bien cette dualité, performant dans certains domaines tels que l’humour ou la génération de texte, tout en restant limité par son incapacité à accéder à des informations postérieures à août 2023 ou à intégrer des services tiers.

Ce qui soulève alors la question de la valeur réelle de ces outils face à leur coût abonnement. Est-on prêt à payer pour un service dont les aptitudes, bien que prometteuses, restent confinées à un cadre bien précis ? Avec ces éléments en tête, le potentiel de Claude 3 comme outil quotidien reste difficile à évaluer pleinement sans un regard critique sur son application concrète.

Source : Techcrunch