On dit souvent que la meilleure défense, c’est l’attaque. Mais, peut-être préférez-vous vous asseoir sur le banc avant de décider quelle est la meilleure équipe de machine learning pour « attaquer » vos données ? C’est ce que Arthur, une start-up spécialisée dans le suivi de l’apprentissage machine, semble penser. Cette année, Arthur a profité de l’intérêt pour l’IA générative et elle a développé des outils pour aider les entreprises à travailler plus efficacement avec les LLM. Aujourd’hui, elle lance Arthur Bench, un outil open source pour aider les utilisateurs à trouver le meilleur LLM pour un ensemble particulier de données.
Adam Wenchel, PDG et co-fondateur de Arthur, indique que l’entreprise a constaté un fort intérêt pour l’IA générative et les LLM. C’est pour cela qu’elle a mis beaucoup d’efforts dans la création de produits, aussi variés que les pizzas dans une trattoria italienne.
« Nous créons des outils pour que les entreprises puissent bien travailler avec les LLM car chaque LLM est aussi unique qu’une empreinte digitale. »
Selon M. Wenchel, les entreprises ne disposent pas d’un moyen organisé pour mesurer l’efficacité d’un outil par rapport à un autre, moins d’un an après la sortie de ChatGPT. C’est précisément pourquoi Arthur Bench a été créé. « Arthur Bench résout l’un des problèmes critiques que nous entendons avec chaque client : parmi tous les choix de modèles, lequel est le meilleur pour votre application particulière », a expliqué M. Wenchel à TechCrunch.
Arthur Bench propose une suite d’outils permettant de tester méthodiquement les performances. Mais la vraie valeur ajoutée est qu’il permet de tester et de mesurer comment les types de prompts que vos utilisateurs utiliseraient pour votre application spécifique vont fonctionner avec différents LLM. C’est un peu comme un concours de robots servant à déterminer lequel est le meilleur chef cuisinier !
Et attention, ne vous y trompez pas, Arthur Bench est un véritable laboratoire de test. « Vous pourriez potentiellement tester 100 prompts différents, puis voir comment deux LLM différents – comme Anthropic comparé à OpenAI – réagissent aux prompts que vos utilisateurs sont susceptibles d’utiliser », déclare Wenchel. Et ce, à grande échelle, pour prendre une meilleure décision sur le modèle le plus adapté à votre cas d’utilisation.
Arthur Bench est lancé aujourd’hui en version open source. Une version SaaS sera également disponible pour les clients qui ne souhaitent pas gérer la complexité de la version open source, ou qui ont des exigences de test plus importantes et sont prêts à payer pour cela. Mais pour l’instant, M. Wenchel a déclaré qu’ils se concentraient sur le projet open source.
Et si vous craignez encore que votre LLM ne lâche des hallus comme une vieille radio, sachez qu’en mai, Arthur a lancé Arthur Shield, une sorte de pare-feu LLM conçu pour détecter les hallucinations dans les modèles, tout en protégeant contre les informations toxiques et les fuites de données privées. Maintenant que vous êtes bien équipé, laissez bench-er vos LLM en toute tranquillité !
Source : Techcrunch