Quels sont les défis économiques auxquels font face les entreprises lorsqu’elles intègrent l’intelligence artificielle générative à grande échelle ? Alors que de plus en plus d’entreprises passent des prototypes à l’utilisation en production des modèles de langage génératifs (LLM), la question des coûts devient centrale. Comment réduire ces dépenses élevées ? AWS propose des solutions lors de sa conférence re:Invent à Las Vegas.
Commençons par examiner le service de mise en cache. L’idée est simple mais puissante : éviter de payer pour traiter à plusieurs reprises les mêmes questions sur un document. Atul Deo, directeur du produit Bedrock, nous explique comment la mise en cache peut réduire les coûts de 90 % et diminuer la latence des réponses de 85 %. Adobe a déjà testé cette technologie, constatant une réduction de 72 % du temps de réponse. Cette innovation pourrait-elle transformer la manière dont les entreprises gèrent leurs ressources IA ?
La seconde grande nouveauté est le routage intelligent des requêtes. Comment fonctionne-t-il ? Bedrock peut diriger automatiquement les demandes vers différents modèles d’une même famille, en utilisant un petit modèle de langage pour prédire la performance de chaque modèle pour une requête donnée. Cela permet un compromis idéal entre performance et coût. Est-ce vraiment une première dans le domaine ? D’autres startups comme Martian s’aventurent déjà sur ce terrain.
Ces innovations d’AWS marquent-elles le début d’une ère où l’efficacité prime sur la simple puissance de calcul ?
Il est important de noter que cette approche de routage est limitée. Elle ne peut rediriger les requêtes qu’à l’intérieur d’une même famille de modèles, mais AWS envisage de personnaliser davantage ce système à l’avenir. Que nous réservent ces futures évolutions pour les utilisateurs ?
Enfin, AWS innove encore avec un nouveau marché pour Bedrock, destiné aux modèles spécialisés ayant des utilisateurs spécifiques. Bien que le client doive gérer l’infrastructure, ce marché promet d’élargir considérablement l’offre d’AWS. Avec environ 100 nouveaux modèles émergents ajoutés, cette initiative pourrait-elle offrir plus de flexibilité et de choix aux entreprises ?
Alors que le monde de l’IA générative continue de se développer, une question persiste : ces innovations rendront-elles l’utilisation des LLM enfin accessible et abordable pour toutes les entreprises ?
Source : Techcrunch