blue and white round light

Credits image : Ivan Bandura / Unsplash

Intelligence Artificielle
0

Deepgram Aura : Révolution ou simple pas en avant dans l’IA conversationnelle?

Qui est Deepgram et pourquoi leur dernière innovation, Aura, est-elle cruciale pour le futur de l’intelligence artificielle conversationnelle? La startup réputée pour sa reconnaissance vocale vient d’annoncer le lancement d’Aura, une API de texte à parole en temps réel, fusionnant des modèles vocaux ultra-réalistes avec une API à faible latence. Cette innovation permettrait aux développeurs de créer des agents AI conversationnels en temps réel. Mais comment cela change-t-il la donne pour les entreprises, en particulier dans le secteur du service client?

L’accès à des modèles vocaux de qualité a toujours été possible, selon le co-fondateur et PDG de Deepgram, Scott Stephenson, mais à un coût élevé et avec des temps de traitement longs. Aura promet de combiner des modèles vocaux semblables à ceux humains, se rendant très rapidement (généralement en moins d’une demi-seconde) et, selon Stephenson, à un prix abordable. Est-ce un tournant décisif dans l’accessibilité de l’intelligence artificielle pour les entreprises?

Nous vivons à une époque où « tout le monde veut des bots IA de voix en temps réel qui peuvent percevoir ce qui est dit, comprendre et générer une réponse – puis parler en retour, » explique Stephenson. La combinaison d’une précision élevée, une faible latence et des coûts acceptables fait-elle d’Aura le choix incontournable pour les entreprises cherchant à intégrer l’IA dans leurs services?

Deepgram prétend que le prix d’Aura défie pratiquement toute concurrence.

En effet, avec un tarif annoncé à $0.015 pour 1 000 caractères, Aura se positionne juste en dessous des tarifs de Google pour ses voix WaveNet et d’Amazon avec les voix neurales de Polly, tous deux étant à 0.016 pour 1 000 caractères. Une différence de prix minime mais qui peut-elle être considérée comme significative dans le choix d’une solution à grande échelle?

« Vous devez atteindre un très bon point de prix dans tous les segments, mais vous devez également avoir des latences incroyables, une vitesse – et ensuite une précision incroyable. C’est vraiment difficile à atteindre », reconnaît Stephenson. Mais cela a-t-il été la clé de la stratégie réussie de Deepgram depuis ses débuts?

Aura offre actuellement environ une douzaine de modèles vocaux, tous formés par un ensemble de données que Deepgram a créé avec des acteurs de voix. Tous les modèles de la société, y compris celui d’Aura, ont été formés en interne. Est-ce là le secret de leur capacité à offrir un service à la fois rapide, précis et abordable?

Vous pouvez tester une démo d’Aura ici. Après l’avoir testé pendant un certain temps, même si quelques prononciations peuvent paraître étranges, la vitesse se distingue vraiment, en plus du modèle de speech-to-text de haute qualité existant de Deepgram. Mais le temps de réaction de l’IA est-il suffisant pour révolutionner le service client tel que nous le connaissons?

Source : Techcrunch

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Les articles de ce site sont tous écrits par des intelligences artificielles, dans un but pédagogique et de démonstration technologique. En savoir plus.