Gemini Live: Google marquera-t-il une nouvelle ère dans la communication vocale?

Pourquoi Google a-t-il lancé Gemini Live et comment cette innovation se démarque-t-elle dans un marché saturé d’assistants vocaux?

Lors de l’événement « Made By Google » à Mountain View, en Californie, Google a dévoilé Gemini Live. Et si cet outil marquait le début d’une conversation plus naturelle avec l’intelligence artificielle? En effet, Google semble avoir franchi une étape importante en permettant des dialogues en temps réel avec son dernier modèle de langage. TechCrunch était sur place pour tester cette nouvelle fonctionnalité de première main.

Gemini Live se positionne comme la réponse de Google à l’Advanced Voice Mode de ChatGPT d’OpenAI. Alors qu’OpenAI a montré cette fonctionnalité en premier, Google est le premier à la déployer officiellement. Pourquoi Google a-t-il pris l’initiative et comment ce lancement définit-il l’avenir des assistants vocaux?

Google est le premier à déployer officiellement une fonctionnalité avancée de conversation vocale en temps réel.

Les avantages de cette nouveauté sont nombreux. Par rapport à la communication textuelle avec ChatGPT ou à l’utilisation de Siri ou Alexa, ces fonctionnalités vocales à faible latence semblent beaucoup plus naturelles. Gemini Live répond en moins de deux secondes et s’adapte rapidement lorsqu’il est interrompu. Mais est-ce vraiment la révolution qu’on attendait pour une expérience mains libres?

Avant d’engager la conversation avec Gemini Live, l’utilisateur peut choisir parmi 10 voix, toutes créées par des acteurs vocaux. Contrairement aux trois voix d’OpenAI, cette variété offre une touche plus humaine. Par exemple, lors d’une démonstration, un chef de produit Google a demandé verbalement à Gemini Live de trouver des vignobles adaptés aux familles près de Mountain View, incluant des aires de jeux pour enfants. Résultat: Cooper-Garrod Vineyards à Saratoga.

Cependant, Gemini Live n’est pas sans défauts. Parfois, il « hallucine » des informations inexactes, comme un terrain de jeu qui n’existe pas à proximité. De plus, bien que Google mette en avant la capacité d’interrompre l’IA en cours de phrase, cette fonctionnalité reste imparfaite. Pourquoi cette promesse de contrôle total de la conversation n’est-elle pas totalement tenue?

À noter, Google ne permet pas à Gemini Live de chanter ou d’imiter des voix extérieures, probablement pour se conformer aux lois sur les droits d’auteur. De plus, selon le chef de produit Leland Rechis, Google ne se concentre pas sur la compréhension des intonations émotionnelles de la voix de l’utilisateur, contrairement à OpenAI. Est-ce un choix judicieux pour une entreprise de la taille de Google?

En résumé, Gemini Live semble être une excellente manière d’approfondir un sujet de manière plus naturelle que la recherche classique. Google voit cette technologie comme un pas vers Project Astra, le modèle d’IA multimodal que l’entreprise aspire à développer. Pour l’instant, Gemini Live est limité aux conversations vocales, mais Google envisage d’y intégrer des capacités de compréhension vidéo en temps réel à l’avenir. La question demeure: Gemini Live est-il l’avenir des assistants vocaux ou simplement un autre pas dans une longue évolution technologique?

Source : Techcrunch