« Quand on parle du loup, on en voit la queue. Ou dans ce cas, quand on parle d’IA, on voit des images ! »
Mercredi dernier, Google a levé le voile sur un modèle d’intelligence artificielle musclé, baptisé Gemini 2.0 Flash. Vous devez sûrement vous demander ce que cette petite merveille de technologie a dans le ventre, surtout face à la déferlante des nouveautés signées OpenAI. Eh bien, Gemini décide de jouer sur plusieurs tableaux, en générant non seulement du texte, mais aussi des images et de l’audio, de façon totalement native. En gros, c’est comme si votre smartphone pouvait soudainement devenir un maître zen, capable de jongler avec tout.
Ce nouveau prodige n’atteindra nos mains curieuses qu’en 2024. Mais patience est mère de toutes les vertus ! Gemini 2.0 Flash commence son coup d’essai en décapotable, puisqu’il n’est disponible que pour les partenaires en accès anticipé pour ses prouesses d’audio et d’image. D’ici là, Google propose de s’aventurer sur ce tronçon technologique via des bretelles que sont les plateformes AI Studio et Vertex AI.
Gemini 2.0 Flash, c’est l’étoile filante de l’IA qui fuse à la vitesse du flux d’idées.
Quand il s’invite aux banquets des développeurs, 2.0 Flash œuvre avec des alliés tels qu’Android Studio et Chrome DevTools. Il propose également ses talents à un parterre d’applications démangeantes de nouvelles perspectives, comme Firebase et Gemini Code Assist. Ce modèle nouvelle pratique n’a rien d’un simple texto, il connaît ses codes et parle le langage des chiffres – du moins, en théorie !
Mais ce qui rend cette étoile encore plus scintillante est sa potion magique pour la création d’audio. Imaginez un narrateur à la demande, avec huit voix différentes, chacune optimisée pour manier les accents et les langues diversifiées. Besoin d’une voix persuasive pour vos récits de pirates ? Gemini est aussi polyvalent que curieux ! C’est comme demander à votre enceinte connectée de monter à bord d’un galion et de voguer dans des accents corsaires.
Une mise en garde tout de même : Google joue la carte de la prudence en estampillant toutes les images et sons de son 2.0 Flash, grâce à sa technologie SynthID. Une prévenance bienveillante dans ce monde où la menace des deepfakes s’immisce sournoisement dans le quotidien.
En attendant sa version grand public en janvier, Google prépare le terrain avec son API Multimodal Live qui promet aux développeurs des applications multimédia en temps réel. Que ce soit pour suivre du son, de la vidéo, voire des interruptions plus naturelles que les discussions familiales à Noël, tout semble déjà prêt pour une synergie spectaculaire. Comme quoi, il ne faut jamais vendre la peau de l’ours avant de l’avoir définitivement programmé.
Avec tout cela, on ne peut s’empêcher de penser : avec Flash, Google ne compte pas tourner autour du pot, mais bien embrasser à fond toute la lumière de son potentiel !
Source : Techcrunch