Peut-on imaginer un outil qui crée des bandes sonores pour nos vidéos sans aucune intervention humaine? C’est exactement ce que le laboratoire d’intelligence artificielle DeepMind de Google tente de réaliser avec son nouveau projet de technologie vidéo-à-audio (V2A). En associant des pixels bruts et des indications textuelles, cette technologie est capable de générer des effets sonores et même des dialogues adaptés aux scènes vidéos.
Comment DeepMind s’y prend-il pour entraîner son système? Les chercheurs utilisent des vidéos, des audios et des annotations générées par l’IA, comprenant des descriptions détaillées des sons et des transcriptions de dialogues. L’idée est de faire en sorte que la technologie apprenne à associer des sons spécifiques à des scènes visuelles. Mais une question subsiste : sont-ils les premiers dans ce domaine? ElevenLabs a récemment dévoilé une technologie semblable et d’autres acteurs pourraient suivre.
Et les textes prompts, sont-ils vraiment nécessaires? Bien que leur utilisation soit optionnelle, ils permettent de raffiner le produit final. En entrant des instructions positives, on peut orienter la production sonore vers les effets désirables, tandis qu’avec des instructions négatives, on peut l’éloigner des sons indésirables. Par exemple, en utilisant des prompts comme « cinématique, thriller, film d’horreur, musique, tension, ambiance, pas sur le béton ».
Les progrès de DeepMind en matière de génération audio sont saisissants, mais des défis subsistent.
Une vidéo en bas montre un exemple des capacités de ce système émergent :
Cependant, les chercheurs admettent eux-mêmes que leur technologie V2A a encore des limites, notamment en ce qui concerne la baisse de qualité de l’audio en cas de distorsions dans la vidéo source et la synchronisation labiale des dialogues générés. Ils promettent de soumettre la technologie à des évaluations de sécurité rigoureuses avant toute mise sur le marché.
Source : Engadget