La nouvelle technologie de DeepMind révolutionnera-t-elle les bandes son des vidéos ?

Comment Google compte-t-il révolutionner les bandes son des vidéos générées par l’IA ? La réponse pourrait résider dans les dernières innovations de DeepMind, son laboratoire de recherche spécialisé en intelligence artificielle.

DeepMind a récemment annoncé sur son blog le développement d’une technologie nommée V2A (pour « video-to-audio »), une pièce essentielle du puzzle des médias générés par l’IA. Pourquoi est-ce si crucial ? Jusqu’à présent, de nombreux modèles d’IA capables de générer des vidéos ne parvenaient pas à créer des effets sonores synchronisés avec ces dernières.

DeepMind décrit V2A comme une technologie permettant de générer des musiques, effets sonores et même dialogues correspondant parfaitement aux personnages et au ton de la vidéo. Mais comment y parvient-on ? Le modèle d’IA à la base de V2A, un modèle de diffusion, a été entraîné à partir d’une combinaison de sons, de transcriptions de dialogues et de clips vidéo.

À travers une formation sur des vidéos et des annotations, V2A apprend à associer des événements sonores spécifiques à diverses scènes visuelles.

Mais quelles sont les limites de cette technologie ? DeepMind admet que V2A n’est pas parfait. Le modèle sous-jacent, n’ayant pas été entraîné sur une grande variété de vidéos contenant des artefacts ou des distorsions, ne produit pas une qualité sonore particulièrement élevée pour ces dernières.

De plus, certains résultats audio demeurent peu convaincants, semblant être une collection de sons stéréotypés. Compte tenu de ces limitations, DeepMind affirme qu’il n’est pas prévu de rendre cette technologie publique prochainement, voire jamais. Est-ce un choix motivé par la prudence ?

DeepMind indique également travailler avec des créateurs et cinéastes pour recueillir leurs avis avant de considérer une éventuelle introduction au public. Cette technologie pourrait s’avérer particulièrement utile pour les archivistes et ceux utilisant des séquences historiques. Mais quel sera l’impact sur les emplois et les professions dans l’industrie du film et de la télévision ?

Face aux promesses et aux défis que représente V2A, une question demeure : la technologie de DeepMind marquera-t-elle le début d’une nouvelle ère pour les médias générés par l’IA, ou risquons-nous de perdre le contrôle sur ces créations ?

Source : Techcrunch