« Dans le monde de la technologie, prévoir l’avenir, c’est presque aussi difficile que d’envoyer un fax à Merlin l’Enchanteur. » – Anonyme technophile
OpenAI nous présente Sora, un modèle capable de générer des vidéos et des environnements 3D interactifs à la volée. C’est un peu comme si on avait donné à un robot un pinceau et qu’il avait décidé de peindre la Chapelle Sixtine du numérique. Impressionnant, non?
Mais ce tour de magie a une origine surprenante. L’un de ses ingrédients secrets, une sorte de potion magique nommée « l’architecture de modèle de diffusion », se baladait dans les couloirs de la recherche en IA bien avant que Sora ne pointe le bout de son nez numérique.
Le professeur Saining Xie, d’un laboratoire secret (ou presque) à NYU, a été celui par qui le sort a été lancé en juin 2022. Avec William Peebles, son jeune padawan alors en stage chez Meta’s AI lab et maintenant co-leader de Sora chez OpenAI, Xie a mélangé deux éléments clés de l’apprentissage automatique – la diffusion et le transformateur – pour nous concocter le transformateur de diffusion.
Transformer un brouillard de données en œuvre d’art, c’est le tour de magie des modèles de diffusion.
Sans entrer dans des détails qui pourraient endormir même une intelligence artificielle, la diffusion crée de l’art en partant de bruit, un peu comme transformer des grognements en symphonie. Et au cœur de cette symphonie se trouve le « backbone » de la technologie, un U-Net, remplacé récemment par des transformateurs, offrant une performance digne d’un solo de guitare électrique en termes d’efficacité.
Les transformateurs, à ne pas confondre avec les robots qui sauvent le monde au cinéma, sont célèbres pour leur « mécanisme d’attention », analysant chaque pixel comme s’ils lisaient dans les pensées de Van Gogh. Cette caractéristique leur permet d’être parallélisables, donc de grandir et d’apprendre comme des petits génies de la technologie.
« Passez aux transformateurs ! » recommande Xie, un peu comme on choisirait une Tesla plutôt qu’un vieux tacot. Selon lui, ces merveilles technologiques sont plus rapides, plus performantes, et ont une capacité d’évolution qui ferait pâlir le T-1000.
En conclusion, si les projets comme Sora et Stable Diffusion 3.0 nous offrent un aperçu de l’avenir avec les transformateurs de diffusion, préparez-vous à un spectacle digne d’un feu d’artifice technologique. Je dirais même plus, on n’a pas fini de transformer l’essai!
Source : Techcrunch