Qu’est-ce que la robotique moderne nous réserve pour l’année 2024 ? C’est une période d’innovation sans précédent qui se profile, particulièrement à l’intersection de l’IA générative et des robots. L’excitation est palpable, mais que recherchons-nous exactement dans cette nouvelle génération de robots ? Au cœur de cette quête, l’équipe de recherche en robotique de Google DeepMind semble avoir quelques réponses, travaillant à doter les robots d’une meilleure compréhension de nos désirs humains. Mais comment ces scientifiques parviennent-ils à un tel résultat ?
Jusqu’à présent, les robots ont principalement été conçus pour répéter indéfiniment une tâche unique. Excellents dans leur domaine, ces robots à usage unique rencontrent néanmoins des difficultés lorsque des imprévus surviennent. Faut-il continuer à développer des machines spécialisées ou est-il temps de pivoter vers des robots plus adaptatifs et polyvalents ?
Entrez dans l’ère d’AutoRT, une innovation conçue pour tirer parti des grands modèles fondamentaux et briser le moule des attentes traditionnelles. Comment cette nouvelle technologie change-t-elle la donne pour l’orchestre robotique ? Le DeepMind illustre son utilisation à travers le modèle visuel de langage (VLM), qui permet une meilleure prise en compte de l’environnement par les robots. Est-il envisageable de voir bientôt des robots coordonner leurs actions et intégrer leur environnement avec la même aisance que dans de simples démonstrations ?
« AutoRT, capable de gérer simultanément une flotte de 20 robots et de traiter plus de 52 dispositifs différents, bouleverse les conventions établies. »
Les modèles de langage large (LLM), clés de voûte de l’interaction homme-machine, suggèrent des tâches exécutables par le matériel. Quel est leur rôle dans l’augmentation des capacités des robots à comprendre des commandes en langage naturel, et ont-ils le potentiel de réduire la nécessité de codage spécifique ?
Durant ces sept derniers mois, les tests sur le système AutoRT ont été nombreux, avec une gestion orchestrée de jusqu’à 20 robots et l’accomplissement de plus de 6 000 tâches. Quelles sont les implications de telles expérimentations pour l’avenir de la robotique ?
Egalement présenté par l’équipe, RT-Trajectory, tirant parti de vidéos pour l’apprentissage robotique, affiche des résultats prometteurs. Mais que peuvent apporter ces vidéos, notamment de YouTube, et cette nouvelle méthode d’entraînement à large échelle incluant des esquisses en deux dimensions du bras robotique en mouvement ?
Notons qu’avec une méthode d’entraînement améliorée, RT-Trajectory a doublé le taux de réussite par rapport à la formation RT-2. Comment pouvons-nous continuer à exploiter et optimiser les informations de mouvement robotique contenues dans les bases de données existantes pour progresser encore davantage ?
DeepMind soutient que la méthode RT-Trajectory, en puisant dans les riches informations de mouvement robotique des bases de données sous-exploitées, ouvre la voie à des robots capables de se déplacer avec une précision efficace dans de nouvelles situations. Est-ce l’aube d’une ère où nous débloquerons le plein potentiel des ensembles de données disponibles ?
Source : Techcrunch