Segment Anything 2 : Une révolution dans la segmentation vidéo ?

Pouvons-nous vraiment réaliser des segmentations vidéo rapidement et avec précision? Meta semble penser que oui avec la sortie de Segment Anything 2 (SA2), un modèle d’apprentissage automatique qui étend les prouesses de la segmentation d’images fixes à la vidéo.

Qu’est-ce que la segmentation? C’est l’art de faire en sorte qu’un modèle de vision identifie et délimite les différentes parties d’une image. Par exemple, reconnaître un chien et distinguer l’arbre derrière lui. Avec SA2, Meta promet de faire cela non seulement pour les images fixes mais aussi pour la vidéo, une tâche beaucoup plus complexe.

Pourquoi est-ce important? Selon Zuckerberg, ce modèle pourrait révolutionner des domaines comme l’étude des récifs coralliens ou des habitats naturels. Il a déclaré lors d’une conversation avec le PDG de Nvidia, Jensen Huang: « Pouvoir faire cela en vidéo et de manière fluide, c’est vraiment cool. »

Le modèle sera ouvert et gratuit, mais l’accès à certaines bases de données demeure limité.

Alors, quelle est la magie derrière cette technologie? SA2 nécessite des ressources de calcul considérables sans pour autant surchauffer les centres de données. Cela n’aurait été impossible à réaliser il y a tout juste un an, souligne Meta. Toutefois, Meta permet un accès gratuit à un [démo](https://sam2.metademolab.com/) pour que chacun puisse l’essayer.

Mais à quel coût cette avancée a-t-elle été réalisée? Pour entraîner SA2, Meta a utilisé une importante base de données annotée de 50 000 vidéos, ainsi qu’une autre de plus de 100 000 vidéos « disponibles en interne » qui ne sera pas rendue publique. Nous suspectons que celles-ci proviennent des profils publics d’Instagram et Facebook, mais Meta n’a pas encore confirmé cette information.

Le modèle SA2 est un pas de géant pour Meta, qui a milité pour l’ouverture dans le domaine de l’IA avec des outils comme PyTorch et LLaMa. Cependant, Zuckerberg a précisé que cette ouverture n’est pas purement altruiste. « Nous ne faisons pas cela parce que nous sommes des altruistes, même si nous pensons que cela aidera l’écosystème », a-t-il confié. « Nous le faisons parce que cela rend notre produit meilleur. »

Cela soulève une question cruciale: cette avancée technologique marquera-t-elle le début d’une nouvelle ère pour la segmentation vidéo? Seul l’avenir nous le dira. En attendant, pour ceux qui veulent tester SA2, rendez-vous sur leur [GitHub](https://github.com/facebookresearch/segment-anything-2).

Source : Techcrunch