Gemini 1.5 : Beaucoup de mots, peu d’actes!

« On ne voit bien qu’avec le cœur. L’essentiel est invisible pour les yeux. » – Antoine de Saint-Exupéry, qui aurait bien pu parler d’intelligence artificielle.

Mesdames et messieurs, accrochez-vous à vos souris et préparez vos cerveaux ! Google nous a promis des algorithmes dignes de l’Apocalypse et des capacités de traitement mémorables avec ses tout nouveaux modèles d’IA, Gemini 1.5 Pro et 1.5 Flash. Les démonstrations pendant les briefings commençaient presque à nous faire croire que ces IA pouvaient lire « Guerre et Paix » les yeux fermés. Mais attendez, pas si vite!

Des recherches récentes viennent de jeter une petite douche froide sur l’enchantement. Imaginez un instant : deux études indépendantes ont testé ces modèles sur des pavés de données titanesques. Résultat ? Pas si génial. Gemini 1.5 Pro et Flash n’ont réussi à répondre correctement qu’à 40-50% des questions basées sur des documents de type roman.

Marzena Karpinska, postdoc à UMass Amherst et co-auteure de l’une des études, a décoché une flèche bien visée : les modèles semblent avoir du mal à « comprendre » les données longues qu’ils ingèrent. Oups! Ce n’est pas aussi magique qu’Oriol Vinyals, VP chez Google DeepMind, le prétendait.

Google Gemini : l’intelligence artificielle qui ne connaît pas l’intelligence.

Pour tester cette fameuse « fenêtre contextuelle » de Gemini, les chercheurs ont bombardé les IA de questions pointues sur des livres récents pour que les modèles ne puissent pas tricher avec des infos déjà connues. Les résultats ? Gemini 1.5 Pro a scoré un humble 46,7%, et Flash a fait encore pire avec seulement 20%. On aurait presque envie de ressortir nos dés à six faces pour faire mieux.

Et ce n’est pas tout ! Dans une autre étude de l’Université de Californie, Santa Barbara, les chercheurs ont testé la capacité de Gemini 1.5 Flash à comprendre des vidéos. Les résultats ? Flash a eu autant de mal à comprendre une vidéo qu’un poisson rouge sur une Harley-Davidson.

Cette cacophonie d’échecs techniques soulève une question cruciale : Google ne sur-vendrait-il pas un peu ses jouets technologiques ? Aucun des modèles testés, y compris ceux de OpenAI et Anthropic, n’a performé au-delà du hasard pour des tâches complexes. Pourtant, seul Google continue de vanter ses capacités contextuelles comme un miracle technologique.

Les entreprises commencent à dégager des sourcils sceptiques. Une enquête du Boston Consulting Group montre que la moitié des dirigeants n’attendent pas de gains significatifs de l’IA générative et redoutent même des erreurs. La chute des investissements dans ce secteur en est la preuve.

Alors, résumons : Google nous promet des modèles d’IA capables de prouesses, mais dans les faits, c’est un peu « tout ça pour ça ». Comme on dit souvent, les grandes promesses n’engagent que ceux qui les croient. Et parfois, même une machine a besoin de cours du soir.

Source : Techcrunch