« Les chiffres, c’est comme les pizzas : il y en a toujours une de plus qui arrive. » Voilà qui résume parfaitement l’ambiance chez OpenAI, avec l’annonce de GPT-4.1, GPT-4.1 mini, et GPT-4.1 nano. Si vous trouvez que la famille GPT commence à ressembler à la famille Kardashian côté prénoms, rassurez-vous, vous n’êtes pas seul — et chez OpenAI non plus, manifestement !
OpenAI vient donc secouer le cocotier de l’intelligence artificielle avec une nouvelle génération de modèles qui promettent de révolutionner le codage et l’exécution des consignes. Mais attention, ces petits nouveaux ne sont accessibles qu’à travers l’API OpenAI et, non, vous ne pourrez pas les tester directement dans ChatGPT. Leur super-pouvoir ? Un contexte de 1 million de tokens, l’équivalent textuel de votre oncle lors du repas de famille : ils retiennent absolument tout ce que vous dites (jusqu’à environ 750 000 mots, tout de même… Tolstoï n’a qu’à bien se tenir !).
Mais alors, pourquoi tout ce raffut ? Derrière les paillettes, la vraie bataille se livre à coups de benchmarks et de fenêtres de contexte entre OpenAI et ses rivaux : Google, Anthropic, et même le challenger chinois DeepSeek. Google s’y met à fond avec son modèle Gemini 2.5 Pro, qui, comme un étudiant en pleine révision de bac, passe haut la main les curseurs des benchmarks de codage. L’objectif ultime ? Transformer les IA en véritables « ingénieurs logiciels agentiques », capables de concevoir une application de A à Z, correction de bugs et rédaction de documentation incluses. Une armée de robots développeurs au service de l’innovation… ou du chaos numérique ?
Face à tant de puissance, même War and Peace aurait du mal à caser un mot !
Mais ne rangez pas tout de suite votre souris préférée : sous le vernis du marketing, GPT-4.1 et sa famille gardent quelques casseroles. S’ils excellent sur certains tests (SWE-bench, pour les intimes), Google et Anthropic font encore mieux avec leurs propres modèles. La puissance a un prix : GPT-4.1 gère les gros dossiers, mais s’essouffle sur les très longues discussions (accusant des baisses de performance de 84 % à 50 % quand la charge textuelle explose). Pire encore, à force de vouloir être précis, il lui arrive d’être « trop littéral » et d’avoir besoin d’instructions hyper-précises. Comme votre GPS qui, si vous ne dites pas précisément « Boulangerie », vous emmène visiter la prochaine usine de pains de glace.
Il faut aussi parler budget : GPT-4.1, c’est deux dollars le million de tokens en entrée, huit dollars la sortie — et ça décroit jusqu’à la version « nano », la plus rapide et la moins chère, qui s’offre à 0,10 $ le million de tokens en entrée. Si vous avez toujours rêvé de manager une armée de chatbots tout en gardant votre tirelire sourire, la version nano pourrait bien devenir votre chouchou… même si la précision en prend parfois un coup !
Et côté exploits ? OpenAI affirme que, pour la vidéo, GPT-4.1 décroche un 72 % de réussite sur l’analyse sans sous-titre, prouvant qu’il peut regarder une vidéo YouTube muette et quand même comprendre l’essentiel. On attend toujours l’IA qui décryptera nos messages WhatsApp énigmatiques avec autant de facilité, mais chaque chose en son temps !
La morale de l’histoire : ces performances impressionnantes ne doivent pas masquer le fait que même les meilleurs modèles actuels ont tendance à commettre des erreurs qu’aucun humain expérimenté ne ferait, introduisant parfois plus de bugs qu’ils n’en corrigent (les développeurs anxieux apprécieront). Les rêves d’agents logiciels autonomes ne sont peut-être pas pour demain, mais avec GPT-4.1, OpenAI pose une nouvelle pierre sur cette route tortueuse — en espérant que ce soit un « bug » de construction, et non de destruction !
On attend désormais la suite : GPT-4.2, GPT-5, ou pourquoi pas GPT Pizza ? Au moins, celui-ci devrait toujours livrer à temps…
Source : Techcrunch