« L’intelligence artificielle, c’est comme un bon fromage : plus le modèle est affiné, meilleur c’est ! » Voilà une maxime qui pourrait s’appliquer à OpenAI, qui vient de dévoiler ses nouveaux modèles d’IA de transcription et de génération vocale. Avec ces nouveautés, l’entreprise clame haut et fort avoir laissé ses anciennes créations bien loin derrière.
Le but d’OpenAI est de mettre au point des agents automatiques, un concept un peu nébuleux qui pourrait être traduit par des systèmes capables de mener à bien des tâches en toute autonomie pour leurs utilisateurs. Difficile encore de cerner la définition exacte d’un « agent », mais selon Olivier Godemont, responsable produit chez OpenAI, cela pourrait par exemple être un chatbot engagé dans un dialogue avec les clients d’une entreprise. Imaginez un assistant vocal qui vous parle comme un vieux détective de film noir ; voila qui a de quoi séduire les amateurs de mystères !
OpenAI ne fait pas les choses à moitié, leurs agents parlent désormais mieux que votre cousin après son troisième cours d’espagnol.
Avec son modèle « gpt-4o-mini-tts », OpenAI améliore la synthèse vocale pour qu’elle soit non seulement plus réaliste mais aussi plus adaptable. Demandez-lui de parler comme un scientifique fou ou de se transformer en voix apaisante de professeur de méditation, et il s’exécute. Le rêve de moduler non seulement le contenu mais aussi le ton du discours devient réalité, grâce à des instructions simples en langage naturel.
Quant aux nouvelles prouesses de la transcription, les modèles « gpt-4o-transcribe » et « gpt-4o-mini-transcribe » prennent la relève du modèle Whisper, accusé de délirer un peu trop. L’ancienne star de la maison OpenAI avait la fameuse tendance à s’improviser auteur de fictions, ajoutant des commentaires raciaux et des remèdes médicaux inventés de toutes pièces à ses transcriptions. Bref, elle avait une situation imaginaire à gérer.
Le défi reste de taille pour OpenAI : la précision des transcriptions est cruciale, particulièrement pour offrir une expérience vocale de qualité. Même si les nouveaux modèles promettent d’enterrer Whisper dans les records de précision, certaines langues, notamment l’indien dravidien, pourraient encore poser problème. Pour ces dernières, l’erreur de transcription pourrait avoisiner 30 %, soit un bon moyen de rater sa carrière d’interprète au Secrétariat des Nations Unies!
Malgré tout, la marque de fabrique d’OpenAI de rendre ses modèles libres pour usage commercial prend une pause. Si Whisper avait l’avantage d’être installé sur votre bon vieux PC, gpt-4o-transcribe se réserve désormais le droit d’être plus exigeant. OpenAI semble désormais préférer un usage bien ciblé, quitte à réserver les nouvelles merveilles à ceux qui ont les moyens logistiques de les accueillir.
En somme, OpenAI continue de dérouler le fil de l’innovation. Entre voix calibrées et transcriptions qui capturent l’essence d’une conversation sans en perdre le fil, l’ingénierie du bavardage digital va bon train. On attend désormais de voir si ces nouveaux modèles feront sensation ou s’ils seront réduits au silence. Et sur ce, n’oublions jamais : « Qui parle sème, qui écoute récolte ! »
Source : Techcrunch