ChatGPT fait-il vraiment le pas suivant dans l'évolution IA ?

Quels sont les nouveaux développements dans le monde de l’intelligence artificielle ? Une nouvelle époque s’annonce avec l’évolution de ChatGPT. OpenAI annonce aujourd’hui qu’il ajoute de nouvelles fonctionnalités à l’assistant en ajoutant des capacités de reconnaissance vocale et d’image.

ChatGPT, l’assistant AI génératif très populaire, a connu un grand succès technologique depuis son lancement il y a neuf mois. Permettant à quiconque de générer des dissertations, des poèmes et des résumés à partir de simples indications textuelles, ChatGPT est sur le point de devenir beaucoup plus interactif. Pourquoi ne pas envisager une conversation vocale avec le chatbot ?

L’annonce intervient le jour où Amazon se engage à investir jusqu’à 4 milliards de dollars dans Anthropic, un rival d’OpenAI. Cette décision fait partie d’une plus grande bataille autour de l’IA générative qui implique les géants de la technologie du monde entier. Avec Google qui tente de rattraper son retard avec son chatbot Bard et Microsoft qui se rapproche davantage d’OpenAI lui-même, quelle sera la prochaine étape ?

« L’annonce d’OpenAI ouvre une nouvelle ère pour les interactions avec les assistants AI. »

Il s’agit d’une évolution notable pour le mouvement de l’IA générative, OpenAI associant le monde bien connu des assistants vocaux à ses puissants modèles de langue de grande taille (LLMs). Comment cela se traduira-t-il pour l’utilisateur final ? Par exemple, un utilisateur pourra demander verbalement à ChatGPT de créer une histoire pour s’endormir sur le vif, avec quelques indications vocales pour guider le récit. Ou bien l’utilisateur peut simplement poser une question, avec ChatGPT donnant sa réponse sous forme de parole.

D’autre part, les utilisateurs de ChatGPT pourront également rechercher des réponses en utilisant des images. Par exemple, en téléchargeant une photo de quelque chose et en demandant à ChatGPT d’expliquer ce que c’est, ou de fournir des instructions pour accomplir un objectif. Ces nouvelles capacités ouvrent une multitude de possibilités. Qu’est-ce qui limite l’exploitation de ces nouvelles fonctionnalités ?

La fonctionnalité vocale est alimentée par un nouveau modèle de texte à la parole qui peut générer des voix humaines à partir de texte et de quelques secondes de discours échantillonné. OpenAI s’est associé à des acteurs vocaux établis pour créer cinq voix différentes. Le système de reconnaissance vocale Whisper en open source d’OpenAI est utilisé pour transcrire les énoncés verbaux en texte. Peut-on alors redouter une utilisation malveillante de cette technologie ?

Finalement, les nouvelles fonctionnalités commenceront à être déployées pour les abonnés payants Plus et Enterprise dans les deux semaines à venir. La voix sera limitée aux applications ChatGPT Android et iOS sur une base bêta opt-in initialement, tandis que la recherche d’images sera disponible sur toutes les plateformes par défaut. Alors que l’avancée de la technologie IA semble inévitable, comment ces développements influenceront-ils notre interaction avec l’IA à l’avenir ?

Source : Techcrunch