Publicité

OpenAI dévoile le modèle de langage GPT-4o et un nouveau mode vocal pour ChatGPT

  • openai-chatgpt-gpt-4o.jpg

    Intégré à ChatGPT, GPT-4o entend faire office de super assistant virtuel grâce son approche ultra multimodale. (OpenAI)
    Intégré à ChatGPT, GPT-4o entend faire office de super assistant virtuel grâce son approche ultra multimodale. (OpenAI)
  • OpenAI n’a pas fini de performer ! L’entreprise créatrice de ChatGPT vient de lancer son nouveau modèle de langage GPT-4o, un super assistant virtuel qui mêle le texte, l’audio et la vidéo.

    mail Découvrez Le Brief de l'IT, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des data, de l'IT, de la digitalisation et de la transformation numérique !

    OpenAI fait de nouveau bouger le curseur des performances. Lundi 13 mai 2024, les créateurs de ChatGPT ont dévoilé leur nouveau modèle de langage : GPT-4o (o pour omni). Déployée pour les abonnés (avec beaucoup moins de limitation) et les utilisateurs gratuits, cette nouvelle version de GPT entend faire office de super assistant virtuel grâce son approche ultra multimodale.

    “Le GPT-4o est une étape de plus vers une interaction homme-machine beaucoup plus naturelle”, précise OpenAI. “Il accepte en entrée et en sortie toute combinaison de texte, de son et d’image.”

    Un Voice Mode très performant

    Il faut bien l’avouer, le résultat est assez bluffant. Dans les multiples exemples d’utilisations présentés par les équipes, le “Voice Mode” est très performant. Compréhension de l’intonation, des émotions, réponse et voix adaptée… ce mode permet de répondre aux interactions audio en 232 millisecondes avec une moyenne de 320 millisecondes. “Ce qui est similaire au temps de réponse humain dans une conversation”, se félicite OpenAI. 

    Quelques dysfonctionnements

    Cependant, l’entreprise met déjà en garde sur les divers dysfonctionnements que cette nouvelle version peut encore rencontrer. “Avec GPT-4o, nous avons formé un nouveau modèle unique de bout en bout pour le texte, la vidéo et l'audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal. GPT-4o étant notre premier modèle combinant toutes ces modalités, nous n'en sommes encore qu'au stade de l'exploration des capacités et des limites du modèle.”

    Failles de sécurité et garde-fous

    Consciente des dérives possibles, OpenAI assure travailler sur les failles de sécurité et la mise en place de garde-fous concernant les sorties vocales. “Nous lancerons une nouvelle version du mode vocal avec GPT-4o en alpha dans ChatGPT Plus dans les semaines à venir”, a déclaré OpenAI. Pour l’heure, seules les fonctionnalités texte et image sont disponibles. GPT-4o est aussi ouvert aux développeurs via l’API. 

    Outre ses fonctionnalités vocales et vidéo, GPT-4o enregistre des performances similaires à GPT-4 Turbo en termes de textes en anglais et en code. OpenAI affirme cependant, que le nouveau modèle a été amélioré dans les autres langues. 

    À lire sur Archimag
    Les podcasts d'Archimag
    Rencontre avec Stéphane Roder, le fondateur du cabinet AI Builders, spécialisé dans le conseil en intelligence artificielle. Également professeur à l’Essec, il est aussi l’auteur de l’ouvrage "Guide pratique de l’intelligence artificielle dans l’entreprise" (Éditions Eyrolles). Pour lui, "l’intelligence artificielle apparaît comme une révolution pour l’industrie au même titre que l’a été l’électricité après la vapeur".

    Serda Formations Data 2023