OpenAI dévoile le modèle de langage GPT-4o et un nouveau mode vocal pour ChatGPT

  • openai-chatgpt-gpt-4o.jpg

    Intégré à ChatGPT, GPT-4o entend faire office de super assistant virtuel grâce son approche ultra multimodale. (OpenAI)
    Intégré à ChatGPT, GPT-4o entend faire office de super assistant virtuel grâce son approche ultra multimodale. (OpenAI)
  • OpenAI n’a pas fini de performer ! L’entreprise créatrice de ChatGPT vient de lancer son nouveau modèle de langage GPT-4o, un super assistant virtuel qui mêle le texte, l’audio et la vidéo.

    mail Découvrez Le Brief de l'IT, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des data, de l'IT, de la digitalisation et de la transformation numérique !

    OpenAI fait de nouveau bouger le curseur des performances. Lundi 13 mai 2024, les créateurs de ChatGPT ont dévoilé leur nouveau modèle de langage : GPT-4o (o pour omni). Déployée pour les abonnés (avec beaucoup moins de limitation) et les utilisateurs gratuits, cette nouvelle version de GPT entend faire office de super assistant virtuel grâce son approche ultra multimodale.

    “Le GPT-4o est une étape de plus vers une interaction homme-machine beaucoup plus naturelle”, précise OpenAI. “Il accepte en entrée et en sortie toute combinaison de texte, de son et d’image.”

    Un Voice Mode très performant

    Il faut bien l’avouer, le résultat est assez bluffant. Dans les multiples exemples d’utilisations présentés par les équipes, le “Voice Mode” est très performant. Compréhension de l’intonation, des émotions, réponse et voix adaptée… ce mode permet de répondre aux interactions audio en 232 millisecondes avec une moyenne de 320 millisecondes. “Ce qui est similaire au temps de réponse humain dans une conversation”, se félicite OpenAI. 

    Quelques dysfonctionnements

    Cependant, l’entreprise met déjà en garde sur les divers dysfonctionnements que cette nouvelle version peut encore rencontrer. “Avec GPT-4o, nous avons formé un nouveau modèle unique de bout en bout pour le texte, la vidéo et l'audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal. GPT-4o étant notre premier modèle combinant toutes ces modalités, nous n'en sommes encore qu'au stade de l'exploration des capacités et des limites du modèle.”

    Failles de sécurité et garde-fous

    Consciente des dérives possibles, OpenAI assure travailler sur les failles de sécurité et la mise en place de garde-fous concernant les sorties vocales. “Nous lancerons une nouvelle version du mode vocal avec GPT-4o en alpha dans ChatGPT Plus dans les semaines à venir”, a déclaré OpenAI. Pour l’heure, seules les fonctionnalités texte et image sont disponibles. GPT-4o est aussi ouvert aux développeurs via l’API. 

    Outre ses fonctionnalités vocales et vidéo, GPT-4o enregistre des performances similaires à GPT-4 Turbo en termes de textes en anglais et en code. OpenAI affirme cependant, que le nouveau modèle a été amélioré dans les autres langues. 

    À lire sur Archimag
    Les podcasts d'Archimag
    La mise à disposition des décisions de justice en Open Data a vu le jour grâce à la loi pour une République numérique votée en 2016. Les articles 20 et 21 prévoient la mise en open data des quatre millions de décisions de justice produites chaque année par les tribunaux français. Camille Girard-Chanudet est chercheuse en sociologie au sein du Centre d’étude des mouvements sociaux. En 2023, elle a soutenu une thèse devant l’École des hautes études en sciences sociales (EHESS) : "La justice algorithmique en chantier, sociologie du travail et des infrastructures de l’intelligence artificielle". Dans ce cadre elle a rencontré les équipes de la Cour de cassation qui procèdent à l’anonymisation des décisions de justice.

    Serda Formations Data 2023