“Il serait impossible d’entraîner les meilleurs modèles d’intelligence artificielle (IA) d’aujourd’hui sans utiliser de documents protégés par le droit d’auteur”. C'est ce qu'affirme OpenAI, le créateur de ChatGPT, dans le cadre d'une enquête menée par la commission des communications et du numérique de la Chambre des Lords du Royaume-Uni sur les modèles de langage. Selon l'entreprise, "limiter les données d'entraînement aux livres et dessins du domaine public créés il y a plus d'un siècle pourrait donner lieu à une expérience intéressante, mais ne permettrait pas de fournir des systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui"
Or, depuis son lancement en novembre 2022, OpenAI n’a jamais publié la liste exhaustive des données utilisées pour entraîner ChatGPT, son système d'IA générative.
Le “fair use”
Pour se défendre contre les nombreuses accusations actuelles d'utilisation frauduleuse de données, OpenAI assure “respecter les droits des créateurs et des propriétaires de contenu” concernant ceux qu'il utilise pour entraîner les modèles de langages (LLM). L'entreprise se cache derrière le principe de "fair use", un principe légal américain selon lequel certains contenus protégés par des droits d'auteur peuvent être utilisés dans certaines circonstances
Rappelons qu’OpenAI fait l’objet de plusieurs actions en justice pour violation d'œuvres protégées par le droit d’auteur, dont notamment de la part du New York Times depuis le 27 décembre.