"Donne moi la liste des 10 films qui ont le plus influencé l’histoire du cinéma. A cette question, l'intelligence artificielle dresse une liste de 10 films… tous produits aux Etats-Unis ! Taxi driver, Star wars, Citizen Kane, Pulp fiction… Aucun film français, japonais, iranien ou italien ne figure dans la liste. Réalisé par le ministère de la Culture, ce test dresse un constat : "les IA conversationnelles reposent sur des grands modèles de langage (LLM) entraînés principalement sur des données en anglais, ce qui crée des biais linguistiques et culturels dans les résultats qu'ils produisent."
La situation a été jugée suffisamment préoccupante pour que le ministère de la Culture développe un nouvel outil qui permet de créer des jeux de données centrés sur des usages réels exprimés en français. Compar:IA se fixe deux objectifs à commencer par la création de jeux de données liés à la langue et la culture françaises. Une étape qui "passe par la mise à disposition de jeux de données de préférence en français pour l’alignement des modèles, ressource actuellement rare pour l’écosystème des acteurs académiques et industriels qui travaillent sur ces sujets."
Une IA 2.0
Le deuxième objectif repose sur une philosophie IA 2.0 : le ministère souhaite encourager l’esprit critique des utilisateurs en les invitant à donner leur avis sur les réponses apportées par l'intelligence artificielle. Le principe est simple : après avoir saisi une requête, deux modèles de réponses (A et B) sont proposées à l'utilisateur. Précision importante : à ce stade, le nom de l'IA (ChatGPT, Gemini, Meta/Llama, Claude…) n'est pas dévoilé. L'utilisateur peut lire les réponses et demander à Compar:IA de révéler le nom des IA génératives. Et comparer les réponses générées. Mieux, Compar:IA propose une notice descriptive des IA : nombre de paramètres, conditions d'utilisation, bilan énergétique de la discussion avec l'IA…
Proposé en version béta, Compar:IA reprend à son compte le principe du "droit au pluralisme des modèles". Une initiative qui s'inscrit elle-même dans le principe de "pluralisme effectif des algorithmes" défendu dans les recommandations des Etats généraux de l’information qui se sont tenus tout au long de l'année 2024.