
LANGAGES N° 237 (1/2025)
Pour acheter ce numéro, contactez-nous
Recevez les numéros de l'année en cours et accédez à l'intégralité des articles en ligne.
Dans cette contribution, nous nous proposons de décrire le comportement d’un système d’intelligence artificielle dans une phase de pré-entraînement, afin de vérifier l’hypothèse de Raus (2024), selon laquelle les grands corpus utilisés pour la phase de pré-entraînement des systèmes d’IA privilégient une variété « internationale » des grandes langues pluricentriques, contribuant par conséquent à une sous-représentation de la variation diatopique dans sa richesse ainsi qu’à un aplatissement des représentations linguistiques sur un modèle morphologique et syntaxique fortement influencé par la langue anglaise. Nous testerons cette hypothèse au moyen d’une brève étude exploratoire à l’aide de deux corpus et d’un dispositif élaborés dans le cadre du projet Artificial Intelligence for European Integration.
In this contribution, we propose to describe the behaviour of an AI system in a pre-training phase, to verify R. Raus’s hypothesis (2024), according to which the large corpora used for the pre-training phase of AI systems favour an “international” variety of large pluricentric languages, thereby contributing to an under-representation of diatopic variation in all its richness, as well as to a flattening of these languages out to a morphological and syntactic model strongly influenced by the English language. We will test this hypothesis by a brief exploratory study, using two corpora and a system developed as part of the Artificial Intelligence for European Integration project.

