
Langue française n° 172 (4/2011)
Pour acheter ce numéro, contactez-nous
Recevez les numéros de l'année en cours et accédez à l'intégralité des articles en ligne.
L’objectif principal de l’article est de comparer deux systèmes de ponctuation de l’oral mis au point dans la perspective du traitement automatique du langage : un système intuitif et sous-déterminé et un système fondé théoriquement et surdéterminé. On montre à partir d’exemples concrets qu’une ponctuation « intuitive » aboutit à une segmentation du texte qui, comme on pouvait s’y attendre, manque de consistance. L’examen critique des conventions du projet Rhapsodie souligne la difficulté qu’il y a à construire un système de signes démarcatifs univoques. Une des conclusions qui émerge du travail est que les propositions de ponctuation de l’oral sont étroitement dépendantes de l’utilisation qui est faite de la transcription.
The main goal of the paper is to compare two punctuation systems for raw transcriptions of spoken French. Both have been designed in the perspective of natural language automatic processing. Using a case study, we show that the intuition based procedure leads, as expected, to inconsistent and not reproducible annotations, however suited to statistical processing. On the other hand, the discussion of the assumptions underlying the theoretical based system points out the shortcomings of this approach, even if it facilitates parser based processing. One of the main conclusions of the paper is that the choice of a punctuation system for oral transcriptions is strongly determined by the further practical or theoretical use planed for the transcripts.
