LANGAGES Nº 224 (4/2021)
Pour acheter ce numéro, contactez-nous
Recevez les numéros de l'année en cours et accédez à l'intégralité des articles en ligne.
La détection automatique de chaînes de coréférences pour le français est encore un domaine assez peu exploré, entre autres en raison du développement tardif de ressources annotées adaptées. DEMOCRAT, premier corpus de français écrit de grande envergure annoté en chaînes de coréférences, rend possible l’utilisation de techniques d’apprentissage artificiel pour combler ce manque. Dans ce travail, nous présentons le système DECOFRE, premier système de détection des chaînes de coréférences pour le français parlé, et étudions son utilisation pour le traitement de DEMOCRAT. Nos expériences montrent que ce système n’est pas robuste au changement induits par le passage de l’oral spontané à l’écrit et suggère que les particularités de DEMOCRAT pourraient être mieux prises en compte par des architectures plus riches que celles des systèmes end-to-end omniprésentes dans l’état de l’art récent.
Automatic coreference resolution for French has a relatively recent history, due to a lack of large scale annotated resources that has only been filled in the last few years. The release DEMOCRAT, the first large scale corpus of written French with coreference annotation, makes the developement of coreference resolution system for written French using machine learning techniques possible for the first time. In this work, we present DECOFRE, the firs coreference resolution system for spoken French, and investigate its use for processing DEMOCRAT. Our experiments show that this system is not resilient to the differences between the spoken and written genres, which suggests the need for richer architectures than those used in the recent state of the art end-to-end coreference resolution systems.