Javascript must be enabled to continue!

Annotation et analyse syntaxique de corpus hétérogènes : le cas du français médiéval

Le français médiéval couvre les états de langue d’ancien français (9e-13e s.) et de moyen français (14e-15e s.). Nous disposons de données annotées pour ces états de langue, dont un corpus arboré d’ancien français (Stein et Prévost 2013). Il est cependant difficile d’obtenir plus de données annotées syntaxiquement, car les spécialistes sont peu nombreux et qu’il n’existe pas encore d’outil dédié pour l’ensemble de la période. Développer ce genre d’outil permet d’obtenir des annotations plus facilement et d’en contrôler la qualité. Cependant, ce n’est pas une tâche simple parce que les différents états de langue sont soumis à la variation, due à plusieurs facteurs, notamment l’absence de norme graphique, la variation dialectale, la souplesse de l’ordre des mots, l’évolution de la morphologie et de la syntaxe (sur sept siècles), qui fait passer le français d’une langue SOV à une langue SVO. La nature des écrits se diversifie aussi à mesure que la littérature évolue et que le latin est délaissé au bénéfice du français comme langue administrative et juridique. Les données à analyser sont donc hétérogènes, ce qui rend difficile le traitement automatique.Pour obtenir un parseur du français médiéval, nous proposons d’adapter la métagrammaire du français contemporain FRMG (Villemonte de la Clergerie 2005). Bien que les différents états de langue présentent des différences manifestes, les points communs sont suffisants pour rendre possible la modification d’un système existant pour obtenir un outil dédié. Les changements concernent essentiellement l’ordre des mots (constituants majeurs, modifieurs du nom, position des pronoms conjoints). Pour utiliser cet outil sur corpus, il est nécessaire d’enrichir le lexique d’ancien français (Sagot 2019), d’une part pour obtenir une couverture lexicale satisfaisante sur les textes, et, d’autre part, pour y intégrer des informations syntaxiques et sémantiques nécessaires à l’analyse syntaxique.

Agence Bibliographique de l'Enseignement Supérieur

Mathilde Regnault

2026

Title: Annotation et analyse syntaxique de corpus hétérogènes : le cas du français médiéval

Description:

Le français médiéval couvre les états de langue d’ancien français (9e-13e s.

) et de moyen français (14e-15e s.

Nous disposons de données annotées pour ces états de langue, dont un corpus arboré d’ancien français (Stein et Prévost 2013).

Il est cependant difficile d’obtenir plus de données annotées syntaxiquement, car les spécialistes sont peu nombreux et qu’il n’existe pas encore d’outil dédié pour l’ensemble de la période.

Développer ce genre d’outil permet d’obtenir des annotations plus facilement et d’en contrôler la qualité.

Cependant, ce n’est pas une tâche simple parce que les différents états de langue sont soumis à la variation, due à plusieurs facteurs, notamment l’absence de norme graphique, la variation dialectale, la souplesse de l’ordre des mots, l’évolution de la morphologie et de la syntaxe (sur sept siècles), qui fait passer le français d’une langue SOV à une langue SVO.

La nature des écrits se diversifie aussi à mesure que la littérature évolue et que le latin est délaissé au bénéfice du français comme langue administrative et juridique.

Les données à analyser sont donc hétérogènes, ce qui rend difficile le traitement automatique.

Pour obtenir un parseur du français médiéval, nous proposons d’adapter la métagrammaire du français contemporain FRMG (Villemonte de la Clergerie 2005).

Bien que les différents états de langue présentent des différences manifestes, les points communs sont suffisants pour rendre possible la modification d’un système existant pour obtenir un outil dédié.

Les changements concernent essentiellement l’ordre des mots (constituants majeurs, modifieurs du nom, position des pronoms conjoints).

Pour utiliser cet outil sur corpus, il est nécessaire d’enrichir le lexique d’ancien français (Sagot 2019), d’une part pour obtenir une couverture lexicale satisfaisante sur les textes, et, d’autre part, pour y intégrer des informations syntaxiques et sémantiques nécessaires à l’analyse syntaxique.

Back

Related Results

Résumés des conférences JRANF 2021

able des matières Résumés. 140 Agenda Formation en Radioprotection JRANF 2021 Ouagadougou. 140 RPF 1 Rappel des unités de doses. 140 RPF 2 Risques déterministes et stochastique...

The role of phrasal prosody and function words in the acquisition of word meanings

Le rôle de la prosodie et des mots grammaticaux dans l'acquisition du sens des mots Des études précédentes démontrent qu’avoir accès à la structure syntaxique des p...

Žanrovska analiza pomorskopravnih tekstova i ostvarenje prijevodnih univerzalija u njihovim prijevodima s engleskoga jezika

Genre implies formal and stylistic conventions of a particular text type, which inevitably affects the translation process. This „force of genre bias“ (Prieto Ramos, 2014) has been...

Analyse contrastive des complétives nominales en français et en mandarin standard. Point de vue sémantico-syntaxique

En adoptant une perspective sémantico-syntaxique, cette thèse est une étude contrastive sur les propositions complétives nominales en français et en mandarin standard. L’origin...

Concept-based and relation-based corpus navigation : applications of natural language processing in digital humanities

Navigation en corpus fondée sur les concepts et les relations : applications du traitement automatique des langues aux humanités numériques La recherche en Sciences...

Analyse en corpus de chaînes de coréférence : la coréférence non-stricte à l'épreuve de la linguistique outillée

Une chaîne de coréférence désigne l'ensemble des expressions linguistiques qui réfèrent à la même entité. La relation de coréférence entre les « maillons » d'une chaîne implique qu...

Caractérisation et mesure de la compréhensibilité de la parole de locuteurs non natifs dans le cadre de l'apprentissage des langues

Se faire comprendre en situation de communication, voire d'interaction orale, est essentiel au quotidien. La compréhensibilité est ainsi devenue un objectif important dans le domai...

QALB: Qatar Arabic language bank

Automatic text correction has been attracting research attention for English and some other western languages. Applications for automatic text correction vary from improving langua...

Email:
Password:

Email: