Javascript must be enabled to continue!
Formalisation de la langue ukrainienne avec NooJ : préparation du module ukrainien
View through CrossRef
L'intérêt de ce travail est porté sur la formalisation de la langue ukrainienne à travers la plateforme NooJ.La langue ukrainienne est très peu décrite dans le monde occidental, alors que c'est une langue officielle d'un pays européen qui compte plus de 45 millions d'habitants et qui est représentée dans plusieurs institutions mondiales. L'ukrainien est également étudié dans plusieurs universités d'Europe.De ce fait, la formalisation de l'ukrainien à travers un outil informatique pourra trouver plusieurs applications pratiques et notamment : cela permettra de faire l'analyse morphosyntaxique et sémantique approfondie des corpus, jouer un rôle dans le développement des applications TAL (par exemple, extracteurs d'entités nommées, terminologie, traduction automatique, correcteur d'orthographe, etc.), mais aussi dans le domaine de l'enseignement assisté par ordinateur (EAO). Nous avons construit un module ukrainien pour NooJ qui est composé d'un dictionnaire principal « Ukr_dictionary_V.1.3 » et de deux dictionnaires secondaires « Ukr_dictionary_Participle_V.1.3 » et « Ukr_dictionary_Proper_lowercase_V.1.3 ». Le dictionnaire principal contient 157 534 entrées et reconnaît 3 184 522 formes fléchies. Il décrit des ALU simples, composées d'une seule forme graphique, mais aussi des locutions composées de deux formes ou plus ; il reconnait et analyse les ALU avec orthographes alternatives, et explicite les abréviations.Les formes fléchies des entrées variables sont formalisées grâce à 303 paradigmes flexionnels. Nous avons formalisé également 114 paradigmes dérivationnels qui permettent de lier les verbes perfectifs aux verbes imperfectifs.Nous avons décrit de nombreuses formes dérivées ou les variantes orthographiques absentes du dictionnaire grâce aux 19 grammaires morphologiques.Enfin, nous avons recensé certaines formes dans les dictionnaires secondaires, notamment les participes et les noms propres en minuscule. Le dictionnaire « Ukr_dictionary_Participle_V.1.3 » contient 13 070 entrées et complète le dictionnaire principal, quand la grammaire morphologique qui décrit des participes ne permet pas de reconnaitre le participe dans le texte. Le dictionnaire « Ukr_dictionary_Proper_lowercase_V.1.3 » contient des noms propres écrits en minuscule, en combinaison avec la grammaire «Adjectives_Relatives_V.1.3.nom», il permet de reconnaitre les adjectifs relatifs créés à partir des noms propres.Grâce à ces ressources, 98,3% d'occurrences dans le corpus de tests ont été reconnues et annotées avec leurs informations morphologiques.Nous avons également construit dix grammaires syntaxiques qui permettent de lever un grand nombre d'ambiguïtés, puisque nous passons de 206 445 annotations à 131 415 pour un corpus de 108 137 occurrences.
Title: Formalisation de la langue ukrainienne avec NooJ : préparation du module ukrainien
Description:
L'intérêt de ce travail est porté sur la formalisation de la langue ukrainienne à travers la plateforme NooJ.
La langue ukrainienne est très peu décrite dans le monde occidental, alors que c'est une langue officielle d'un pays européen qui compte plus de 45 millions d'habitants et qui est représentée dans plusieurs institutions mondiales.
L'ukrainien est également étudié dans plusieurs universités d'Europe.
De ce fait, la formalisation de l'ukrainien à travers un outil informatique pourra trouver plusieurs applications pratiques et notamment : cela permettra de faire l'analyse morphosyntaxique et sémantique approfondie des corpus, jouer un rôle dans le développement des applications TAL (par exemple, extracteurs d'entités nommées, terminologie, traduction automatique, correcteur d'orthographe, etc.
), mais aussi dans le domaine de l'enseignement assisté par ordinateur (EAO).
Nous avons construit un module ukrainien pour NooJ qui est composé d'un dictionnaire principal « Ukr_dictionary_V.
1.
3 » et de deux dictionnaires secondaires « Ukr_dictionary_Participle_V.
1.
3 » et « Ukr_dictionary_Proper_lowercase_V.
1.
3 ».
Le dictionnaire principal contient 157 534 entrées et reconnaît 3 184 522 formes fléchies.
Il décrit des ALU simples, composées d'une seule forme graphique, mais aussi des locutions composées de deux formes ou plus ; il reconnait et analyse les ALU avec orthographes alternatives, et explicite les abréviations.
Les formes fléchies des entrées variables sont formalisées grâce à 303 paradigmes flexionnels.
Nous avons formalisé également 114 paradigmes dérivationnels qui permettent de lier les verbes perfectifs aux verbes imperfectifs.
Nous avons décrit de nombreuses formes dérivées ou les variantes orthographiques absentes du dictionnaire grâce aux 19 grammaires morphologiques.
Enfin, nous avons recensé certaines formes dans les dictionnaires secondaires, notamment les participes et les noms propres en minuscule.
Le dictionnaire « Ukr_dictionary_Participle_V.
1.
3 » contient 13 070 entrées et complète le dictionnaire principal, quand la grammaire morphologique qui décrit des participes ne permet pas de reconnaitre le participe dans le texte.
Le dictionnaire « Ukr_dictionary_Proper_lowercase_V.
1.
3 » contient des noms propres écrits en minuscule, en combinaison avec la grammaire «Adjectives_Relatives_V.
1.
3.
nom», il permet de reconnaitre les adjectifs relatifs créés à partir des noms propres.
Grâce à ces ressources, 98,3% d'occurrences dans le corpus de tests ont été reconnues et annotées avec leurs informations morphologiques.
Nous avons également construit dix grammaires syntaxiques qui permettent de lever un grand nombre d'ambiguïtés, puisque nous passons de 206 445 annotations à 131 415 pour un corpus de 108 137 occurrences.
Related Results
Construction of Enhanced Recovery Training Module for Former Drug Addicts
Construction of Enhanced Recovery Training Module for Former Drug Addicts
Construction of an academic module requires few main objectives in the module construction which are Module Construction, Module Validity Assessment, Module Reliability Test, and M...
Morphosyntax and Semantics in the NooJ Italian Dictionary of Simple Words
Morphosyntax and Semantics in the NooJ Italian Dictionary of Simple Words
The main topic of this paper is to describe how to transform effectively the “lexical matter” of a language (not only Italian) into a formal and taxonomic morphosyntactic classific...
De Hemingway au chinois classique : le travail de la langue de l’écrivain taïwanais Wang Wen-hsing
De Hemingway au chinois classique : le travail de la langue de l’écrivain taïwanais Wang Wen-hsing
Dans les années 1970, l’« occidentalisation » de Wang Wen-hsing lui attire les foudres de la critique. On lui reproche, entre autres choses, de mal écrire, d’être incompréhensible ...
Les oppositions « langue moderne / langue ancienne », « langue vivante / langue morte », « langue naturelle / langue artificielle » à l’épreuve de l’apprentissage : introduction à six études de cas sur les méthodes de l’apprentissage des langues étrangère
Les oppositions « langue moderne / langue ancienne », « langue vivante / langue morte », « langue naturelle / langue artificielle » à l’épreuve de l’apprentissage : introduction à six études de cas sur les méthodes de l’apprentissage des langues étrangère
Comment change l’apprentissage d’une langue d’après son statut de langue moderne vivante, de langue ancienne « morte » ou encore de langue construite « non-naturelle » ? À travers ...
consolidación de un nuevo enfoque pedagógico en “Aprendo con NooJ:
consolidación de un nuevo enfoque pedagógico en “Aprendo con NooJ:
En 2019, Andrea Rodrigo y Rodolfo Bonino, como representantes de un equipo de lingüistas y docentes investigadores de la ciudad de Rosario (Argentina), publican Aprendo con NooJ, u...
The terminological tagging of the NooJ italian compound word dictionary
The terminological tagging of the NooJ italian compound word dictionary
In this paper, and in relation to the construction of electronic dictionaries for NooJ, we will deal with the tagging of Italian compound words, and with how it differs from that o...

