Javascript must be enabled to continue!

Standard-based lexical models for automatically structured dictionnaries

Modèles lexicaux standardisés pour les dictionnaires à structure automatique Les dictionnaires peuvent être considérés comme le réservoir le plus compréhensible de connaissances humaines, qui contiennent non seulement la description lexicale des mots dans une ou plusieurs langues, mais aussi la conscience commune d’une certaine communauté sur chaque élément de connaissance connu dans une période de temps donnée. Les dictionnaires imprimés sont les principales ressources qui permettent la documentation et le transfert de ces connaissances. Ils existent déjà en grand nombre, et de nouveaux dictionnaires sont continuellement compilés. Cependant, la majorité de ces dictionnaires dans leur version numérique n’est toujours pas structurée en raison de l’absence de méthodes et de techniques évolutives pouvant couvrir le nombre du matériel croissant et sa variété. En outre, les ressources structurées existantes, relativement peu nombreuses, présentent des alternatives d’échange et de recherche limitées, en raison d’un sérieux manque de synchronisation entre leurs schémas de structure. Dans cette thèse, nous abordons la tâche d’analyse des informations lexicales dans les dictionnaires imprimés en construisant des modèles qui permettent leur structuration automatique. La résolution de cette tâche va de pair avec la recherche d’une sortie standardisée de ces modèles afin de garantir une interopérabilité maximale entre les ressources et une facilité d’utilisation pour les tâches en aval. Nous commençons par présenter différentes classifications des ressources dictionnaires pour délimiter les catégories des dictionnaires imprimés sur lesquelles ce travail se focalise. Ensuite, nous définissions la tâche d’analyse en fournissant un aperçu des défis de traitement et une étude de l’état de l’art. Nous présentons par la suite une nouvelle approche basée sur une analyse en cascade de l’information lexicale. Nous décrivons également l’architecture du système résultant, appelé GROBID-Dictionaries, et la méthodologie que nous avons suivie pour rapprocher la conception du système de son applicabilité aux scénarios du monde réel. Ensuite, nous prestons des normes clés pour les ressources lexicales structurées. En outre, nous fournissons une analyse de deux initiatives en cours, TEI-Lex-0 et LMF, qui visent à unifier la modélisation de l’information lexicale dans les dictionnaires imprimés et électroniques. Sur cette base, nous présentons un format de sérialisation conforme aux schémas des deux initiatives de normalisation et qui est assorti à l’approche développée dans notre système d’analyse lexicale. Après avoir présenté les facettes d’analyse et de sérialisation normalisées de nos modèles lexicaux, nous fournissons une étude empirique de leurs performances et de leurs comportements. L’étude est basée sur une configuration spécifique d’apprentissage automatique et sur une série d’expériences menées avec un ensemble sélectionné de dictionnaires variés. Dans cette étude, nous essayons de présenter différentes manières d’ingénierie des caractéristiques et de montrer les points forts et les limites des meilleurs modèles résultants. Nous consacrons également deux séries d’expériences pour explorer l’extensibilité de nos modèles en ce qui concerne les documents traités et la technique d’apprentissage automatique employée. Enfin, nous clôturons cette thèse en présentant les principales conclusions et en ouvrant de nouvelles perspectives pour l’extension de nos investigations dans un certain nombre de directions de recherche pour l’analyse des documents structurés en un ensemble d’entrées.

Agence Bibliographique de l'Enseignement Supérieur

Mohamed Khemakhem

2026

Title: Standard-based lexical models for automatically structured dictionnaries

Description:

Les dictionnaires imprimés sont les principales ressources qui permettent la documentation et le transfert de ces connaissances.

Ils existent déjà en grand nombre, et de nouveaux dictionnaires sont continuellement compilés.

Cependant, la majorité de ces dictionnaires dans leur version numérique n’est toujours pas structurée en raison de l’absence de méthodes et de techniques évolutives pouvant couvrir le nombre du matériel croissant et sa variété.

En outre, les ressources structurées existantes, relativement peu nombreuses, présentent des alternatives d’échange et de recherche limitées, en raison d’un sérieux manque de synchronisation entre leurs schémas de structure.

Dans cette thèse, nous abordons la tâche d’analyse des informations lexicales dans les dictionnaires imprimés en construisant des modèles qui permettent leur structuration automatique.

La résolution de cette tâche va de pair avec la recherche d’une sortie standardisée de ces modèles afin de garantir une interopérabilité maximale entre les ressources et une facilité d’utilisation pour les tâches en aval.

Nous commençons par présenter différentes classifications des ressources dictionnaires pour délimiter les catégories des dictionnaires imprimés sur lesquelles ce travail se focalise.

Ensuite, nous définissions la tâche d’analyse en fournissant un aperçu des défis de traitement et une étude de l’état de l’art.

Nous présentons par la suite une nouvelle approche basée sur une analyse en cascade de l’information lexicale.

Nous décrivons également l’architecture du système résultant, appelé GROBID-Dictionaries, et la méthodologie que nous avons suivie pour rapprocher la conception du système de son applicabilité aux scénarios du monde réel.

Ensuite, nous prestons des normes clés pour les ressources lexicales structurées.

En outre, nous fournissons une analyse de deux initiatives en cours, TEI-Lex-0 et LMF, qui visent à unifier la modélisation de l’information lexicale dans les dictionnaires imprimés et électroniques.

Sur cette base, nous présentons un format de sérialisation conforme aux schémas des deux initiatives de normalisation et qui est assorti à l’approche développée dans notre système d’analyse lexicale.

Après avoir présenté les facettes d’analyse et de sérialisation normalisées de nos modèles lexicaux, nous fournissons une étude empirique de leurs performances et de leurs comportements.

L’étude est basée sur une configuration spécifique d’apprentissage automatique et sur une série d’expériences menées avec un ensemble sélectionné de dictionnaires variés.

Dans cette étude, nous essayons de présenter différentes manières d’ingénierie des caractéristiques et de montrer les points forts et les limites des meilleurs modèles résultants.

Nous consacrons également deux séries d’expériences pour explorer l’extensibilité de nos modèles en ce qui concerne les documents traités et la technique d’apprentissage automatique employée.

Enfin, nous clôturons cette thèse en présentant les principales conclusions et en ouvrant de nouvelles perspectives pour l’extension de nos investigations dans un certain nombre de directions de recherche pour l’analyse des documents structurés en un ensemble d’entrées.

Back

Artikkelissa tarkastellaan leksikaalisen diversiteetin eli tekstin sanastollisen monimuotoisuuden rakentumista. Tavoitteena on esitellä leksikaalisen diversiteetin tutkimuksen meto...

Računalno potpomognuto usmjeravanje kod dvojezičnih govornika

This thesis investigates whether modern computer models can confirm how people encounter words and then use these findings in didactics. In recent years, computers have been used i...

The Lexical Bias Effect during Speech Production in the First and Second Language

The lexical bias effect is the tendency for people to make phonological speech errors that result in existing words. Several studies have argued that this effect arises from a comb...

Lexical Differences between Tuscan Dialects and Standard Italian: Accounting for Geographicand Sociodemographic Variation using Generalized Additive Mixed Modeling

This study uses a generalized additive mixed-effects regression model to predict lexical differences in Tuscan dialects with respect to standard Italian. We used lexical informatio...

Lexical Richness of Chinese College Students’ Spoken English

Lexical richness has been considered one of the most effective methods of assessing writing proficiency. However, the studies on spoken English lexical richness for EFL Chinese stu...

Overcoming lexical interference in Chinese students learning Russian

Background. The article addresses the issue of lexical interference among Chinese students learning Russian as a foreign language. This phenomenon is due to significant differences...

THE READING COMPREHENSION OF TEXT WITH DIFFERENT LEXICAL DENSITY AND TOPIC FAMILIARITY OF GRADE TEN STUDENTS OF SMA SW KATOLIK BUDI MURNI 2 MEDAN.

This study aims with reading comprehension of grade ten students of SMA SW Katolik Budi Murni 2 Medan. The objective of this study is(1) describe the students reading comprehension...

PENGENALAN BAHASA INGGRIS MELALUI LEXICAL CHUNK UNTUK ANAK USIA DINI

Penelitian ini diawali dengan menganalisis kebutuhan materi bahasa inggris guru Pendidikan Islam Anak Usia Dini Al Azhar Brebes, Bunayya Brebes, dan Pelita Bangsa dan hasil dari an...

Email:
Password:

Email:

Standard-based lexical models for automatically structured dictionnaries

Related Results