Search engine for discovering works of Art, research articles, and books related to Art and Culture
ShareThis
Javascript must be enabled to continue!

Simplification automatique de textes techniques et spécialisés

View through CrossRef
La simplification automatique de textes est un domaine du traitement automatique des langues (TAL) qui vise à traiter des textes difficiles à lire pour un public donné de façon à les rendre plus accessibles. Notre objectif consiste à simplifier automatiquement les textes médicaux et de santé. Nous présentons l'ensemble de notre travail sur cette question, qui va de la collecte et analyse de corpus jusqu’aux expériences en simplification automatique.Nous commençons par la collecte d’un corpus comparable de textes médicaux. Ce corpus est constitué de couples de documents qui traitent du même sujet : l’un s’adressant à un public spécialiste et l’autre à un public néophyte. Le corpus contient trois types de textes : des informations sur les médicaments, des bilans de revues systématiques de littérature médicale et des articles encyclopédiques. Une fois les documents collectés, nous annotons un sous-ensemble de ces documents et analysons les transformations linguistiques qui y sont mises en œuvre lors de la simplification.À partir du corpus comparable, nous mettons en place une méthode pour en extraire un corpus parallèle, c’est-à-dire un corpus comprenant des couples de phrases qui ont le même sens mais diffèrent par leur degré de difficulté. Ce type de corpus représente le matériau principal pour les méthodes de simplification automatique. Notre méthode d'extraction de phrases parallèles comporte deux étapes : (1) le préfiltrage de paires de phrases candidates à l’alignement selon des heuristiques syntaxiques et (2) la classification binaire permettant de distinguer les phrases en relation de simplification. Nous évaluons différents classifieurs ainsi que l’influence du déséquilibre des données sur les performances. Afin de valoriser ce corpus parallèle, nous créons également un corpus de paires de phrases annotées selon leur similarité sémantique, avec des scores allant de 0 (sémantique indépendante) à 5 (même sémantique). Les deux corpus sont disponibles pour la recherche.Enfin, nous présentons une série d’expériences en simplification automatique de textes médicaux en français. Ainsi, nous mettons à l’œuvre une méthode neuronale issue de la traduction automatique. Nous utilisons plusieurs ressources : le corpus parallèle médical construit par nous, le corpus parallèle de langue générale automatiquement traduit par nous de l'anglais vers le français ainsi qu’un lexique qui apparie des termes médicaux avec des termes ou paraphrases accessibles au grand public. Nous décrivons le protocole expérimental et menons une évaluation en deux volets, quantitatif et qualitatif. Les résultats sont comparables à l’état de l’art de la simplification en langue générale et montrent que les simplifications produites peuvent être exploitées dans le cadre d’une tâche de simplification assistée par ordinateur.
Agence Bibliographique de l'Enseignement Supérieur
Title: Simplification automatique de textes techniques et spécialisés
Description:
La simplification automatique de textes est un domaine du traitement automatique des langues (TAL) qui vise à traiter des textes difficiles à lire pour un public donné de façon à les rendre plus accessibles.
Notre objectif consiste à simplifier automatiquement les textes médicaux et de santé.
Nous présentons l'ensemble de notre travail sur cette question, qui va de la collecte et analyse de corpus jusqu’aux expériences en simplification automatique.
Nous commençons par la collecte d’un corpus comparable de textes médicaux.
Ce corpus est constitué de couples de documents qui traitent du même sujet : l’un s’adressant à un public spécialiste et l’autre à un public néophyte.
Le corpus contient trois types de textes : des informations sur les médicaments, des bilans de revues systématiques de littérature médicale et des articles encyclopédiques.
Une fois les documents collectés, nous annotons un sous-ensemble de ces documents et analysons les transformations linguistiques qui y sont mises en œuvre lors de la simplification.
À partir du corpus comparable, nous mettons en place une méthode pour en extraire un corpus parallèle, c’est-à-dire un corpus comprenant des couples de phrases qui ont le même sens mais diffèrent par leur degré de difficulté.
Ce type de corpus représente le matériau principal pour les méthodes de simplification automatique.
Notre méthode d'extraction de phrases parallèles comporte deux étapes : (1) le préfiltrage de paires de phrases candidates à l’alignement selon des heuristiques syntaxiques et (2) la classification binaire permettant de distinguer les phrases en relation de simplification.
Nous évaluons différents classifieurs ainsi que l’influence du déséquilibre des données sur les performances.
Afin de valoriser ce corpus parallèle, nous créons également un corpus de paires de phrases annotées selon leur similarité sémantique, avec des scores allant de 0 (sémantique indépendante) à 5 (même sémantique).
Les deux corpus sont disponibles pour la recherche.
Enfin, nous présentons une série d’expériences en simplification automatique de textes médicaux en français.
Ainsi, nous mettons à l’œuvre une méthode neuronale issue de la traduction automatique.
Nous utilisons plusieurs ressources : le corpus parallèle médical construit par nous, le corpus parallèle de langue générale automatiquement traduit par nous de l'anglais vers le français ainsi qu’un lexique qui apparie des termes médicaux avec des termes ou paraphrases accessibles au grand public.
Nous décrivons le protocole expérimental et menons une évaluation en deux volets, quantitatif et qualitatif.
Les résultats sont comparables à l’état de l’art de la simplification en langue générale et montrent que les simplifications produites peuvent être exploitées dans le cadre d’une tâche de simplification assistée par ordinateur.

Related Results

Machine learning for Economic History
Machine learning for Economic History
Apprentissage automatique pour l'histoire économique Les méthodes d'apprentissage automatique ont contribué à élargir la boîte à outils de l'économie au cours des d...
Le Conseil d'Etat et la simplification du droit.
Le Conseil d'Etat et la simplification du droit.
La simplification du droit se traduit aujourd’hui par une politique volontariste mise en place par les pouvoirs publics qui se concrétise particulièrement par le biais de lois de s...
L’Apprentissage artificiel pour la fouille de données multilingues : application à la classification automatique des documents arabes
L’Apprentissage artificiel pour la fouille de données multilingues : application à la classification automatique des documents arabes
La classification automatique des documents, une approche issue de l’apprentissage artificiel et de la fouille de textes, s’avère être très efficace pour l’organisation des ressour...
Simplification of 3D CAD models with deep learning for augmented reality
Simplification of 3D CAD models with deep learning for augmented reality
Simplification des modèles CAO 3D avec l'apprentissage profond pour la réalité augmentée Dans l'Industrie 4.0, l'utilisation d'appareils de Réalité Augmentée (RA) t...
Numerical Simplification and its Effect on Fragment Distributions in Genetic Programming
Numerical Simplification and its Effect on Fragment Distributions in Genetic Programming
<p>In tree-based genetic programming (GP) there is a tendency for the program trees to increase in size from one generation to the next. If this increase in program size is n...
Efficient corpus selection for statistical machine translation
Efficient corpus selection for statistical machine translation
Sélection de corpus en traduction automatique statistique Dans notre monde de communications au niveau international, la traduction automatique est devenue une tech...
Traduction automatique de la parole vers des pictogrammes
Traduction automatique de la parole vers des pictogrammes
La Communication Alternative et Augmentée (CAA) propose des méthodes et des outils pour pallier les déficiences de la production et de la compréhension de la parole. Les pictogramm...
Applications of secure multi-party computation in Machine Learning
Applications of secure multi-party computation in Machine Learning
Les applications du calcul multipartite sécurisé en apprentissage automatique La préservation des données privées dans l'apprentissage automatique et l'analyse des ...

Back to Top