Javascript must be enabled to continue!

Traduction automatique de la parole vers des pictogrammes

La Communication Alternative et Augmentée (CAA) propose des méthodes et des outils pour pallier les déficiences de la production et de la compréhension de la parole. Les pictogrammes, éléments clés de la CAA, facilitent la communication des pensées et des émotions à travers une iconographie simplifiée. Cependant, des mythes et des barrières économiques freinent son déploiement, soulignant le besoin de solutions adaptées. La traduction automatique de la parole vers des pictogrammes, une nouvelle tâche du Traitement Automatique des Langues (TAL), vise à générer des séquences de pictogrammes à partir d'énoncés oraux. À l'intersection des domaines de la CAA et de la Traduction Automatique de la Parole (TAP), cette tâche peut faciliter la communication entre les aidants (personnels médicaux, proches) et des personnes souffrant de troubles du langage. Elle se heurte néanmoins à des défis majeurs, dont le manque de données multimodales unifiées, l'absence d'un cadre d'évaluation précis et l'inexistence de modèles neuronaux spécialisés pour proposer une traduction en pictogrammes. Dans cette thèse, nous présentons trois contributions pour relever ces défis. Nous introduisons deux méthodes de création de corpus multimodaux alignant de la parole, du texte et des pictogrammes. La première inclut une grammaire et un vocabulaire restreints pour générer une séquence de pictogrammes à partir de la transcription, tandis que la seconde intègre une chaîne de traitement pour récupérer l'audio des textes traduits en pictogrammes. Ces deux méthodes créent des ensembles de données robustes pour l’entraînement et l'évaluation des modèles. Dans notre deuxième contribution, nous définissons un cadre d'évaluation spécifique, combinant une évaluation automatique et humaine. Nous adaptons des métriques communément appliquées aux domaines de la Reconnaissance Automatique de la Parole (RAP) et de la Traduction Automatique (TA) pour comparer les performances entre modèles. Nous appliquons un cadre analytique pour interpréter la qualité des traductions. Enfin, dans notre troisième contribution, nous étudions deux approches, en cascade et de bout-en-bout, pour générer des séquences de pictogrammes à partir de la parole. Nous comparons des modèles de RAP, de TA et de TAP état de l'art, entraînés ou affinés sur les données multimodales créées. Les résultats de notre évaluation démontrent la capacité des modèles en cascade à produire des traductions en pictogrammes compréhensibles sur de la parole lue dans des contextes quotidiens. Nous démontrons des résultats compétitifs avec un modèle de bout-en-bout pour la parole spontanée, un défi persistant en TAL. Le code, les données et les modèles développés sont disponibles librement.

Agence Bibliographique de l'Enseignement Supérieur

Cécile Macaire

2026

Title: Traduction automatique de la parole vers des pictogrammes

Description:

La Communication Alternative et Augmentée (CAA) propose des méthodes et des outils pour pallier les déficiences de la production et de la compréhension de la parole.

Les pictogrammes, éléments clés de la CAA, facilitent la communication des pensées et des émotions à travers une iconographie simplifiée.

Cependant, des mythes et des barrières économiques freinent son déploiement, soulignant le besoin de solutions adaptées.

La traduction automatique de la parole vers des pictogrammes, une nouvelle tâche du Traitement Automatique des Langues (TAL), vise à générer des séquences de pictogrammes à partir d'énoncés oraux.

À l'intersection des domaines de la CAA et de la Traduction Automatique de la Parole (TAP), cette tâche peut faciliter la communication entre les aidants (personnels médicaux, proches) et des personnes souffrant de troubles du langage.

Elle se heurte néanmoins à des défis majeurs, dont le manque de données multimodales unifiées, l'absence d'un cadre d'évaluation précis et l'inexistence de modèles neuronaux spécialisés pour proposer une traduction en pictogrammes.

Dans cette thèse, nous présentons trois contributions pour relever ces défis.

Nous introduisons deux méthodes de création de corpus multimodaux alignant de la parole, du texte et des pictogrammes.

La première inclut une grammaire et un vocabulaire restreints pour générer une séquence de pictogrammes à partir de la transcription, tandis que la seconde intègre une chaîne de traitement pour récupérer l'audio des textes traduits en pictogrammes.

Ces deux méthodes créent des ensembles de données robustes pour l’entraînement et l'évaluation des modèles.

Dans notre deuxième contribution, nous définissons un cadre d'évaluation spécifique, combinant une évaluation automatique et humaine.

Nous adaptons des métriques communément appliquées aux domaines de la Reconnaissance Automatique de la Parole (RAP) et de la Traduction Automatique (TA) pour comparer les performances entre modèles.

Nous appliquons un cadre analytique pour interpréter la qualité des traductions.

Enfin, dans notre troisième contribution, nous étudions deux approches, en cascade et de bout-en-bout, pour générer des séquences de pictogrammes à partir de la parole.

Nous comparons des modèles de RAP, de TA et de TAP état de l'art, entraînés ou affinés sur les données multimodales créées.

Les résultats de notre évaluation démontrent la capacité des modèles en cascade à produire des traductions en pictogrammes compréhensibles sur de la parole lue dans des contextes quotidiens.

Nous démontrons des résultats compétitifs avec un modèle de bout-en-bout pour la parole spontanée, un défi persistant en TAL.

Le code, les données et les modèles développés sont disponibles librement.

Back

Assessment of Speech Intelligibility using Deep Learning : Towards Enhanced Interpretability in Clinical Phonetics L’intelligibilité de la parole est une composante...

Synthèse géologique et hydrogéologique du Shale d'Utica et des unités sus-jacentes (Lorraine, Queenston et dépôts meubles), Basses-Terres du Saint-Laurent, Québec

Le présent travail a été initié dans le cadre d'un mandat donné à l'INRS-ETE par la Commission géologique du Canada (CGC) et le Ministère du Développement durable, de l'Environneme...

REGULAR ARTICLES

L. Cowen and C. J. Schwarz 657Les Radio‐tags, en raison de leur détectabilitéélevée, ...

Résumés des conférences JRANF 2021

able des matières Résumés. 140 Agenda Formation en Radioprotection JRANF 2021 Ouagadougou. 140 RPF 1 Rappel des unités de doses. 140 RPF 2 Risques déterministes et stochastique...

Avant-propos

L’Agriculture Biologique (AB) se présente comme un mode de production agricole spécifique basé sur le respect d’un certain nombre de principes et de pratiques visant à réduire au m...

Efficient corpus selection for statistical machine translation

Sélection de corpus en traduction automatique statistique Dans notre monde de communications au niveau international, la traduction automatique est devenue une tech...

De la poésie à la peinture

La poésie et la peinture étaient toujours deux différentes expressions de l’esprit et de l’âme de l’homme qui sont dédiées à présenter absolument chacune à sa façon ce qui était di...

Going beyond the sentence : Contextual Machine Translation of Dialogue

Au-delà de la phrase : traduction automatique de dialogue en contexte Les systèmes de traduction automatique (TA) ont fait des progrès considérables ces dernières a...

Email:
Password:

Email:

Traduction automatique de la parole vers des pictogrammes

Related Results