Search engine for discovering works of Art, research articles, and books related to Art and Culture
ShareThis
Javascript must be enabled to continue!

Automatic recognition and generation of French Cued Speech using deep learning

View through CrossRef
Reconnaissance et génération automatique de Langue française Parlée Complétée utilisant l'apprentissage profond La Langue française Parlée Complétée (LfPC) est un système visuel conçu pour améliorer la compréhension de la parole chez les personnes malentendantes et profondément sourdes en utilisant des formes de mains placées à des positions particulières sur le côté du visage ou à la base du cou pour rendre les éléments phonétiques plus discriminés visuellement. Cette thèse présente une étude complète sur le développement et la mise en œuvre de systèmes de reconnaissance et de génération de la LfPC en utilisant des méthodes d'apprentissage profond. L'objectif principal de cette recherche est de combler le fossé de communication en introduisant un nouveau cadre qui exploite des modèles d'apprentissage profond spécifiquement adaptés à la nature multimodale de la LfPC. L'étude est divisée en deux axes principaux : la reconnaissance et la génération de la LfPC.Pour la reconnaissance, nous avons développé un système capable de traiter la LfPC de la langue française à partir d'entrées vidéo et de décoder ces indices visuels en représentations de texte correspondantes. Ce système combine des méthodes d'extraction de paramètres de pose pré-entraînées, de réseaux de neurones récurrents (RNN) avec un classifieur temporel connectionniste (CTC) pour analyser les indices manuels et les mouvements des lèvres image par image, assurant ainsi une capture précise de la dynamique des gestes associés à chaque indice phonétique. Les premières expériences utilisant la base de données CSF18 ont mis en évidence le besoin de données de plus grande ampleur, conduisant à la création des bases de données CSF22 et CSLM23, que nous avons enregistrées et que nous rendons public. Ces données ont constitué un fondement solide pour l'entraînement des modèles de reconnaissance et ont significativement amélioré leurs performances. De plus, nous explorons l'extension de la modélisation au décodage au niveau du mot pour mettre en œuvre un système de reconnaissance complet.Au sujet de l'asynchronie inhérente entre les deux articulateurs (main et lèvres) dans la LfPC, nous avons analysé les dynamiques complexes entre eux en intégrant des mécanismes d'attention dans notre architecture de reconnaissance. Cette intégration a permis de mettre à jour les dynamiques temporelles entre les mouvements de la main et des lèvres. En exploitant les cartes d'attention du modèle entraîné sur CSF22, nous avons également développé une méthode de segmentation de la LfPC.En parallèle, la thèse traite de la génération de la LfPC, en synthétisant des gestes visuels à partir d'entrées de niveau texte. Nous avons utilisé des techniques d'apprentissage profond, en commençant par des modèles de type encodeur-décodeur pour ensuite exploiter des architectures plus sophistiquées comme Tacotron et Tacotron 2. Ces modèles, en particulier Tacotron 2 avec son mécanisme d'attention amélioré et son architecture encodeur-décodeur raffinée, ont amélioré l'alignement et le traitement des séquences d'entrée. Des avancées significatives ont été réalisées en utilisant TacotronAV 2, qui a donné les meilleurs résultats en affinant par technique de fine-tuning le décodeur avec des poids d'encodeur gelés pré-entraînés sur de grands ensembles de données audio.Les résultats montrent des avancées significatives en reconnaissance et génération de la LfPC, avec nos modèles atteignant des performances à la pointe et constituant l'état de l'art. Cette recherche non seulement renforce les fondements technologiques des outils de la LfPC, mais elle contribue également au domaine plus large de la communication parlée augmentée et alternative, offrant de nouvelles voies pour améliorer l'accessibilité de la langue parlée pour la communauté des malentendants. Les implications de ce travail vont au-delà de la recherche académique, suggérant des applications pratiques dans les contextes éducatifs, de l'orthophonie et de la communication parlée en temps réel pour les personnes malentendantes.
Agence Bibliographique de l'Enseignement Supérieur
Title: Automatic recognition and generation of French Cued Speech using deep learning
Description:
Reconnaissance et génération automatique de Langue française Parlée Complétée utilisant l'apprentissage profond La Langue française Parlée Complétée (LfPC) est un système visuel conçu pour améliorer la compréhension de la parole chez les personnes malentendantes et profondément sourdes en utilisant des formes de mains placées à des positions particulières sur le côté du visage ou à la base du cou pour rendre les éléments phonétiques plus discriminés visuellement.
Cette thèse présente une étude complète sur le développement et la mise en œuvre de systèmes de reconnaissance et de génération de la LfPC en utilisant des méthodes d'apprentissage profond.
L'objectif principal de cette recherche est de combler le fossé de communication en introduisant un nouveau cadre qui exploite des modèles d'apprentissage profond spécifiquement adaptés à la nature multimodale de la LfPC.
L'étude est divisée en deux axes principaux : la reconnaissance et la génération de la LfPC.
Pour la reconnaissance, nous avons développé un système capable de traiter la LfPC de la langue française à partir d'entrées vidéo et de décoder ces indices visuels en représentations de texte correspondantes.
Ce système combine des méthodes d'extraction de paramètres de pose pré-entraînées, de réseaux de neurones récurrents (RNN) avec un classifieur temporel connectionniste (CTC) pour analyser les indices manuels et les mouvements des lèvres image par image, assurant ainsi une capture précise de la dynamique des gestes associés à chaque indice phonétique.
Les premières expériences utilisant la base de données CSF18 ont mis en évidence le besoin de données de plus grande ampleur, conduisant à la création des bases de données CSF22 et CSLM23, que nous avons enregistrées et que nous rendons public.
Ces données ont constitué un fondement solide pour l'entraînement des modèles de reconnaissance et ont significativement amélioré leurs performances.
De plus, nous explorons l'extension de la modélisation au décodage au niveau du mot pour mettre en œuvre un système de reconnaissance complet.
Au sujet de l'asynchronie inhérente entre les deux articulateurs (main et lèvres) dans la LfPC, nous avons analysé les dynamiques complexes entre eux en intégrant des mécanismes d'attention dans notre architecture de reconnaissance.
Cette intégration a permis de mettre à jour les dynamiques temporelles entre les mouvements de la main et des lèvres.
En exploitant les cartes d'attention du modèle entraîné sur CSF22, nous avons également développé une méthode de segmentation de la LfPC.
En parallèle, la thèse traite de la génération de la LfPC, en synthétisant des gestes visuels à partir d'entrées de niveau texte.
Nous avons utilisé des techniques d'apprentissage profond, en commençant par des modèles de type encodeur-décodeur pour ensuite exploiter des architectures plus sophistiquées comme Tacotron et Tacotron 2.
Ces modèles, en particulier Tacotron 2 avec son mécanisme d'attention amélioré et son architecture encodeur-décodeur raffinée, ont amélioré l'alignement et le traitement des séquences d'entrée.
Des avancées significatives ont été réalisées en utilisant TacotronAV 2, qui a donné les meilleurs résultats en affinant par technique de fine-tuning le décodeur avec des poids d'encodeur gelés pré-entraînés sur de grands ensembles de données audio.
Les résultats montrent des avancées significatives en reconnaissance et génération de la LfPC, avec nos modèles atteignant des performances à la pointe et constituant l'état de l'art.
Cette recherche non seulement renforce les fondements technologiques des outils de la LfPC, mais elle contribue également au domaine plus large de la communication parlée augmentée et alternative, offrant de nouvelles voies pour améliorer l'accessibilité de la langue parlée pour la communauté des malentendants.
Les implications de ce travail vont au-delà de la recherche académique, suggérant des applications pratiques dans les contextes éducatifs, de l'orthophonie et de la communication parlée en temps réel pour les personnes malentendantes.

Related Results

Multimodal Emotion Recognition and Human Computer Interaction for AI-Driven Mental Health Support (Preprint)
Multimodal Emotion Recognition and Human Computer Interaction for AI-Driven Mental Health Support (Preprint)
BACKGROUND Mental health has become one of the most urgent global health issues of the twenty-first century. The World Health Organization (WHO) reports tha...
Automatic speech recognition in voice-speech rehabilitation effectiveness evaluation in patients after laryngectomy
Automatic speech recognition in voice-speech rehabilitation effectiveness evaluation in patients after laryngectomy
Introduction. Lost voice function compensation determines the personal and social life of laryngectomees. Automatic speech recognition and synthesis methods are...
Selection of Injectable Drug Product Composition using Machine Learning Models (Preprint)
Selection of Injectable Drug Product Composition using Machine Learning Models (Preprint)
BACKGROUND As of July 2020, a Web of Science search of “machine learning (ML)” nested within the search of “pharmacokinetics or pharmacodynamics” yielded over 100...
Applying Deep Learning Algorithms for Speech Recognition in Speech-Impaired Children
Applying Deep Learning Algorithms for Speech Recognition in Speech-Impaired Children
Abstract - Speech impairment affects millions of children worldwide, creating significant barriers to communication, education, and social development. This paper investigates the ...
Depth-aware salient object segmentation
Depth-aware salient object segmentation
Object segmentation is an important task which is widely employed in many computer vision applications such as object detection, tracking, recognition, and ret...
Sound signal analysis in Japanese speech recognition based on deep learning algorithm
Sound signal analysis in Japanese speech recognition based on deep learning algorithm
Abstract As an important carrier of information, since sound can be collected quickly and is not limited by angle and light, it is often used to assist in understanding the...
The Neural Mechanisms of Private Speech in Second Language Learners’ Oral Production: An fNIRS Study
The Neural Mechanisms of Private Speech in Second Language Learners’ Oral Production: An fNIRS Study
Background: According to Vygotsky’s sociocultural theory, private speech functions both as a tool for thought regulation and as a transitional form between outer and inner speech. ...
Speech, communication, and neuroimaging in Parkinson's disease : characterisation and intervention outcomes
Speech, communication, and neuroimaging in Parkinson's disease : characterisation and intervention outcomes
<p dir="ltr">Most individuals with Parkinson's disease (PD) experience changes in speech, voice or communication. Speech changes often manifest as hypokinetic dysarthria, a m...

Back to Top