Javascript must be enabled to continue!
Reconnaissance automatique de la parole à large vocabulaire : des approches hybrides aux approches End-to-End
View through CrossRef
Ma thèse s'inscrit dans le cadre du projet de recherche OpenPaasNG 1 qui a été lancé en 2015 pour une durée de 4 ans avec l'objectif de développer une nouvelle génération de plateforme collaborative proposant un outil de visio-conférence utilisant des technologies d'intelligence artificielle pour la transcription de la parole, l'extraction des mots clés et le résumé automatique des réunions. Dans ce contexte, l'objectif de cette thèse est d'étudier, d'approfondir, de construire et d'enrichir la brique de reconnaissance automatique de la parole (RAP) pour aider à l'exploitation de l'information verbale durant les réunions en temps réel et en off-line à des fins d'archivage. Cette thèse porte sur l'étude des méthodes de modélisation acoustique pour la RAP. Le boule- versement des architectures neuronales séquentielles ont permis de nos jours des avancées majeures dans l'amélioration de la modélisation et l'apprentissage du modèle acoustique. Nous explorons dans ce travail les deux grandes familles des systèmes RAP à savoir : les approches traditionnelles hybrides et End-to-End. Une première partie de cette thèse concerne les approches traditionnelles et est dédiée à la mise en place d'un système RAP large vocabulaire en français pour la parole spontanée, déployé dans le contexte industriel. Un grand travail de collecte de données, de traitement et de normalisation a été effectué dans un premier temps pour atteindre l'objectif des 1000 heures de parole annotée. Une évaluation des composants acoustique, lexical et linguistique est proposée pour affiner au mieux le choix et l'orientation de la modélisation hybride DNN-HMM pour la langue française. Nous décri- vons dans cette partie le développement de la plateforme industrielle d'adaptation des composants hybrides appelée "LinSTT Model Factory" permettant une adaptation des modèles aux conditions d'utilisations, à savoir : un contexte acoustique particulier, un vocabulaire spécifique à un domaine cible. Dans une deuxième partie, nous abordons la problématique de prédiction de représentation textuelle directement à partir des observations acoustiques. Pour cela, nous effectuons une étude approfondie des approches RAP End-to-End : comment pouvons nous apprendre des alignements séquentiels entre l'audio et le texte ? Quel type d'architecture utiliser ? Et surtout, quel type d'unités en sortie choisir (caractère, pièce de mot, mot) ? Nous répondons à ces questions avec un ensemble d'expérience sur les corpus TIMIT et LibriSpeech. Ces travaux ont été, dans une grande partie, menés au cours d'un séjour scientifique au laboratoire du Mila au Canada dans le cadre du développement de l'outil open-source "SpeechBrain". Dans une troisième partie, nous explorons des approches multi-tâche sur les systèmes RAP End-to-End afin d'exploiter plusieurs représentations textuelles, dans notre cas, des sorties caractères et des sorties consonnes/voyelles. Nous avons proposé une nouvelle technique de combinaisons des représentations textuelles pour l'amélioration des performances de reconnaissance.
Title: Reconnaissance automatique de la parole à large vocabulaire : des approches hybrides aux approches End-to-End
Description:
Ma thèse s'inscrit dans le cadre du projet de recherche OpenPaasNG 1 qui a été lancé en 2015 pour une durée de 4 ans avec l'objectif de développer une nouvelle génération de plateforme collaborative proposant un outil de visio-conférence utilisant des technologies d'intelligence artificielle pour la transcription de la parole, l'extraction des mots clés et le résumé automatique des réunions.
Dans ce contexte, l'objectif de cette thèse est d'étudier, d'approfondir, de construire et d'enrichir la brique de reconnaissance automatique de la parole (RAP) pour aider à l'exploitation de l'information verbale durant les réunions en temps réel et en off-line à des fins d'archivage.
Cette thèse porte sur l'étude des méthodes de modélisation acoustique pour la RAP.
Le boule- versement des architectures neuronales séquentielles ont permis de nos jours des avancées majeures dans l'amélioration de la modélisation et l'apprentissage du modèle acoustique.
Nous explorons dans ce travail les deux grandes familles des systèmes RAP à savoir : les approches traditionnelles hybrides et End-to-End.
Une première partie de cette thèse concerne les approches traditionnelles et est dédiée à la mise en place d'un système RAP large vocabulaire en français pour la parole spontanée, déployé dans le contexte industriel.
Un grand travail de collecte de données, de traitement et de normalisation a été effectué dans un premier temps pour atteindre l'objectif des 1000 heures de parole annotée.
Une évaluation des composants acoustique, lexical et linguistique est proposée pour affiner au mieux le choix et l'orientation de la modélisation hybride DNN-HMM pour la langue française.
Nous décri- vons dans cette partie le développement de la plateforme industrielle d'adaptation des composants hybrides appelée "LinSTT Model Factory" permettant une adaptation des modèles aux conditions d'utilisations, à savoir : un contexte acoustique particulier, un vocabulaire spécifique à un domaine cible.
Dans une deuxième partie, nous abordons la problématique de prédiction de représentation textuelle directement à partir des observations acoustiques.
Pour cela, nous effectuons une étude approfondie des approches RAP End-to-End : comment pouvons nous apprendre des alignements séquentiels entre l'audio et le texte ? Quel type d'architecture utiliser ? Et surtout, quel type d'unités en sortie choisir (caractère, pièce de mot, mot) ? Nous répondons à ces questions avec un ensemble d'expérience sur les corpus TIMIT et LibriSpeech.
Ces travaux ont été, dans une grande partie, menés au cours d'un séjour scientifique au laboratoire du Mila au Canada dans le cadre du développement de l'outil open-source "SpeechBrain".
Dans une troisième partie, nous explorons des approches multi-tâche sur les systèmes RAP End-to-End afin d'exploiter plusieurs représentations textuelles, dans notre cas, des sorties caractères et des sorties consonnes/voyelles.
Nous avons proposé une nouvelle technique de combinaisons des représentations textuelles pour l'amélioration des performances de reconnaissance.
Related Results
REGULAR ARTICLES
REGULAR ARTICLES
L. Cowen and
C. J.
Schwarz
657Les Radio‐tags, en raison de leur détectabilitéélevée, ...
Avant-propos
Avant-propos
L’Agriculture Biologique (AB) se présente comme un mode de production agricole spécifique basé sur le respect d’un certain nombre de principes et de pratiques visant à réduire au m...
Synthèse géologique et hydrogéologique du Shale d'Utica et des unités sus-jacentes (Lorraine, Queenston et dépôts meubles), Basses-Terres du Saint-Laurent, Québec
Synthèse géologique et hydrogéologique du Shale d'Utica et des unités sus-jacentes (Lorraine, Queenston et dépôts meubles), Basses-Terres du Saint-Laurent, Québec
Le présent travail a été initié dans le cadre d'un mandat donné à l'INRS-ETE par la Commission géologique du Canada (CGC) et le Ministère du Développement durable, de l'Environneme...
Résumés des conférences JRANF 2021
Résumés des conférences JRANF 2021
able des matières
Résumés. 140
Agenda Formation en Radioprotection JRANF 2021 Ouagadougou. 140
RPF 1 Rappel des unités de doses. 140
RPF 2 Risques déterministes et stochastique...
Socioanthropologie
Socioanthropologie
Le contexte actuel tel que le dessinent les tendances lourdes de ce troisième millénaire convie à interpeller les outils des science sociales forgés précédemment. La compréhension ...
De la poésie à la peinture
De la poésie à la peinture
La poésie et la peinture étaient toujours deux différentes expressions de l’esprit et de l’âme de l’homme qui sont dédiées à présenter absolument chacune à sa façon ce qui était di...
Efficient corpus selection for statistical machine translation
Efficient corpus selection for statistical machine translation
Sélection de corpus en traduction automatique statistique
Dans notre monde de communications au niveau international, la traduction automatique est devenue une tech...
Environnement
Environnement
Le mot environnement est polysémique. Selon les contextes et les disciplines, on peut référer à l’environnement physique, naturel ou social. Il est parfois associé, à tort, aux not...

