Search engine for discovering works of Art, research articles, and books related to Art and Culture
ShareThis
Javascript must be enabled to continue!

Self-supervised learning for speaker recognition

View through CrossRef
Apprentissage auto-supervisé pour la reconnaissance du locuteur Les avancées dans le domaine de l'intelligence artificielle, portées par le développement de l'apprentissage profond, ont entraîné des progrès considérables en traitement de la parole. Dans le cadre de la Reconnaissance du Locuteur (RdL), l'objectif d'apprentissage est d'associer un échantillon audio à l'identité du locuteur correspondant. Toutefois, la performance de ces systèmes supervisés dépend fortement de la quantité de données annotées disponibles. Cette dépendance intrinsèque à une supervision humaine constitue une limitation majeure, car l'obtention de ces annotations représente un processus coûteux, chronophage, sujet à des biais et souvent restreint en diversité, autant de facteurs qui freinent la capacité et la généralisation de ces modèles. Ce problème est particulièrement notable dans le domaine de la parole, au sein duquel collecter des données annotées couvrant toutes les langues (plus de 7 000 dialectes parlés dans le monde), les profils de locuteurs (âge, genre, etc.) et les conditions d'enregistrement (microphone, bruit ambiant, etc.) s'avère souvent irréalisable. L'Apprentissage Auto-Supervisé (AAS) a récemment émergé comme une approche prometteuse pour apprendre des représentations pertinentes sans recourir à des annotations humaines, en s'inspirant de la manière dont les humains apprennent à partir de motifs et du contexte, plutôt que de signaux explicites. Bien que l'AAS ait démontré son efficacité sur de nombreuses tâches en aval, plusieurs applications demeurent peu étudiées. Cette thèse contribue à ce paradigme en plein essor en l'appliquant à la RdL, dans une perspective visant à améliorer la capacité de généralisation de ces systèmes et à réduire leur dépendance aux données annotées. La première contribution explore l'application de l'AAS à la RdL, en présentant une comparaison approfondie des principaux cadres méthodologiques et des méthodes proposés dans la littérature. Une étude et une évaluation rigoureuses, conduites dans un cadre expérimental cohérent, fournissent ensuite des analyses précieuses sur les composants influençant la performance de ces approches. La deuxième contribution intègre des techniques de marge, initialement développées pour la reconnaissance du visage en conditions supervisées, aux fonctions de perte des cadres auto-supervisés contrastifs. Ces méthodes renforcent le potentiel discriminant des représentations du locuteur en augmentant explicitement les distances inter-locuteurs dans l'espace de représentations. La troisième contribution aborde la principale limitation des systèmes auto-supervisés, à savoir l'échantillonnage positif provenant d'un même échantillon, ce qui conduit à l'encodage d'informations liées au canal d'enregistrement. Une nouvelle stratégie d'échantillonnage dans l'espace latent est proposée, sélectionnant des positifs provenant du même locuteur mais issus de conditions d'enregistrement différentes. Cette technique permet de réduire la variance intra-locuteur et favorise l'apprentissage de représentations plus robustes et plus invariantes. La dernière contribution propose une méthode pour exploiter les modèles auto-supervisés de fondation, entraînés à grande échelle sur de vastes corpus non annotés. L'approche consiste à générer de manière itérative des pseudo-étiquettes pour affiner le modèle sur la tâche de RdL et permet d'atteindre des performances à l'état de l'art, tout en réduisant l'écart avec les systèmes supervisés.
Agence Bibliographique de l'Enseignement Supérieur
Title: Self-supervised learning for speaker recognition
Description:
Apprentissage auto-supervisé pour la reconnaissance du locuteur Les avancées dans le domaine de l'intelligence artificielle, portées par le développement de l'apprentissage profond, ont entraîné des progrès considérables en traitement de la parole.
Dans le cadre de la Reconnaissance du Locuteur (RdL), l'objectif d'apprentissage est d'associer un échantillon audio à l'identité du locuteur correspondant.
Toutefois, la performance de ces systèmes supervisés dépend fortement de la quantité de données annotées disponibles.
Cette dépendance intrinsèque à une supervision humaine constitue une limitation majeure, car l'obtention de ces annotations représente un processus coûteux, chronophage, sujet à des biais et souvent restreint en diversité, autant de facteurs qui freinent la capacité et la généralisation de ces modèles.
Ce problème est particulièrement notable dans le domaine de la parole, au sein duquel collecter des données annotées couvrant toutes les langues (plus de 7 000 dialectes parlés dans le monde), les profils de locuteurs (âge, genre, etc.
) et les conditions d'enregistrement (microphone, bruit ambiant, etc.
) s'avère souvent irréalisable.
L'Apprentissage Auto-Supervisé (AAS) a récemment émergé comme une approche prometteuse pour apprendre des représentations pertinentes sans recourir à des annotations humaines, en s'inspirant de la manière dont les humains apprennent à partir de motifs et du contexte, plutôt que de signaux explicites.
Bien que l'AAS ait démontré son efficacité sur de nombreuses tâches en aval, plusieurs applications demeurent peu étudiées.
Cette thèse contribue à ce paradigme en plein essor en l'appliquant à la RdL, dans une perspective visant à améliorer la capacité de généralisation de ces systèmes et à réduire leur dépendance aux données annotées.
La première contribution explore l'application de l'AAS à la RdL, en présentant une comparaison approfondie des principaux cadres méthodologiques et des méthodes proposés dans la littérature.
Une étude et une évaluation rigoureuses, conduites dans un cadre expérimental cohérent, fournissent ensuite des analyses précieuses sur les composants influençant la performance de ces approches.
La deuxième contribution intègre des techniques de marge, initialement développées pour la reconnaissance du visage en conditions supervisées, aux fonctions de perte des cadres auto-supervisés contrastifs.
Ces méthodes renforcent le potentiel discriminant des représentations du locuteur en augmentant explicitement les distances inter-locuteurs dans l'espace de représentations.
La troisième contribution aborde la principale limitation des systèmes auto-supervisés, à savoir l'échantillonnage positif provenant d'un même échantillon, ce qui conduit à l'encodage d'informations liées au canal d'enregistrement.
Une nouvelle stratégie d'échantillonnage dans l'espace latent est proposée, sélectionnant des positifs provenant du même locuteur mais issus de conditions d'enregistrement différentes.
Cette technique permet de réduire la variance intra-locuteur et favorise l'apprentissage de représentations plus robustes et plus invariantes.
La dernière contribution propose une méthode pour exploiter les modèles auto-supervisés de fondation, entraînés à grande échelle sur de vastes corpus non annotés.
L'approche consiste à générer de manière itérative des pseudo-étiquettes pour affiner le modèle sur la tâche de RdL et permet d'atteindre des performances à l'état de l'art, tout en réduisant l'écart avec les systèmes supervisés.

Related Results

Speaker Verification and Identification
Speaker Verification and Identification
A speaker recognition system verifies or identifies a speaker’s identity based on his/her voice. It is considered as one of the most convenient biometric characteristic for human m...
Quarantine Powers, Biodefense, and Andrew Speaker
Quarantine Powers, Biodefense, and Andrew Speaker
In January 2007, “Andrew Speaker (“Speaker”) underwent a chest X-ray and CT scan, which revealed an abnormality in his lungs.” However, tests results indicated that he did not ha...
Fusion of Cochleogram and Mel Spectrogram Features for Deep Learning Based Speaker Recognition
Fusion of Cochleogram and Mel Spectrogram Features for Deep Learning Based Speaker Recognition
Abstract Speaker recognition has crucial application in forensic science, financial areas, access control, surveillance and law enforcement. The performance of speaker reco...
Is a Fitbit a Diary? Self-Tracking and Autobiography
Is a Fitbit a Diary? Self-Tracking and Autobiography
Data becomes something of a mirror in which people see themselves reflected. (Sorapure 270)In a 2014 essay for The New Yorker, the humourist David Sedaris recounts an obsession spu...
Analyzing Noise Robustness of Cochleogram and Mel Spectrogram Features in Deep Learning Based Speaker Recogntion
Analyzing Noise Robustness of Cochleogram and Mel Spectrogram Features in Deep Learning Based Speaker Recogntion
Abstract The performance of speaker recognition is very well in a clean dataset or without mismatch between training and test set. However, the performance is degraded with...
CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021
CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021
The pandemic Covid-19 currently demands teachers to be able to use technology in teaching and learning process. But in reality there are still many teachers who have not been able ...

Back to Top