Javascript must be enabled to continue!
Self-supervised learning for speaker recognition
View through CrossRef
Apprentissage auto-supervisé pour la reconnaissance du locuteur
Les avancées dans le domaine de l'intelligence artificielle, portées par le développement de l'apprentissage profond, ont entraîné des progrès considérables en traitement de la parole. Dans le cadre de la Reconnaissance du Locuteur (RdL), l'objectif d'apprentissage est d'associer un échantillon audio à l'identité du locuteur correspondant. Toutefois, la performance de ces systèmes supervisés dépend fortement de la quantité de données annotées disponibles. Cette dépendance intrinsèque à une supervision humaine constitue une limitation majeure, car l'obtention de ces annotations représente un processus coûteux, chronophage, sujet à des biais et souvent restreint en diversité, autant de facteurs qui freinent la capacité et la généralisation de ces modèles. Ce problème est particulièrement notable dans le domaine de la parole, au sein duquel collecter des données annotées couvrant toutes les langues (plus de 7 000 dialectes parlés dans le monde), les profils de locuteurs (âge, genre, etc.) et les conditions d'enregistrement (microphone, bruit ambiant, etc.) s'avère souvent irréalisable. L'Apprentissage Auto-Supervisé (AAS) a récemment émergé comme une approche prometteuse pour apprendre des représentations pertinentes sans recourir à des annotations humaines, en s'inspirant de la manière dont les humains apprennent à partir de motifs et du contexte, plutôt que de signaux explicites. Bien que l'AAS ait démontré son efficacité sur de nombreuses tâches en aval, plusieurs applications demeurent peu étudiées. Cette thèse contribue à ce paradigme en plein essor en l'appliquant à la RdL, dans une perspective visant à améliorer la capacité de généralisation de ces systèmes et à réduire leur dépendance aux données annotées. La première contribution explore l'application de l'AAS à la RdL, en présentant une comparaison approfondie des principaux cadres méthodologiques et des méthodes proposés dans la littérature. Une étude et une évaluation rigoureuses, conduites dans un cadre expérimental cohérent, fournissent ensuite des analyses précieuses sur les composants influençant la performance de ces approches. La deuxième contribution intègre des techniques de marge, initialement développées pour la reconnaissance du visage en conditions supervisées, aux fonctions de perte des cadres auto-supervisés contrastifs. Ces méthodes renforcent le potentiel discriminant des représentations du locuteur en augmentant explicitement les distances inter-locuteurs dans l'espace de représentations. La troisième contribution aborde la principale limitation des systèmes auto-supervisés, à savoir l'échantillonnage positif provenant d'un même échantillon, ce qui conduit à l'encodage d'informations liées au canal d'enregistrement. Une nouvelle stratégie d'échantillonnage dans l'espace latent est proposée, sélectionnant des positifs provenant du même locuteur mais issus de conditions d'enregistrement différentes. Cette technique permet de réduire la variance intra-locuteur et favorise l'apprentissage de représentations plus robustes et plus invariantes. La dernière contribution propose une méthode pour exploiter les modèles auto-supervisés de fondation, entraînés à grande échelle sur de vastes corpus non annotés. L'approche consiste à générer de manière itérative des pseudo-étiquettes pour affiner le modèle sur la tâche de RdL et permet d'atteindre des performances à l'état de l'art, tout en réduisant l'écart avec les systèmes supervisés.
Title: Self-supervised learning for speaker recognition
Description:
Apprentissage auto-supervisé pour la reconnaissance du locuteur
Les avancées dans le domaine de l'intelligence artificielle, portées par le développement de l'apprentissage profond, ont entraîné des progrès considérables en traitement de la parole.
Dans le cadre de la Reconnaissance du Locuteur (RdL), l'objectif d'apprentissage est d'associer un échantillon audio à l'identité du locuteur correspondant.
Toutefois, la performance de ces systèmes supervisés dépend fortement de la quantité de données annotées disponibles.
Cette dépendance intrinsèque à une supervision humaine constitue une limitation majeure, car l'obtention de ces annotations représente un processus coûteux, chronophage, sujet à des biais et souvent restreint en diversité, autant de facteurs qui freinent la capacité et la généralisation de ces modèles.
Ce problème est particulièrement notable dans le domaine de la parole, au sein duquel collecter des données annotées couvrant toutes les langues (plus de 7 000 dialectes parlés dans le monde), les profils de locuteurs (âge, genre, etc.
) et les conditions d'enregistrement (microphone, bruit ambiant, etc.
) s'avère souvent irréalisable.
L'Apprentissage Auto-Supervisé (AAS) a récemment émergé comme une approche prometteuse pour apprendre des représentations pertinentes sans recourir à des annotations humaines, en s'inspirant de la manière dont les humains apprennent à partir de motifs et du contexte, plutôt que de signaux explicites.
Bien que l'AAS ait démontré son efficacité sur de nombreuses tâches en aval, plusieurs applications demeurent peu étudiées.
Cette thèse contribue à ce paradigme en plein essor en l'appliquant à la RdL, dans une perspective visant à améliorer la capacité de généralisation de ces systèmes et à réduire leur dépendance aux données annotées.
La première contribution explore l'application de l'AAS à la RdL, en présentant une comparaison approfondie des principaux cadres méthodologiques et des méthodes proposés dans la littérature.
Une étude et une évaluation rigoureuses, conduites dans un cadre expérimental cohérent, fournissent ensuite des analyses précieuses sur les composants influençant la performance de ces approches.
La deuxième contribution intègre des techniques de marge, initialement développées pour la reconnaissance du visage en conditions supervisées, aux fonctions de perte des cadres auto-supervisés contrastifs.
Ces méthodes renforcent le potentiel discriminant des représentations du locuteur en augmentant explicitement les distances inter-locuteurs dans l'espace de représentations.
La troisième contribution aborde la principale limitation des systèmes auto-supervisés, à savoir l'échantillonnage positif provenant d'un même échantillon, ce qui conduit à l'encodage d'informations liées au canal d'enregistrement.
Une nouvelle stratégie d'échantillonnage dans l'espace latent est proposée, sélectionnant des positifs provenant du même locuteur mais issus de conditions d'enregistrement différentes.
Cette technique permet de réduire la variance intra-locuteur et favorise l'apprentissage de représentations plus robustes et plus invariantes.
La dernière contribution propose une méthode pour exploiter les modèles auto-supervisés de fondation, entraînés à grande échelle sur de vastes corpus non annotés.
L'approche consiste à générer de manière itérative des pseudo-étiquettes pour affiner le modèle sur la tâche de RdL et permet d'atteindre des performances à l'état de l'art, tout en réduisant l'écart avec les systèmes supervisés.
Related Results
Speaker Verification and Identification
Speaker Verification and Identification
A speaker recognition system verifies or identifies a speaker’s identity based on his/her voice. It is considered as one of the most convenient biometric characteristic for human m...
Quarantine Powers, Biodefense, and Andrew Speaker
Quarantine Powers, Biodefense, and Andrew Speaker
In January 2007, Andrew Speaker (Speaker) underwent a chest X-ray and CT scan, which revealed an abnormality in his lungs. However, tests results indicated that he did not ha...
Fusion of Cochleogram and Mel Spectrogram Features for Deep Learning Based Speaker Recognition
Fusion of Cochleogram and Mel Spectrogram Features for Deep Learning Based Speaker Recognition
Abstract
Speaker recognition has crucial application in forensic science, financial areas, access control, surveillance and law enforcement. The performance of speaker reco...
Is a Fitbit a Diary? Self-Tracking and Autobiography
Is a Fitbit a Diary? Self-Tracking and Autobiography
Data becomes something of a mirror in which people see themselves reflected. (Sorapure 270)In a 2014 essay for The New Yorker, the humourist David Sedaris recounts an obsession spu...
Analyzing Noise Robustness of Cochleogram and Mel Spectrogram Features in Deep Learning Based Speaker Recogntion
Analyzing Noise Robustness of Cochleogram and Mel Spectrogram Features in Deep Learning Based Speaker Recogntion
Abstract
The performance of speaker recognition is very well in a clean dataset or without mismatch between training and test set. However, the performance is degraded with...
Tiedon rajat ja vuorovaikutus. Toteamukseen tai vaihtoehtokysymykseen vastaavat VOI OLLA -rakenteet [On the limits of knowledge. Responding to an assertion or a polar question with VOI OLLA ‘(it) may be’ structures]
Tiedon rajat ja vuorovaikutus. Toteamukseen tai vaihtoehtokysymykseen vastaavat VOI OLLA -rakenteet [On the limits of knowledge. Responding to an assertion or a polar question with VOI OLLA ‘(it) may be’ structures]
Artikkeli tarkastelee toteamukseen tai vaihtoehtokysymykseen vastaavia VOI OLLA -rakenteita voi olla, se voi olla, voi se olla ja voihan se olla. Toteamuksella tarkoitetaan kannano...
CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021
CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021
The pandemic Covid-19 currently demands teachers to be able to use technology in teaching and learning process. But in reality there are still many teachers who have not been able ...
THE ‘PARENT’ IN THE PARENTING STYLE:
A CORRELATIONAL STUDY EXPLORING THE IMPACT OF PARENTING ON SELF-CONCEPT OF THE ADOLESCENT (Preprint)
THE ‘PARENT’ IN THE PARENTING STYLE:
A CORRELATIONAL STUDY EXPLORING THE IMPACT OF PARENTING ON SELF-CONCEPT OF THE ADOLESCENT (Preprint)
BACKGROUND
The present research attempts to explore the dynamics of parent child relationship. The investigation aims at understanding the impact of parenti...

