Javascript must be enabled to continue!

Self-supervised learning for speaker recognition

Apprentissage auto-supervisé pour la reconnaissance du locuteur Les avancées dans le domaine de l'intelligence artificielle, portées par le développement de l'apprentissage profond, ont entraîné des progrès considérables en traitement de la parole. Dans le cadre de la Reconnaissance du Locuteur (RdL), l'objectif d'apprentissage est d'associer un échantillon audio à l'identité du locuteur correspondant. Toutefois, la performance de ces systèmes supervisés dépend fortement de la quantité de données annotées disponibles. Cette dépendance intrinsèque à une supervision humaine constitue une limitation majeure, car l'obtention de ces annotations représente un processus coûteux, chronophage, sujet à des biais et souvent restreint en diversité, autant de facteurs qui freinent la capacité et la généralisation de ces modèles. Ce problème est particulièrement notable dans le domaine de la parole, au sein duquel collecter des données annotées couvrant toutes les langues (plus de 7 000 dialectes parlés dans le monde), les profils de locuteurs (âge, genre, etc.) et les conditions d'enregistrement (microphone, bruit ambiant, etc.) s'avère souvent irréalisable. L'Apprentissage Auto-Supervisé (AAS) a récemment émergé comme une approche prometteuse pour apprendre des représentations pertinentes sans recourir à des annotations humaines, en s'inspirant de la manière dont les humains apprennent à partir de motifs et du contexte, plutôt que de signaux explicites. Bien que l'AAS ait démontré son efficacité sur de nombreuses tâches en aval, plusieurs applications demeurent peu étudiées. Cette thèse contribue à ce paradigme en plein essor en l'appliquant à la RdL, dans une perspective visant à améliorer la capacité de généralisation de ces systèmes et à réduire leur dépendance aux données annotées. La première contribution explore l'application de l'AAS à la RdL, en présentant une comparaison approfondie des principaux cadres méthodologiques et des méthodes proposés dans la littérature. Une étude et une évaluation rigoureuses, conduites dans un cadre expérimental cohérent, fournissent ensuite des analyses précieuses sur les composants influençant la performance de ces approches. La deuxième contribution intègre des techniques de marge, initialement développées pour la reconnaissance du visage en conditions supervisées, aux fonctions de perte des cadres auto-supervisés contrastifs. Ces méthodes renforcent le potentiel discriminant des représentations du locuteur en augmentant explicitement les distances inter-locuteurs dans l'espace de représentations. La troisième contribution aborde la principale limitation des systèmes auto-supervisés, à savoir l'échantillonnage positif provenant d'un même échantillon, ce qui conduit à l'encodage d'informations liées au canal d'enregistrement. Une nouvelle stratégie d'échantillonnage dans l'espace latent est proposée, sélectionnant des positifs provenant du même locuteur mais issus de conditions d'enregistrement différentes. Cette technique permet de réduire la variance intra-locuteur et favorise l'apprentissage de représentations plus robustes et plus invariantes. La dernière contribution propose une méthode pour exploiter les modèles auto-supervisés de fondation, entraînés à grande échelle sur de vastes corpus non annotés. L'approche consiste à générer de manière itérative des pseudo-étiquettes pour affiner le modèle sur la tâche de RdL et permet d'atteindre des performances à l'état de l'art, tout en réduisant l'écart avec les systèmes supervisés.

Agence Bibliographique de l'Enseignement Supérieur

Théo Lepage

2026

Title: Self-supervised learning for speaker recognition

Description:

Dans le cadre de la Reconnaissance du Locuteur (RdL), l'objectif d'apprentissage est d'associer un échantillon audio à l'identité du locuteur correspondant.

Toutefois, la performance de ces systèmes supervisés dépend fortement de la quantité de données annotées disponibles.

Cette dépendance intrinsèque à une supervision humaine constitue une limitation majeure, car l'obtention de ces annotations représente un processus coûteux, chronophage, sujet à des biais et souvent restreint en diversité, autant de facteurs qui freinent la capacité et la généralisation de ces modèles.

Ce problème est particulièrement notable dans le domaine de la parole, au sein duquel collecter des données annotées couvrant toutes les langues (plus de 7 000 dialectes parlés dans le monde), les profils de locuteurs (âge, genre, etc.

) et les conditions d'enregistrement (microphone, bruit ambiant, etc.

) s'avère souvent irréalisable.

L'Apprentissage Auto-Supervisé (AAS) a récemment émergé comme une approche prometteuse pour apprendre des représentations pertinentes sans recourir à des annotations humaines, en s'inspirant de la manière dont les humains apprennent à partir de motifs et du contexte, plutôt que de signaux explicites.

Bien que l'AAS ait démontré son efficacité sur de nombreuses tâches en aval, plusieurs applications demeurent peu étudiées.

Cette thèse contribue à ce paradigme en plein essor en l'appliquant à la RdL, dans une perspective visant à améliorer la capacité de généralisation de ces systèmes et à réduire leur dépendance aux données annotées.

La première contribution explore l'application de l'AAS à la RdL, en présentant une comparaison approfondie des principaux cadres méthodologiques et des méthodes proposés dans la littérature.

Une étude et une évaluation rigoureuses, conduites dans un cadre expérimental cohérent, fournissent ensuite des analyses précieuses sur les composants influençant la performance de ces approches.

La deuxième contribution intègre des techniques de marge, initialement développées pour la reconnaissance du visage en conditions supervisées, aux fonctions de perte des cadres auto-supervisés contrastifs.

Ces méthodes renforcent le potentiel discriminant des représentations du locuteur en augmentant explicitement les distances inter-locuteurs dans l'espace de représentations.

La troisième contribution aborde la principale limitation des systèmes auto-supervisés, à savoir l'échantillonnage positif provenant d'un même échantillon, ce qui conduit à l'encodage d'informations liées au canal d'enregistrement.

Une nouvelle stratégie d'échantillonnage dans l'espace latent est proposée, sélectionnant des positifs provenant du même locuteur mais issus de conditions d'enregistrement différentes.

Cette technique permet de réduire la variance intra-locuteur et favorise l'apprentissage de représentations plus robustes et plus invariantes.

La dernière contribution propose une méthode pour exploiter les modèles auto-supervisés de fondation, entraînés à grande échelle sur de vastes corpus non annotés.

L'approche consiste à générer de manière itérative des pseudo-étiquettes pour affiner le modèle sur la tâche de RdL et permet d'atteindre des performances à l'état de l'art, tout en réduisant l'écart avec les systèmes supervisés.

Back

In January 2007, Andrew Speaker (Speaker) underwent a chest X-ray and CT scan, which revealed an abnormality in his lungs. However, tests results indicated that he did not ha...

Fusion of Cochleogram and Mel Spectrogram Features for Deep Learning Based Speaker Recognition

Abstract Speaker recognition has crucial application in forensic science, financial areas, access control, surveillance and law enforcement. The performance of speaker reco...

Analyzing Noise Robustness of Cochleogram and Mel Spectrogram Features in Deep Learning Based Speaker Recogntion

Abstract The performance of speaker recognition is very well in a clean dataset or without mismatch between training and test set. However, the performance is degraded with...

THE ‘PARENT’ IN THE PARENTING STYLE: A CORRELATIONAL STUDY EXPLORING THE IMPACT OF PARENTING ON SELF-CONCEPT OF THE ADOLESCENT (Preprint)

BACKGROUND The present research attempts to explore the dynamics of parent child relationship. The investigation aims at understanding the impact of parenti...

The Histological Diagnosis of Breast Cancer by Employing scale invariant ResNet 18 With Spatial Supervised Technique

Abstract Background Breast cancer is one of the most prevalent cause of morbidity and mortality in women all over the world. Hi...

Multimodal Emotion Recognition and Human Computer Interaction for AI-Driven Mental Health Support (Preprint)

BACKGROUND Mental health has become one of the most urgent global health issues of the twenty-first century. The World Health Organization (WHO) reports tha...

Metaheuristic adapted convolutional neural network for Telugu speaker diarization

In speech technology, a pivotal role is being played by the Speaker diarization mechanism. In general, speaker diarization is the mechanism of partitioning the input audio stream i...

Self-Supervised Contrastive Representation Learning in Computer Vision

Although its origins date a few decades back, contrastive learning has recently gained popularity due to its achievements in self-supervised learning, especially in computer vision...

Email:
Password:

Email:

Self-supervised learning for speaker recognition

Related Results