Javascript must be enabled to continue!

Implicit and explicit phase modeling in deep learning-based source separation

Modélisation implicite et explicite de la phase dans la séparation de sources par apprentissage profond Qu'elle soit traitée par des humains ou des machines, la parole occupe une place centrale dans notre vie quotidienne. Cependant, les distorsions dues au le bruit ou à la parole superposée réduisent à la fois la compréhension humaine et les performances des machines. La séparation de sources audio et le rehaussement de la parole visent à résoudre ce problème. La plupart des approches traditionnelles s'appuient sur l’amplitude de la transformée de Fourier à court terme (STFT), ce qui élimine la phase. Grâce à leur pouvoir de représentation accru, les réseaux de neurones profonds ont récemment permis de relâcher cette hypothèse et d'exploiter l'information spectro-temporelle fine fournie par la phase. Dans cette thèse, nous étudions l'impact de la modélisation implicite et explicite de la phase dans les modèles profonds discriminatifs et génératifs avec des applications à la séparation de sources et au rehaussement de la parole. Dans un premier temps, nous considérons la tâche de séparation discriminative de sources basée sur le cadre encodeur-masqueur-décodeur popularisé par TasNet. Nous proposons une vue unifiée des bancs de filtres appris et fixes et nous étendons deux bancs de filtres apprenables précédemment proposés en les rendant analytiques, permettant ainsi le calcul de la magnitude et de la phase de la représentation. Nous étudions la quantité d'information fournie par les composantes de magnitude et de phase en fonction de la taille de la fenêtre. Les résultats obtenus sur le jeu de données WHAM montrent que, pour tous les bancs de filtres, les meilleures performances sont obtenues pour des fenêtres courtes de 2 ms et que, pour des fenêtres aussi courtes, la modélisation de la phase est effectivement cruciale. Il est intéressant de noter que cela vaut également pour les modèles basés sur la STFT, qui surpassent même les performances du masquage d’amplitude oracle. Ces travaux ont constitué la base d'Asteroid, la boîte à outils de séparation de sources audio pour les chercheurs basée sur PyTorch, dont nous présentons ensuite les principales caractéristiques ainsi que des exemples de résultats obtenus. Ensuite, nous nous attaquons au rehaussement de la parole avec une approche basée sur un modèle génératif profond populaire, l’auto-encodeur variationnel (VAE), qui modélise les coefficients de STFT complexes dans une trame temporelle donnée comme des variables gaussiennes complexes indépendantes de moyenne nulle dont les variances dépendent d'une représentation latente. En combinant un modèle VAE pour les variances de la parole et un modèle de factorisation matricielle positive (NMF) pour les variances du bruit, nous proposons un algorithme d'inférence variationnelle pour inférer itérativement ces variances et en déduire le signal de parole propre estimé. En particulier, l'encodeur du VAE pré-appris peut être utilisé pour estimer l'approximation variationnelle du vrai postérieur, en utilisant la même hypothèse que celle utilisée pour apprendre les VAE. Les expériences montrent que la méthode proposée donne des résultats comparables à ceux des autres méthodes basées sur les VAE, tout en réduisant le coût de calcul d'un facteur 36.Suite à cette étude, nous dotons ce modèle VAE de la capacité de modéliser les dépendances temps-fréquence et la phase en relâchant l'hypothèse d'indépendance temps-fréquence et en considérant un modèle gaussien multivarié de moyenne nulle sur l'ensemble de la STFT complexe conditionnellement à la représentation latente. La matrice de covariance de ce modèle est paramétrée par son facteur de Cholesky parcimonieux qui constitue la sortie du VAE. La contrainte de parcimonie est choisie de manière à ce que les dépendances locales en temps et en fréquence puissent être exprimées. Nous évaluons la méthode proposée pour la tâche de séparation de sources sur le jeu de données WSJ0, en fonction du modèle de dépendance choisi.

Agence Bibliographique de l'Enseignement Supérieur

Manuel Pariente

2026

Title: Implicit and explicit phase modeling in deep learning-based source separation

Description:

Cependant, les distorsions dues au le bruit ou à la parole superposée réduisent à la fois la compréhension humaine et les performances des machines.

La séparation de sources audio et le rehaussement de la parole visent à résoudre ce problème.

La plupart des approches traditionnelles s'appuient sur l’amplitude de la transformée de Fourier à court terme (STFT), ce qui élimine la phase.

Grâce à leur pouvoir de représentation accru, les réseaux de neurones profonds ont récemment permis de relâcher cette hypothèse et d'exploiter l'information spectro-temporelle fine fournie par la phase.

Dans cette thèse, nous étudions l'impact de la modélisation implicite et explicite de la phase dans les modèles profonds discriminatifs et génératifs avec des applications à la séparation de sources et au rehaussement de la parole.

Dans un premier temps, nous considérons la tâche de séparation discriminative de sources basée sur le cadre encodeur-masqueur-décodeur popularisé par TasNet.

Nous proposons une vue unifiée des bancs de filtres appris et fixes et nous étendons deux bancs de filtres apprenables précédemment proposés en les rendant analytiques, permettant ainsi le calcul de la magnitude et de la phase de la représentation.

Nous étudions la quantité d'information fournie par les composantes de magnitude et de phase en fonction de la taille de la fenêtre.

Les résultats obtenus sur le jeu de données WHAM montrent que, pour tous les bancs de filtres, les meilleures performances sont obtenues pour des fenêtres courtes de 2 ms et que, pour des fenêtres aussi courtes, la modélisation de la phase est effectivement cruciale.

Il est intéressant de noter que cela vaut également pour les modèles basés sur la STFT, qui surpassent même les performances du masquage d’amplitude oracle.

Ces travaux ont constitué la base d'Asteroid, la boîte à outils de séparation de sources audio pour les chercheurs basée sur PyTorch, dont nous présentons ensuite les principales caractéristiques ainsi que des exemples de résultats obtenus.

Ensuite, nous nous attaquons au rehaussement de la parole avec une approche basée sur un modèle génératif profond populaire, l’auto-encodeur variationnel (VAE), qui modélise les coefficients de STFT complexes dans une trame temporelle donnée comme des variables gaussiennes complexes indépendantes de moyenne nulle dont les variances dépendent d'une représentation latente.

En combinant un modèle VAE pour les variances de la parole et un modèle de factorisation matricielle positive (NMF) pour les variances du bruit, nous proposons un algorithme d'inférence variationnelle pour inférer itérativement ces variances et en déduire le signal de parole propre estimé.

En particulier, l'encodeur du VAE pré-appris peut être utilisé pour estimer l'approximation variationnelle du vrai postérieur, en utilisant la même hypothèse que celle utilisée pour apprendre les VAE.

Les expériences montrent que la méthode proposée donne des résultats comparables à ceux des autres méthodes basées sur les VAE, tout en réduisant le coût de calcul d'un facteur 36.

Suite à cette étude, nous dotons ce modèle VAE de la capacité de modéliser les dépendances temps-fréquence et la phase en relâchant l'hypothèse d'indépendance temps-fréquence et en considérant un modèle gaussien multivarié de moyenne nulle sur l'ensemble de la STFT complexe conditionnellement à la représentation latente.

La matrice de covariance de ce modèle est paramétrée par son facteur de Cholesky parcimonieux qui constitue la sortie du VAE.

La contrainte de parcimonie est choisie de manière à ce que les dépendances locales en temps et en fréquence puissent être exprimées.

Nous évaluons la méthode proposée pour la tâche de séparation de sources sur le jeu de données WSJ0, en fonction du modèle de dépendance choisi.

Back

Abstract Visuomotor rotations are learned through a combination of explicit strategy and implicit recalibration. However, measuring the relative contribution of eac...

Motor Learning Method Matters in Physical Education

The intended learning outcomes of Physical Education (PE) in the Netherlands demand PE teachers to enhance their students’ motor skills and motivational beliefs. Current developmen...

The Older, the More Forgiving? Characteristics of Forgiveness of Chinese Older Adults

This study explores the characteristics of forgiveness in the aging cohorts, which is regarded to be associated with healthy outcomes. Data were drawn from a sample of 308 older ad...

CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021

The pandemic Covid-19 currently demands teachers to be able to use technology in teaching and learning process. But in reality there are still many teachers who have not been able ...

TYPES OF EXPLICIT AND IMPLICIT GRAMMAR INSTRUCTION

This paper briefly presents a theoretical research conducted by revising an extensive relevant literature on this problematics, by separating, in our opinion, the most important de...

Where you aim – not how you aim – affects implicit recalibration in visuomotor adaptation

Abstract The influence of explicit strategies on implicit recalibration during visuomotor adaptation has become a central question in motor learning. Because the tw...

Implicit Versus Explicit Timing – Separate or Shared Mechanisms?

A bstract Time implicitly shapes cognition, but time is also explicitly represented, for instance in the form of durations. Parsi...

Study on Influence of Implicit and Explicit Learning in Second Language Acquisition on Reading

Implicit/explicit learning has been one of the hot topics in the fields of education, cognitive psychology, and second language acquisition. Over the past two decades, implicit lea...

Email:
Password:

Email:

Implicit and explicit phase modeling in deep learning-based source separation

Related Results