Javascript must be enabled to continue!

Audiovisual speech representation learning applied to emotion recognition

Apprentissage de représentation de la parole audiovisuelle pour la reconnaissance des émotions Les émotions sont vitales dans notre quotidien, devenant un centre d'intérêt majeur de la recherche en cours. La reconnaissance automatique des émotions a suscité beaucoup d'attention en raison de ses applications étendues dans des secteurs tels que la santé, l'éducation, le divertissement et le marketing. Ce progrès dans la reconnaissance émotionnelle est essentiel pour favoriser le développement de l'intelligence artificielle centrée sur l'humain. Les systèmes de reconnaissance des émotions supervisés se sont considérablement améliorés par rapport aux approches traditionnelles d’apprentissage automatique. Cependant, cette progression rencontre des limites en raison de la complexité et de la nature ambiguë des émotions. La création de vastes ensembles de données étiquetées émotionnellement est coûteuse, chronophage et souvent impraticable. De plus, la nature subjective des émotions entraîne des ensembles de données biaisés, impactant l'applicabilité des modèles d'apprentissage dans des scénarios réels.Motivé par la manière dont les humains apprennent et conceptualisent des représentations complexes dès un jeune âge avec un minimum de supervision, cette approche démontre l'efficacité de tirer parti de l'expérience antérieure pour s'adapter à de nouvelles situations. Les modèles d'apprentissage non supervisé ou auto-supervisé s'inspirent de ce paradigme. Initialement, ils visent à établir une représentation générale à partir de données non étiquetées, semblable à l'expérience préalable fondamentale dans l'apprentissage humain. Ces représentations doivent répondre à des critères tels que l'invariance, l'interprétabilité et l'efficacité. Ensuite, ces représentations apprises sont appliquées à des tâches ultérieures avec des données étiquetées limitées, telles que la reconnaissance des émotions. Cela reflète l'assimilation de nouvelles situations dans l'apprentissage humain. Dans cette thèse, nous visons à proposer des méthodes d'apprentissage de représentations non supervisées et auto-supervisées conçues spécifiquement pour des données multimodales et séquentielles, et à explorer leurs avantages potentiels dans le contexte des tâches de reconnaissance des émotions. Les principales contributions de cette thèse comprennent :1. Le développement de modèles génératifs via l'apprentissage non supervisé ou auto-supervisé pour l'apprentissage de la représentation audiovisuelle de la parole, en intégrant une modélisation temporelle et multimodale (audiovisuelle) conjointe.2. La structuration de l'espace latent pour permettre des représentations désentrelacées, améliorant l'interprétabilité en contrôlant les facteurs latents interprétables par l'humain.3. La validation de l'efficacité de nos approches à travers des analyses qualitatives et quantitatives, en particulier sur la tâche de reconnaissance des émotions. Nos méthodes facilitent l'analyse, la transformation et la génération de signaux.

Agence Bibliographique de l'Enseignement Supérieur

Samir Sadok

2026

Title: Audiovisual speech representation learning applied to emotion recognition

Description:

La reconnaissance automatique des émotions a suscité beaucoup d'attention en raison de ses applications étendues dans des secteurs tels que la santé, l'éducation, le divertissement et le marketing.

Ce progrès dans la reconnaissance émotionnelle est essentiel pour favoriser le développement de l'intelligence artificielle centrée sur l'humain.

Les systèmes de reconnaissance des émotions supervisés se sont considérablement améliorés par rapport aux approches traditionnelles d’apprentissage automatique.

Cependant, cette progression rencontre des limites en raison de la complexité et de la nature ambiguë des émotions.

La création de vastes ensembles de données étiquetées émotionnellement est coûteuse, chronophage et souvent impraticable.

De plus, la nature subjective des émotions entraîne des ensembles de données biaisés, impactant l'applicabilité des modèles d'apprentissage dans des scénarios réels.

Motivé par la manière dont les humains apprennent et conceptualisent des représentations complexes dès un jeune âge avec un minimum de supervision, cette approche démontre l'efficacité de tirer parti de l'expérience antérieure pour s'adapter à de nouvelles situations.

Les modèles d'apprentissage non supervisé ou auto-supervisé s'inspirent de ce paradigme.

Initialement, ils visent à établir une représentation générale à partir de données non étiquetées, semblable à l'expérience préalable fondamentale dans l'apprentissage humain.

Ces représentations doivent répondre à des critères tels que l'invariance, l'interprétabilité et l'efficacité.

Ensuite, ces représentations apprises sont appliquées à des tâches ultérieures avec des données étiquetées limitées, telles que la reconnaissance des émotions.

Cela reflète l'assimilation de nouvelles situations dans l'apprentissage humain.

Dans cette thèse, nous visons à proposer des méthodes d'apprentissage de représentations non supervisées et auto-supervisées conçues spécifiquement pour des données multimodales et séquentielles, et à explorer leurs avantages potentiels dans le contexte des tâches de reconnaissance des émotions.

Les principales contributions de cette thèse comprennent :1.

Le développement de modèles génératifs via l'apprentissage non supervisé ou auto-supervisé pour l'apprentissage de la représentation audiovisuelle de la parole, en intégrant une modélisation temporelle et multimodale (audiovisuelle) conjointe.

La structuration de l'espace latent pour permettre des représentations désentrelacées, améliorant l'interprétabilité en contrôlant les facteurs latents interprétables par l'humain.

La validation de l'efficacité de nos approches à travers des analyses qualitatives et quantitatives, en particulier sur la tâche de reconnaissance des émotions.

Nos méthodes facilitent l'analyse, la transformation et la génération de signaux.

Back

BACKGROUND Mental health has become one of the most urgent global health issues of the twenty-first century. The World Health Organization (WHO) reports tha...

Audiovisual Speech Perception in Aging Cochlear Implant Users and Age-Matched Non-Implanted Adults

Objectives. Older typical-hearing adults without a cochlear-implant (CI) have been found to exhibit greater multisensory benefits when identifying audiovisual speech than younger n...

Audiovisual Speech Perception in Aging Cochlear Implant Users and Age-Matched Non-Implanted Adults

Objectives. Older typical-hearing adults without a cochlear-implant (CI) have been found to exhibit greater multisensory benefits when identifying audiovisual speech than younger n...

Audiovisual translation and media accessibility training in the EMT network

The increase in demand for the localisation of audiovisual media content has led to increased incorporation of audiovisual translation and accessibility modules into university cur...

CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021

The pandemic Covid-19 currently demands teachers to be able to use technology in teaching and learning process. But in reality there are still many teachers who have not been able ...

Artivismo, activismo y sin autoría audiovisual: el caso del colectivo Cine sin Autor (CsA) / Artivism, activism and audiovisual authorship: the case of Cine sin Autor (CsA)

Resumen: El cine sin autor es un proceso de producción audiovisual que problematiza algunas de las ideas canónicas o fijas de la traslación de la autoridad desde un individuo hasta...

Studies on visual emotion understanding

As information explodes nowadays, visual data has become a crucial information carrier in various fields: social networks, e-commerce, online entertainment, etc. Visual emotion ana...

AI-Based Emotion Recognition in Education: Progress, Applications, and Open Challenges

AI-based emotion recognition has emerged as a critical component of affect-aware educational technologies, particularly in online, large-scale, and technology-mediated learning env...

Email:
Password:

Email:

Audiovisual speech representation learning applied to emotion recognition

Related Results