Search engine for discovering works of Art, research articles, and books related to Art and Culture
ShareThis
Javascript must be enabled to continue!

Audiovisual speech representation learning applied to emotion recognition

View through CrossRef
Apprentissage de représentation de la parole audiovisuelle pour la reconnaissance des émotions Les émotions sont vitales dans notre quotidien, devenant un centre d'intérêt majeur de la recherche en cours. La reconnaissance automatique des émotions a suscité beaucoup d'attention en raison de ses applications étendues dans des secteurs tels que la santé, l'éducation, le divertissement et le marketing. Ce progrès dans la reconnaissance émotionnelle est essentiel pour favoriser le développement de l'intelligence artificielle centrée sur l'humain. Les systèmes de reconnaissance des émotions supervisés se sont considérablement améliorés par rapport aux approches traditionnelles d’apprentissage automatique. Cependant, cette progression rencontre des limites en raison de la complexité et de la nature ambiguë des émotions. La création de vastes ensembles de données étiquetées émotionnellement est coûteuse, chronophage et souvent impraticable. De plus, la nature subjective des émotions entraîne des ensembles de données biaisés, impactant l'applicabilité des modèles d'apprentissage dans des scénarios réels.Motivé par la manière dont les humains apprennent et conceptualisent des représentations complexes dès un jeune âge avec un minimum de supervision, cette approche démontre l'efficacité de tirer parti de l'expérience antérieure pour s'adapter à de nouvelles situations. Les modèles d'apprentissage non supervisé ou auto-supervisé s'inspirent de ce paradigme. Initialement, ils visent à établir une représentation générale à partir de données non étiquetées, semblable à l'expérience préalable fondamentale dans l'apprentissage humain. Ces représentations doivent répondre à des critères tels que l'invariance, l'interprétabilité et l'efficacité. Ensuite, ces représentations apprises sont appliquées à des tâches ultérieures avec des données étiquetées limitées, telles que la reconnaissance des émotions. Cela reflète l'assimilation de nouvelles situations dans l'apprentissage humain. Dans cette thèse, nous visons à proposer des méthodes d'apprentissage de représentations non supervisées et auto-supervisées conçues spécifiquement pour des données multimodales et séquentielles, et à explorer leurs avantages potentiels dans le contexte des tâches de reconnaissance des émotions. Les principales contributions de cette thèse comprennent :1. Le développement de modèles génératifs via l'apprentissage non supervisé ou auto-supervisé pour l'apprentissage de la représentation audiovisuelle de la parole, en intégrant une modélisation temporelle et multimodale (audiovisuelle) conjointe.2. La structuration de l'espace latent pour permettre des représentations désentrelacées, améliorant l'interprétabilité en contrôlant les facteurs latents interprétables par l'humain.3. La validation de l'efficacité de nos approches à travers des analyses qualitatives et quantitatives, en particulier sur la tâche de reconnaissance des émotions. Nos méthodes facilitent l'analyse, la transformation et la génération de signaux.
Agence Bibliographique de l'Enseignement Supérieur
Title: Audiovisual speech representation learning applied to emotion recognition
Description:
Apprentissage de représentation de la parole audiovisuelle pour la reconnaissance des émotions Les émotions sont vitales dans notre quotidien, devenant un centre d'intérêt majeur de la recherche en cours.
La reconnaissance automatique des émotions a suscité beaucoup d'attention en raison de ses applications étendues dans des secteurs tels que la santé, l'éducation, le divertissement et le marketing.
Ce progrès dans la reconnaissance émotionnelle est essentiel pour favoriser le développement de l'intelligence artificielle centrée sur l'humain.
Les systèmes de reconnaissance des émotions supervisés se sont considérablement améliorés par rapport aux approches traditionnelles d’apprentissage automatique.
Cependant, cette progression rencontre des limites en raison de la complexité et de la nature ambiguë des émotions.
La création de vastes ensembles de données étiquetées émotionnellement est coûteuse, chronophage et souvent impraticable.
De plus, la nature subjective des émotions entraîne des ensembles de données biaisés, impactant l'applicabilité des modèles d'apprentissage dans des scénarios réels.
Motivé par la manière dont les humains apprennent et conceptualisent des représentations complexes dès un jeune âge avec un minimum de supervision, cette approche démontre l'efficacité de tirer parti de l'expérience antérieure pour s'adapter à de nouvelles situations.
Les modèles d'apprentissage non supervisé ou auto-supervisé s'inspirent de ce paradigme.
Initialement, ils visent à établir une représentation générale à partir de données non étiquetées, semblable à l'expérience préalable fondamentale dans l'apprentissage humain.
Ces représentations doivent répondre à des critères tels que l'invariance, l'interprétabilité et l'efficacité.
Ensuite, ces représentations apprises sont appliquées à des tâches ultérieures avec des données étiquetées limitées, telles que la reconnaissance des émotions.
Cela reflète l'assimilation de nouvelles situations dans l'apprentissage humain.
Dans cette thèse, nous visons à proposer des méthodes d'apprentissage de représentations non supervisées et auto-supervisées conçues spécifiquement pour des données multimodales et séquentielles, et à explorer leurs avantages potentiels dans le contexte des tâches de reconnaissance des émotions.
Les principales contributions de cette thèse comprennent :1.
Le développement de modèles génératifs via l'apprentissage non supervisé ou auto-supervisé pour l'apprentissage de la représentation audiovisuelle de la parole, en intégrant une modélisation temporelle et multimodale (audiovisuelle) conjointe.
2.
La structuration de l'espace latent pour permettre des représentations désentrelacées, améliorant l'interprétabilité en contrôlant les facteurs latents interprétables par l'humain.
3.
La validation de l'efficacité de nos approches à travers des analyses qualitatives et quantitatives, en particulier sur la tâche de reconnaissance des émotions.
Nos méthodes facilitent l'analyse, la transformation et la génération de signaux.

Related Results

Multimodal Emotion Recognition and Human Computer Interaction for AI-Driven Mental Health Support (Preprint)
Multimodal Emotion Recognition and Human Computer Interaction for AI-Driven Mental Health Support (Preprint)
BACKGROUND Mental health has become one of the most urgent global health issues of the twenty-first century. The World Health Organization (WHO) reports tha...
Audiovisual Speech Perception in Aging Cochlear Implant Users and Age-Matched Non-Implanted Adults
Audiovisual Speech Perception in Aging Cochlear Implant Users and Age-Matched Non-Implanted Adults
Objectives. Older typical-hearing adults without a cochlear-implant (CI) have been found to exhibit greater multisensory benefits when identifying audiovisual speech than younger n...
Audiovisual Speech Perception in Aging Cochlear Implant Users and Age-Matched Non-Implanted Adults
Audiovisual Speech Perception in Aging Cochlear Implant Users and Age-Matched Non-Implanted Adults
Objectives. Older typical-hearing adults without a cochlear-implant (CI) have been found to exhibit greater multisensory benefits when identifying audiovisual speech than younger n...
Audiovisual translation and media accessibility training in the EMT network
Audiovisual translation and media accessibility training in the EMT network
The increase in demand for the localisation of audiovisual media content has led to increased incorporation of audiovisual translation and accessibility modules into university cur...
CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021
CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021
The pandemic Covid-19 currently demands teachers to be able to use technology in teaching and learning process. But in reality there are still many teachers who have not been able ...
Studies on visual emotion understanding
Studies on visual emotion understanding
As information explodes nowadays, visual data has become a crucial information carrier in various fields: social networks, e-commerce, online entertainment, etc. Visual emotion ana...
AI-Based Emotion Recognition in Education: Progress, Applications, and Open Challenges
AI-Based Emotion Recognition in Education: Progress, Applications, and Open Challenges
AI-based emotion recognition has emerged as a critical component of affect-aware educational technologies, particularly in online, large-scale, and technology-mediated learning env...

Back to Top