Javascript must be enabled to continue!

Acoustic-Visual Speech Synthesis by Bimodal Unit Selection

Synthèse acoustico-visuelle de la parole par sélection d'unités bimodales Ce travail porte sur la synthèse de la parole audio-visuelle. Dans la littérature disponible dans ce domaine, la plupart des approches traite le problème en le divisant en deux problèmes de synthèse. Le premier est la synthèse de la parole acoustique et l'autre étant la génération d'animation faciale correspondante. Mais, cela ne garantit pas une parfaite synchronisation et cohérence de la parole audio-visuelle. Pour pallier implicitement l'inconvénient ci-dessus, nous avons proposé une approche de synthèse de la parole acoustique-visuelle par la sélection naturelle des unités synchrones bimodales. La synthèse est basée sur le modèle de sélection d'unité classique. L'idée principale derrière cette technique de synthèse est de garder l'association naturelle entre la modalité acoustique et visuelle intacte. Nous décrivons la technique d'acquisition de corpus audio-visuelle et la préparation de la base de données pour notre système. Nous présentons une vue d'ensemble de notre système et nous détaillons les différents aspects de la sélection d'unités bimodales qui ont besoin d'être optimisées pour une bonne synthèse. L'objectif principal de ce travail est de synthétiser la dynamique de la parole plutôt qu'une tête parlante complète. Nous décrivons les caractéristiques visuelles cibles que nous avons conçues. Nous avons ensuite présenté un algorithme de pondération de la fonction cible. Cet algorithme que nous avons développé effectue une pondération de la fonction cible et l'élimination de fonctionnalités redondantes de manière itérative. Elle est basée sur la comparaison des classements de coûts cible et en se basant sur une distance calculée à partir des signaux de parole acoustiques et visuels dans le corpus. Enfin, nous présentons l'évaluation perceptive et subjective du système de synthèse final. Les résultats montrent que nous avons atteint l'objectif de synthétiser la dynamique de la parole raisonnablement bien

Agence Bibliographique de l'Enseignement Supérieur

Utpala Musti

2026

Title: Acoustic-Visual Speech Synthesis by Bimodal Unit Selection

Description:

Synthèse acoustico-visuelle de la parole par sélection d'unités bimodales Ce travail porte sur la synthèse de la parole audio-visuelle.

Dans la littérature disponible dans ce domaine, la plupart des approches traite le problème en le divisant en deux problèmes de synthèse.

Le premier est la synthèse de la parole acoustique et l'autre étant la génération d'animation faciale correspondante.

Mais, cela ne garantit pas une parfaite synchronisation et cohérence de la parole audio-visuelle.

Pour pallier implicitement l'inconvénient ci-dessus, nous avons proposé une approche de synthèse de la parole acoustique-visuelle par la sélection naturelle des unités synchrones bimodales.

La synthèse est basée sur le modèle de sélection d'unité classique.

L'idée principale derrière cette technique de synthèse est de garder l'association naturelle entre la modalité acoustique et visuelle intacte.

Nous décrivons la technique d'acquisition de corpus audio-visuelle et la préparation de la base de données pour notre système.

Nous présentons une vue d'ensemble de notre système et nous détaillons les différents aspects de la sélection d'unités bimodales qui ont besoin d'être optimisées pour une bonne synthèse.

L'objectif principal de ce travail est de synthétiser la dynamique de la parole plutôt qu'une tête parlante complète.

Nous décrivons les caractéristiques visuelles cibles que nous avons conçues.

Nous avons ensuite présenté un algorithme de pondération de la fonction cible.

Cet algorithme que nous avons développé effectue une pondération de la fonction cible et l'élimination de fonctionnalités redondantes de manière itérative.

Elle est basée sur la comparaison des classements de coûts cible et en se basant sur une distance calculée à partir des signaux de parole acoustiques et visuels dans le corpus.

Enfin, nous présentons l'évaluation perceptive et subjective du système de synthèse final.

Les résultats montrent que nous avons atteint l'objectif de synthétiser la dynamique de la parole raisonnablement bien.

Back

Intense sound exposure that exceeds the pain threshold of human auditory sensitivity, known as acoustic trauma, causes significant and extensive changes in the auditory system. Thr...

Speech, communication, and neuroimaging in Parkinson's disease : characterisation and intervention outcomes

<p dir="ltr">Most individuals with Parkinson's disease (PD) experience changes in speech, voice or communication. Speech changes often manifest as hypokinetic dysarthria, a m...

Speech, communication, and neuroimaging in Parkinson's disease : characterisation and intervention outcomes

<p dir="ltr">Most individuals with Parkinson's disease (PD) experience changes in speech, voice or communication. Speech changes often manifest as hypokinetic dysarthria, a m...

Speech, communication, and neuroimaging in Parkinson's disease : Characterisation and intervention outcomes

<p dir="ltr">Most individuals with Parkinson's disease (PD) experience changes in speech, voice or communication. Speech changes often manifest as hypokinetic dysarthria, a m...

Language Development in Children with Cochlear Implant using Bimodal Approach: SLP Perspective

Background: The development of language skills in children with cochlear implants is a vital area of research, particularly in understanding the impact of the bimodal approach. Thi...

Selection Gradients

Natural selection and sexual selection are important evolutionary processes that can shape the phenotypic distributions of natural populations and, consequently, a primary goal of ...

Poems

poems selection poems selection poems selection poems selection poems selection poems selection poems selection poems selection poems selection poems selection poems selection poem...

Bimodal SWCC and Bimodal PSD of Soils with Dual-Porosity Structure

The soil–water characteristic curve (SWCC) and pore-size distribution (PSD) are fundamental characteristics of soils that determine many physical and mechanical properties. Recent ...

Email:
Password:

Email:

Acoustic-Visual Speech Synthesis by Bimodal Unit Selection

Related Results