Javascript must be enabled to continue!

Natural language control for 3D human motion synthesis

Contrôle en langage naturel pour la synthèse de mouvements humains en 3D Les mouvements humains 3D jouent un rôle clé dans divers domaines, tels que le cinéma, le secteur médical, la réalité augmentée, la réalité virtuelle et l'industrie du jeu vidéo. Toutefois, ces utilisations reposent souvent sur des données de capture de mouvement coûteuses et chronophages.- L'objectif de cette thèse est d'explorer les modèles génératifs en tant que voie alternative pour obtenir des mouvements humains 3D. Plus spécifiquement, notre objectif est de contrôler le processus génératif par le biais d'une interface en langage naturel. Pour cela, nous développons une série de modèles qui synthétisent des mouvements réalistes et variés en suivant des entrées sémantiques. Dans notre premier chapitre, nous relevons le défi de générer des séquences de mouvements humains conditionnées par des catégories d'actions spécifiques. Nous présentons ACTOR, un autoencodeur variationnel conditionnel (VAE) qui apprend une représentation latente des mouvements humains tenant compte de l'action. Nous montrons des améliorations significatives par rapport aux méthodes existantes grâce à notre nouvelle formulation VAE basée sur un Transformer. Ce modèle code et décode des séquences de pose du corps humain paramétrisées par le modèle SMPL, en utilisant un vecteur de mouvement latent global.Dans le deuxième chapitre, nous allons au-delà des actions catégorielles et nous nous intéressons à la synthèse de divers mouvements humains 3D à partir de descriptions textuelles. Cela permet d'élargir le vocabulaire et d'obtenir un contrôle potentiellement plus fin. Notre travail se distingue des recherches précédentes en ne générant pas de manière déterministe une séquence de mouvement unique, mais en synthétisant des séquences multiples et variées à partir d'un texte donné.Nous proposons TEMOS, qui repose sur notre architecture ACTOR basée sur un VAE, mais qui intègre cette fois un encodeur de texte pré-entraîné pour traiter les entrées en langage naturel à large vocabulaire. Dans le troisième chapitre, nous abordons la tâche adjacente de la recherche de mouvements humains 3D à partir de texte, où l'objectif est, par le biais d'une requête textuelle, de rechercher à l'intérieur d'une collection de mouvements. Nous présentons une approche simple et efficace, appelée TMR, qui s'appuie sur notre modèle précédent TEMOS, en intégrant une fonction de coût contrastive pour améliorer la structure de l'espace latent multimodal. Nos résultats soulignent l'importance de conserver la génération de mouvement avec l'entraînement contrastif pour améliorer les résultats. Nous établissons un nouveau critère d'évaluation et effectuons des analyses sur plusieurs protocoles.Dans le quatrième chapitre, nous présentons un nouveau problème appelé "contrôle par chronologie multi-pistes" pour la synthèse de mouvements humains 3D pilotée par le texte. Au lieu d'une seule description textuelle, les utilisateurs organisent plusieurs textes dans des intervalles temporels qui peuvent se chevaucher. Nous présentons STMC, une méthode de débruitage en temps de test pouvant être intégrée à n'importe quel modèle de diffusion de mouvement humain pré-entraîné. Nos évaluations démontrent que notre méthode génère des mouvements qui correspondent étroitement aux aspects sémantiques et temporels de la chronologie d'entrée. En résumé, les contributions de cette thèse sont les suivantes : (i) nous développons un autoencodeur variationnel génératif, ACTOR, pour la génération de séquences de mouvements humains conditionnée par l'action, (ii) nous présentons TEMOS, un modèle génératif conditionné par le texte qui synthétise des mouvements humains diversifiés, (iii) nous présentons TMR, une nouvelle approche pour la recherche de mouvements humains 3D à partir de texte, (iv) enfin, nous proposons STMC, une méthode pour la génération de mouvements humains contrôlés par une chronologie à plusieurs pistes.

Agence Bibliographique de l'Enseignement Supérieur

Mathis Petrovich

2026

Title: Natural language control for 3D human motion synthesis

Description:

Toutefois, ces utilisations reposent souvent sur des données de capture de mouvement coûteuses et chronophages.

- L'objectif de cette thèse est d'explorer les modèles génératifs en tant que voie alternative pour obtenir des mouvements humains 3D.

Plus spécifiquement, notre objectif est de contrôler le processus génératif par le biais d'une interface en langage naturel.

Pour cela, nous développons une série de modèles qui synthétisent des mouvements réalistes et variés en suivant des entrées sémantiques.

Dans notre premier chapitre, nous relevons le défi de générer des séquences de mouvements humains conditionnées par des catégories d'actions spécifiques.

Nous présentons ACTOR, un autoencodeur variationnel conditionnel (VAE) qui apprend une représentation latente des mouvements humains tenant compte de l'action.

Nous montrons des améliorations significatives par rapport aux méthodes existantes grâce à notre nouvelle formulation VAE basée sur un Transformer.

Ce modèle code et décode des séquences de pose du corps humain paramétrisées par le modèle SMPL, en utilisant un vecteur de mouvement latent global.

Dans le deuxième chapitre, nous allons au-delà des actions catégorielles et nous nous intéressons à la synthèse de divers mouvements humains 3D à partir de descriptions textuelles.

Cela permet d'élargir le vocabulaire et d'obtenir un contrôle potentiellement plus fin.

Notre travail se distingue des recherches précédentes en ne générant pas de manière déterministe une séquence de mouvement unique, mais en synthétisant des séquences multiples et variées à partir d'un texte donné.

Nous proposons TEMOS, qui repose sur notre architecture ACTOR basée sur un VAE, mais qui intègre cette fois un encodeur de texte pré-entraîné pour traiter les entrées en langage naturel à large vocabulaire.

Dans le troisième chapitre, nous abordons la tâche adjacente de la recherche de mouvements humains 3D à partir de texte, où l'objectif est, par le biais d'une requête textuelle, de rechercher à l'intérieur d'une collection de mouvements.

Nous présentons une approche simple et efficace, appelée TMR, qui s'appuie sur notre modèle précédent TEMOS, en intégrant une fonction de coût contrastive pour améliorer la structure de l'espace latent multimodal.

Nos résultats soulignent l'importance de conserver la génération de mouvement avec l'entraînement contrastif pour améliorer les résultats.

Nous établissons un nouveau critère d'évaluation et effectuons des analyses sur plusieurs protocoles.

Dans le quatrième chapitre, nous présentons un nouveau problème appelé "contrôle par chronologie multi-pistes" pour la synthèse de mouvements humains 3D pilotée par le texte.

Au lieu d'une seule description textuelle, les utilisateurs organisent plusieurs textes dans des intervalles temporels qui peuvent se chevaucher.

Nous présentons STMC, une méthode de débruitage en temps de test pouvant être intégrée à n'importe quel modèle de diffusion de mouvement humain pré-entraîné.

Nos évaluations démontrent que notre méthode génère des mouvements qui correspondent étroitement aux aspects sémantiques et temporels de la chronologie d'entrée.

En résumé, les contributions de cette thèse sont les suivantes : (i) nous développons un autoencodeur variationnel génératif, ACTOR, pour la génération de séquences de mouvements humains conditionnée par l'action, (ii) nous présentons TEMOS, un modèle génératif conditionné par le texte qui synthétise des mouvements humains diversifiés, (iii) nous présentons TMR, une nouvelle approche pour la recherche de mouvements humains 3D à partir de texte, (iv) enfin, nous proposons STMC, une méthode pour la génération de mouvements humains contrôlés par une chronologie à plusieurs pistes.

Back

<p><em><span style="font-size: 11.0pt; font-family: 'Times New Roman',serif; mso-fareast-font-family: 'Times New Roman'; mso-ansi-language: EN-US; mso-fareast-langua...

Učinak poučavanja razrednomu jeziku u izobrazbi nastavnika njemačkoga

The actual use of classroom language is principally limited to the classroom environment. As far as foreign language learning is concerned, the classroom often turns out to be the ...

Increased life expectancy of heart failure patients in a rural center by a multidisciplinary program

Abstract Funding Acknowledgements Type of funding sources: None. INTRODUCTION Patients with heart failure (HF)...

Nonlinear optimal control for robotic exoskeletons with electropneumatic actuators

Purpose To provide high torques needed to move a robot’s links, electric actuators are followed by a transmission system with a high transmission rate. For instance, gear ratios of...

A Wideband mm-Wave Printed Dipole Antenna for 5G Applications

<span lang="EN-MY">In this paper, a wideband millimeter-wave (mm-Wave) printed dipole antenna is proposed to be used for fifth generation (5G) communications. The single elem...

Exploring Language Features of Male and Female Speakers in Pakistani TEDx Talks: A Corpus-based Comparative Analysis

The study explores the linguistic patterns in Pakistani TEDx Talks. It is based on gender-based language use. It consists of ten talks selected from YouTube and applies both quanti...

Motion Characteristics of Crane Vessels in Lifting Operation

ABSTRACT This paper deals with motion characteristics of crane vessels in lifting operation. Emphasis is laid here especially on the effect of coupled motion betw...

Categorizing Motion: Story-Based Categorizations

Our most primary goal is to provide a motion categorization for moving entities. A motion categorization that is related to how humans categorize motion, i.e., that is cognitive ...

Email:
Password:

Email:

Natural language control for 3D human motion synthesis

Related Results