Search engine for discovering works of Art, research articles, and books related to Art and Culture
ShareThis
Javascript must be enabled to continue!

Natural language control for 3D human motion synthesis

View through CrossRef
Contrôle en langage naturel pour la synthèse de mouvements humains en 3D Les mouvements humains 3D jouent un rôle clé dans divers domaines, tels que le cinéma, le secteur médical, la réalité augmentée, la réalité virtuelle et l'industrie du jeu vidéo. Toutefois, ces utilisations reposent souvent sur des données de capture de mouvement coûteuses et chronophages.- L'objectif de cette thèse est d'explorer les modèles génératifs en tant que voie alternative pour obtenir des mouvements humains 3D. Plus spécifiquement, notre objectif est de contrôler le processus génératif par le biais d'une interface en langage naturel. Pour cela, nous développons une série de modèles qui synthétisent des mouvements réalistes et variés en suivant des entrées sémantiques. Dans notre premier chapitre, nous relevons le défi de générer des séquences de mouvements humains conditionnées par des catégories d'actions spécifiques. Nous présentons ACTOR, un autoencodeur variationnel conditionnel (VAE) qui apprend une représentation latente des mouvements humains tenant compte de l'action. Nous montrons des améliorations significatives par rapport aux méthodes existantes grâce à notre nouvelle formulation VAE basée sur un Transformer. Ce modèle code et décode des séquences de pose du corps humain paramétrisées par le modèle SMPL, en utilisant un vecteur de mouvement latent global.Dans le deuxième chapitre, nous allons au-delà des actions catégorielles et nous nous intéressons à la synthèse de divers mouvements humains 3D à partir de descriptions textuelles. Cela permet d'élargir le vocabulaire et d'obtenir un contrôle potentiellement plus fin. Notre travail se distingue des recherches précédentes en ne générant pas de manière déterministe une séquence de mouvement unique, mais en synthétisant des séquences multiples et variées à partir d'un texte donné.Nous proposons TEMOS, qui repose sur notre architecture ACTOR basée sur un VAE, mais qui intègre cette fois un encodeur de texte pré-entraîné pour traiter les entrées en langage naturel à large vocabulaire. Dans le troisième chapitre, nous abordons la tâche adjacente de la recherche de mouvements humains 3D à partir de texte, où l'objectif est, par le biais d'une requête textuelle, de rechercher à l'intérieur d'une collection de mouvements. Nous présentons une approche simple et efficace, appelée TMR, qui s'appuie sur notre modèle précédent TEMOS, en intégrant une fonction de coût contrastive pour améliorer la structure de l'espace latent multimodal. Nos résultats soulignent l'importance de conserver la génération de mouvement avec l'entraînement contrastif pour améliorer les résultats. Nous établissons un nouveau critère d'évaluation et effectuons des analyses sur plusieurs protocoles.Dans le quatrième chapitre, nous présentons un nouveau problème appelé "contrôle par chronologie multi-pistes" pour la synthèse de mouvements humains 3D pilotée par le texte. Au lieu d'une seule description textuelle, les utilisateurs organisent plusieurs textes dans des intervalles temporels qui peuvent se chevaucher. Nous présentons STMC, une méthode de débruitage en temps de test pouvant être intégrée à n'importe quel modèle de diffusion de mouvement humain pré-entraîné. Nos évaluations démontrent que notre méthode génère des mouvements qui correspondent étroitement aux aspects sémantiques et temporels de la chronologie d'entrée. En résumé, les contributions de cette thèse sont les suivantes : (i) nous développons un autoencodeur variationnel génératif, ACTOR, pour la génération de séquences de mouvements humains conditionnée par l'action, (ii) nous présentons TEMOS, un modèle génératif conditionné par le texte qui synthétise des mouvements humains diversifiés, (iii) nous présentons TMR, une nouvelle approche pour la recherche de mouvements humains 3D à partir de texte, (iv) enfin, nous proposons STMC, une méthode pour la génération de mouvements humains contrôlés par une chronologie à plusieurs pistes.
Agence Bibliographique de l'Enseignement Supérieur
Title: Natural language control for 3D human motion synthesis
Description:
Contrôle en langage naturel pour la synthèse de mouvements humains en 3D Les mouvements humains 3D jouent un rôle clé dans divers domaines, tels que le cinéma, le secteur médical, la réalité augmentée, la réalité virtuelle et l'industrie du jeu vidéo.
Toutefois, ces utilisations reposent souvent sur des données de capture de mouvement coûteuses et chronophages.
- L'objectif de cette thèse est d'explorer les modèles génératifs en tant que voie alternative pour obtenir des mouvements humains 3D.
Plus spécifiquement, notre objectif est de contrôler le processus génératif par le biais d'une interface en langage naturel.
Pour cela, nous développons une série de modèles qui synthétisent des mouvements réalistes et variés en suivant des entrées sémantiques.
Dans notre premier chapitre, nous relevons le défi de générer des séquences de mouvements humains conditionnées par des catégories d'actions spécifiques.
Nous présentons ACTOR, un autoencodeur variationnel conditionnel (VAE) qui apprend une représentation latente des mouvements humains tenant compte de l'action.
Nous montrons des améliorations significatives par rapport aux méthodes existantes grâce à notre nouvelle formulation VAE basée sur un Transformer.
Ce modèle code et décode des séquences de pose du corps humain paramétrisées par le modèle SMPL, en utilisant un vecteur de mouvement latent global.
Dans le deuxième chapitre, nous allons au-delà des actions catégorielles et nous nous intéressons à la synthèse de divers mouvements humains 3D à partir de descriptions textuelles.
Cela permet d'élargir le vocabulaire et d'obtenir un contrôle potentiellement plus fin.
Notre travail se distingue des recherches précédentes en ne générant pas de manière déterministe une séquence de mouvement unique, mais en synthétisant des séquences multiples et variées à partir d'un texte donné.
Nous proposons TEMOS, qui repose sur notre architecture ACTOR basée sur un VAE, mais qui intègre cette fois un encodeur de texte pré-entraîné pour traiter les entrées en langage naturel à large vocabulaire.
Dans le troisième chapitre, nous abordons la tâche adjacente de la recherche de mouvements humains 3D à partir de texte, où l'objectif est, par le biais d'une requête textuelle, de rechercher à l'intérieur d'une collection de mouvements.
Nous présentons une approche simple et efficace, appelée TMR, qui s'appuie sur notre modèle précédent TEMOS, en intégrant une fonction de coût contrastive pour améliorer la structure de l'espace latent multimodal.
Nos résultats soulignent l'importance de conserver la génération de mouvement avec l'entraînement contrastif pour améliorer les résultats.
Nous établissons un nouveau critère d'évaluation et effectuons des analyses sur plusieurs protocoles.
Dans le quatrième chapitre, nous présentons un nouveau problème appelé "contrôle par chronologie multi-pistes" pour la synthèse de mouvements humains 3D pilotée par le texte.
Au lieu d'une seule description textuelle, les utilisateurs organisent plusieurs textes dans des intervalles temporels qui peuvent se chevaucher.
Nous présentons STMC, une méthode de débruitage en temps de test pouvant être intégrée à n'importe quel modèle de diffusion de mouvement humain pré-entraîné.
Nos évaluations démontrent que notre méthode génère des mouvements qui correspondent étroitement aux aspects sémantiques et temporels de la chronologie d'entrée.
En résumé, les contributions de cette thèse sont les suivantes : (i) nous développons un autoencodeur variationnel génératif, ACTOR, pour la génération de séquences de mouvements humains conditionnée par l'action, (ii) nous présentons TEMOS, un modèle génératif conditionné par le texte qui synthétise des mouvements humains diversifiés, (iii) nous présentons TMR, une nouvelle approche pour la recherche de mouvements humains 3D à partir de texte, (iv) enfin, nous proposons STMC, une méthode pour la génération de mouvements humains contrôlés par une chronologie à plusieurs pistes.

Related Results

Hubungan Perilaku Pola Makan dengan Kejadian Anak Obesitas
Hubungan Perilaku Pola Makan dengan Kejadian Anak Obesitas
<p><em><span style="font-size: 11.0pt; font-family: 'Times New Roman',serif; mso-fareast-font-family: 'Times New Roman'; mso-ansi-language: EN-US; mso-fareast-langua...
A Wideband mm-Wave Printed Dipole Antenna for 5G Applications
A Wideband mm-Wave Printed Dipole Antenna for 5G Applications
<span lang="EN-MY">In this paper, a wideband millimeter-wave (mm-Wave) printed dipole antenna is proposed to be used for fifth generation (5G) communications. The single elem...
Categorizing Motion: Story-Based Categorizations
Categorizing Motion: Story-Based Categorizations
Our most primary goal is to provide a motion categorization for moving entities. A motion categorization that is related to how humans categorize motion, i.e., that is cognitive ...
Estimation on Human Motion Posture using Improved Deep Reinforcement Learning
Estimation on Human Motion Posture using Improved Deep Reinforcement Learning
<p>Estimating human motion posture can provide important data for intelligent monitoring systems, human-computer interaction, motion capture, and other fields. However, the t...
Comparison of prospective and retrospective motion correction for Magnetic Resonance Imaging of the brain - Master's Thesis in Physics
Comparison of prospective and retrospective motion correction for Magnetic Resonance Imaging of the brain - Master's Thesis in Physics
Head motion is one of the most common sources of artefacts for Magnetic Resonance Imaging (MRI) of the brain. Especially children, being intimidated by the dimensions and the noise...
Isolation, characterization and semi-synthesis of natural products dimeric amide alkaloids
Isolation, characterization and semi-synthesis of natural products dimeric amide alkaloids
 Isolation, characterization of natural products dimeric amide alkaloids from roots of the Piper chaba Hunter. The synthesis of these products using intermolecular [4+2] cycloaddit...
Aviation English - A global perspective: analysis, teaching, assessment
Aviation English - A global perspective: analysis, teaching, assessment
This e-book brings together 13 chapters written by aviation English researchers and practitioners settled in six different countries, representing institutions and universities fro...

Back to Top