Javascript must be enabled to continue!

Training-efficient video feature extraction for human-centric multimodal video understanding

Extraction de caractéristiques vidéo efficace pour la formation et la compréhension vidéo multimodale centrée sur l'humain La compréhension des actions dans les vidéos est un élément crucial de la vision par ordinateur, avec des implications importantes dans de nombreux domaines. Face à notre dépendance croissante aux données visuelles, la compréhension et l’interprétation des actions humaines dans les vidéos deviennent essentielles au développement de technologies dans les domaines de la surveillance, de la santé, des systèmes autonomes et de l’interaction homme machine. L’interprétation précise des actions dans les vidéos est fondamentale pour créer des systèmes intelligents capables de naviguer et de répondre efficacement aux complexités du monde réel. Dans ce contexte, les avancées dans la compréhension de l’action repoussent les limites de la vision par ordinateur et jouent un rôle crucial dans le développement d’applications de pointe qui impactent notre quotidien. La vision par ordinateur a connu des progrès significatifs grâce à l’essor des méthodes d’apprentissage profond telles que les réseaux de neurones convolutifs (CNN) et les transformateurs, repoussant ainsi les limites de la vision par ordinateur et permettant à la communauté de la vision par ordinateur de progresser dans de nombreux domaines, notamment la segmentation d’images, la détection d’objets, la compréhension de scènes, etc. Cependant, le traitement vidéo reste limité par rapport aux images statiques. Dans cette thèse, nous nous concentrons sur la compréhension vidéo, en la divisant en deux parties principales : la classification vidéo et la détection d’actions, et leur application en informatique affective, notamment dans les scenarios bases sur l’interaction. Dans cette thèse, nous explorons des approches efficaces en apprentissage pour l’extraction de caractéristiques vidéo dans diverses tâches de classification vidéo et de compréhension des interactions. Nos contributions couvrent le calcul de caractéristiques de niveau intermédiaire pour une convergence plus rapide, l’adaptation par plugin pour la gestion de divers ensembles de données et modalités, et la modélisation temporelle évolutive pour la compréhension de longues vidéos. Nous commençons par améliorer la reconnaissance de la personnalité et du comportement grâce à un codage comportemental base sur la géométrie et à des mécanismes d’attention pilotes par la segmentation. Nous abordons ensuite les défis de la disponibilité des modalités et de la diversité des données en utilisant la distillation des connaissances et un nouveau cadre d’apprentissage croisé basé sur des adaptateurs qui se généralise à toutes les tâches. Enfin, nous abordons l’analyse de longues vidéos pour la détection d’actions temporelles à l’aide d’adaptateurs temporels avec des modèles d’images, ainsi que d’adaptateurs modulaires et d’une stratégie d’apprentissage spatio-temporel en deux étapes avec une base vidéo. Ensemble, ces travaux contribuent à la construction de systèmes généralisables et efficaces en apprentissage pour un large éventail d’applications de compréhension vidéo.

Agence Bibliographique de l'Enseignement Supérieur

Tanay Agrawal

2026

Title: Training-efficient video feature extraction for human-centric multimodal video understanding

Description:

Face à notre dépendance croissante aux données visuelles, la compréhension et l’interprétation des actions humaines dans les vidéos deviennent essentielles au développement de technologies dans les domaines de la surveillance, de la santé, des systèmes autonomes et de l’interaction homme machine.

L’interprétation précise des actions dans les vidéos est fondamentale pour créer des systèmes intelligents capables de naviguer et de répondre efficacement aux complexités du monde réel.

Dans ce contexte, les avancées dans la compréhension de l’action repoussent les limites de la vision par ordinateur et jouent un rôle crucial dans le développement d’applications de pointe qui impactent notre quotidien.

La vision par ordinateur a connu des progrès significatifs grâce à l’essor des méthodes d’apprentissage profond telles que les réseaux de neurones convolutifs (CNN) et les transformateurs, repoussant ainsi les limites de la vision par ordinateur et permettant à la communauté de la vision par ordinateur de progresser dans de nombreux domaines, notamment la segmentation d’images, la détection d’objets, la compréhension de scènes, etc.

Cependant, le traitement vidéo reste limité par rapport aux images statiques.

Dans cette thèse, nous nous concentrons sur la compréhension vidéo, en la divisant en deux parties principales : la classification vidéo et la détection d’actions, et leur application en informatique affective, notamment dans les scenarios bases sur l’interaction.

Dans cette thèse, nous explorons des approches efficaces en apprentissage pour l’extraction de caractéristiques vidéo dans diverses tâches de classification vidéo et de compréhension des interactions.

Nos contributions couvrent le calcul de caractéristiques de niveau intermédiaire pour une convergence plus rapide, l’adaptation par plugin pour la gestion de divers ensembles de données et modalités, et la modélisation temporelle évolutive pour la compréhension de longues vidéos.

Nous commençons par améliorer la reconnaissance de la personnalité et du comportement grâce à un codage comportemental base sur la géométrie et à des mécanismes d’attention pilotes par la segmentation.

Nous abordons ensuite les défis de la disponibilité des modalités et de la diversité des données en utilisant la distillation des connaissances et un nouveau cadre d’apprentissage croisé basé sur des adaptateurs qui se généralise à toutes les tâches.

Enfin, nous abordons l’analyse de longues vidéos pour la détection d’actions temporelles à l’aide d’adaptateurs temporels avec des modèles d’images, ainsi que d’adaptateurs modulaires et d’une stratégie d’apprentissage spatio-temporel en deux étapes avec une base vidéo.

Ensemble, ces travaux contribuent à la construction de systèmes généralisables et efficaces en apprentissage pour un large éventail d’applications de compréhension vidéo.

Back

BACKGROUND Mental health has become one of the most urgent global health issues of the twenty-first century. The World Health Organization (WHO) reports tha...

A KCP-DCNN-Based Two-Step Verification Multimodal Biometric Authentication System featuring QR Code Fabrication

Abstract Starting with for, need change Enhanced authentication performance, the concept of multi-biometrics authentication systems has emerged as a promising solution in t...

Imagined worldviews in John Lennon’s “Imagine”: a multimodal re-performance / Visões de mundo imaginadas no “Imagine” de John Lennon: uma re-performance multimodal

Abstract: This paper addresses the issue of multimodal re-performance, a concept developed by us, in view of the fact that the famous song “Imagine”, by John Lennon, was published ...

Literasi Multimodal: Teori, Desain, dan Aplikasi

Buku ini bertujuan untuk pengembangan strategi dan model paket pelajaran atau mata kuliah dengan menawarkan contoh-contoh strategi instruksional yang memiliki landasan teori dan be...

Feature selection for multimodal: acoustic event detection

The detection of the Acoustic Events (AEs) naturally produced in a meeting room may help to describe the human and social activity. The automatic description of interactions betwee...

Audio and video editing system design based on OpenCV

With the rapid development of the Internet, a new carrier for people to perceive the world and communicate with each other - audio and video - is gradually being favoured by the pu...

A Transfer Learning-Based Text-Centric Model for Multimodal Sentiment Analysis

Multimodal sentiment analysis (MMSA) is a research method that extracts effective information from heterogeneous modal information. Then, MMSA processes the multimodal data and per...

AFR-BERT: Attention-based mechanism feature relevance fusion multimodal sentiment analysis model

Multimodal sentiment analysis is an essential task in natural language processing which refers to the fact that machines can analyze and recognize emotions through logical reasonin...

Email:
Password:

Email:

Training-efficient video feature extraction for human-centric multimodal video understanding

Related Results