Javascript must be enabled to continue!

Étude de la classification des vidéos de foule par apprentissage profond

Du fait de la multiplication des rassemblements dans les grandes villes, leur encadrement constitue un enjeu majeur pour les forces de l’ordre. Fort heureusement, les forces de l’ordre peuvent compter sur la présence des caméras de vidéoprotection pour optimiser leur intervention. Toutefois, le traitement automatique des vidéos qu’elles récoltent n’est pas réalisé de manière systématique, ce qui retarde le temps de réaction des forces de l’ordre. Cette thèse apporte une pierre à l’édifice de cette automatisation en mettant en place des modèles réalisant une classification des vidéos de comportements de foule. Après avoir étudié les travaux existants en analyse de foule et proposé une taxonomie permettant de classer les travaux de l’état-de-l’art, nous avons proposé de classer les clips vidéo issus du jeu de données Crowd-11. Ce jeu de données comporte onze catégories de mouvements assez représentatives des comportements de foule pouvant se dérouler dans les espaces publics et privés. Dans le cadre d’un travail préliminaire sur l’apprentissage par transfert, nous avons étudié et analysé la classification des clips vidéo de foule réalisée par des réseaux de neurones convolutifs. Nos meilleurs réseaux classent correctement la majeure partie des clips de l’ensemble de test. Toutefois, une étude plus approfondie de leurs résultats nous a permis de constater qu’ils éprouvent des difficultés avec trois classes de mouvements assez similaires. Afin de pallier les limites rencontrées par nos premiers réseaux, nous avons proposé deux nouvelles approches : la première approche exploite la détection de têtes, en tant qu’étape de pré-traitement, avant de recourir à la classification. La deuxième approche se base sur la classification ensembliste qui associe les connaissances de plusieurs méthodes de classification permettant de produire de meilleures décisions. Dans le cadre de l'exploitation de la détection de têtes, nous nous sommes basés sur les déplacements des têtes des personnes détectées dans les clips vidéo de foule. Les positions des têtes, extraites de toutes les personnes apparaissant dans les scènes du jeu de données, ont été rassemblées dans des cartes de détection de têtes. Ces cartes ont été envoyées en entrée des réseaux de neurones convolutifs pour caractériser les comportements de foule et les classer. Dans le cadre de la classification ensembliste, plusieurs modèles entraînés différemment ont été réunis dans un ensemble pour classer des clips vidéo de foule. Huit ensembles de modèles homogènes ont été étudiés et analysés. Par la suite, des ensembles de modèles hétérogènes ont été mis en place pour étudier toutes les combinaisons possibles des ensembles de modèles homogènes. L’objectif de cette étude a été de trouver la combinaison qui associe le mieux les compétences de chaque ensemble homogène pour obtenir l’ensemble de modèles hétérogènes le plus performant.

Agence Bibliographique de l'Enseignement Supérieur

Mounir Bendali-Braham

2026

Title: Étude de la classification des vidéos de foule par apprentissage profond

Description:

Du fait de la multiplication des rassemblements dans les grandes villes, leur encadrement constitue un enjeu majeur pour les forces de l’ordre.

Fort heureusement, les forces de l’ordre peuvent compter sur la présence des caméras de vidéoprotection pour optimiser leur intervention.

Toutefois, le traitement automatique des vidéos qu’elles récoltent n’est pas réalisé de manière systématique, ce qui retarde le temps de réaction des forces de l’ordre.

Cette thèse apporte une pierre à l’édifice de cette automatisation en mettant en place des modèles réalisant une classification des vidéos de comportements de foule.

Après avoir étudié les travaux existants en analyse de foule et proposé une taxonomie permettant de classer les travaux de l’état-de-l’art, nous avons proposé de classer les clips vidéo issus du jeu de données Crowd-11.

Ce jeu de données comporte onze catégories de mouvements assez représentatives des comportements de foule pouvant se dérouler dans les espaces publics et privés.

Dans le cadre d’un travail préliminaire sur l’apprentissage par transfert, nous avons étudié et analysé la classification des clips vidéo de foule réalisée par des réseaux de neurones convolutifs.

Nos meilleurs réseaux classent correctement la majeure partie des clips de l’ensemble de test.

Toutefois, une étude plus approfondie de leurs résultats nous a permis de constater qu’ils éprouvent des difficultés avec trois classes de mouvements assez similaires.

Afin de pallier les limites rencontrées par nos premiers réseaux, nous avons proposé deux nouvelles approches : la première approche exploite la détection de têtes, en tant qu’étape de pré-traitement, avant de recourir à la classification.

La deuxième approche se base sur la classification ensembliste qui associe les connaissances de plusieurs méthodes de classification permettant de produire de meilleures décisions.

Dans le cadre de l'exploitation de la détection de têtes, nous nous sommes basés sur les déplacements des têtes des personnes détectées dans les clips vidéo de foule.

Les positions des têtes, extraites de toutes les personnes apparaissant dans les scènes du jeu de données, ont été rassemblées dans des cartes de détection de têtes.

Ces cartes ont été envoyées en entrée des réseaux de neurones convolutifs pour caractériser les comportements de foule et les classer.

Dans le cadre de la classification ensembliste, plusieurs modèles entraînés différemment ont été réunis dans un ensemble pour classer des clips vidéo de foule.

Huit ensembles de modèles homogènes ont été étudiés et analysés.

Par la suite, des ensembles de modèles hétérogènes ont été mis en place pour étudier toutes les combinaisons possibles des ensembles de modèles homogènes.

L’objectif de cette étude a été de trouver la combinaison qui associe le mieux les compétences de chaque ensemble homogène pour obtenir l’ensemble de modèles hétérogènes le plus performant.

Back

Le présent travail a été initié dans le cadre d'un mandat donné à l'INRS-ETE par la Commission géologique du Canada (CGC) et le Ministère du Développement durable, de l'Environneme...

Le gouvernement numérique de la foule : enquête sur les technologies de quantification de la foule en démocratie

La foule s’est constituée comme objet scientifique depuis la fin du 19e siècle. Initialement liée à la psychologie des foules de Gustave Le Bon et empreinte d’une vision normative ...

REGULAR ARTICLES

L. Cowen and C. J. Schwarz 657Les Radio‐tags, en raison de leur détectabilitéélevée, ...

Résumés des conférences JRANF 2021

able des matières Résumés. 140 Agenda Formation en Radioprotection JRANF 2021 Ouagadougou. 140 RPF 1 Rappel des unités de doses. 140 RPF 2 Risques déterministes et stochastique...

Apprentissage profond multimodal appliqué à l'usinage

Les techniques axées sur les données ont offert à la technologie de fabrication intelligente des opportunités sans précédent pour assurer la transition vers une productivité basée ...

Deep Learning-based Methods for Radiotherapy Dose Optimization

Apprentissage profond pour l'optimisation des doses en radiothérapie La radiothérapie est un pilier du traitement moderne du cancer. La simulation de la dose de rad...

La foule dans les écrits journalistiques et romanesques : étude de la spécificité de la foule dans l’écriture zolienne

Notre intérêt réside dans le traitement de la question de la foule chez Zola sous l’angle d’une méthode pluridisciplinaire et à travers plusieurs genres d’écriture. Nous menons not...

Geometric deep learning for structural bioinformatics

Apprentissage profond géométrique pour la bioinformatique structurale L'apprentissage automatique a permis plusieurs percées dans la gestion des données tabulaires,...

Email:
Password:

Email:

Étude de la classification des vidéos de foule par apprentissage profond

Related Results