Javascript must be enabled to continue!
Étude de la classification des vidéos de foule par apprentissage profond
View through CrossRef
Du fait de la multiplication des rassemblements dans les grandes villes, leur encadrement constitue un enjeu majeur pour les forces de l’ordre. Fort heureusement, les forces de l’ordre peuvent compter sur la présence des caméras de vidéoprotection pour optimiser leur intervention. Toutefois, le traitement automatique des vidéos qu’elles récoltent n’est pas réalisé de manière systématique, ce qui retarde le temps de réaction des forces de l’ordre. Cette thèse apporte une pierre à l’édifice de cette automatisation en mettant en place des modèles réalisant une classification des vidéos de comportements de foule. Après avoir étudié les travaux existants en analyse de foule et proposé une taxonomie permettant de classer les travaux de l’état-de-l’art, nous avons proposé de classer les clips vidéo issus du jeu de données Crowd-11. Ce jeu de données comporte onze catégories de mouvements assez représentatives des comportements de foule pouvant se dérouler dans les espaces publics et privés. Dans le cadre d’un travail préliminaire sur l’apprentissage par transfert, nous avons étudié et analysé la classification des clips vidéo de foule réalisée par des réseaux de neurones convolutifs. Nos meilleurs réseaux classent correctement la majeure partie des clips de l’ensemble de test. Toutefois, une étude plus approfondie de leurs résultats nous a permis de constater qu’ils éprouvent des difficultés avec trois classes de mouvements assez similaires. Afin de pallier les limites rencontrées par nos premiers réseaux, nous avons proposé deux nouvelles approches : la première approche exploite la détection de têtes, en tant qu’étape de pré-traitement, avant de recourir à la classification. La deuxième approche se base sur la classification ensembliste qui associe les connaissances de plusieurs méthodes de classification permettant de produire de meilleures décisions. Dans le cadre de l'exploitation de la détection de têtes, nous nous sommes basés sur les déplacements des têtes des personnes détectées dans les clips vidéo de foule. Les positions des têtes, extraites de toutes les personnes apparaissant dans les scènes du jeu de données, ont été rassemblées dans des cartes de détection de têtes. Ces cartes ont été envoyées en entrée des réseaux de neurones convolutifs pour caractériser les comportements de foule et les classer. Dans le cadre de la classification ensembliste, plusieurs modèles entraînés différemment ont été réunis dans un ensemble pour classer des clips vidéo de foule. Huit ensembles de modèles homogènes ont été étudiés et analysés. Par la suite, des ensembles de modèles hétérogènes ont été mis en place pour étudier toutes les combinaisons possibles des ensembles de modèles homogènes. L’objectif de cette étude a été de trouver la combinaison qui associe le mieux les compétences de chaque ensemble homogène pour obtenir l’ensemble de modèles hétérogènes le plus performant.
Title: Étude de la classification des vidéos de foule par apprentissage profond
Description:
Du fait de la multiplication des rassemblements dans les grandes villes, leur encadrement constitue un enjeu majeur pour les forces de l’ordre.
Fort heureusement, les forces de l’ordre peuvent compter sur la présence des caméras de vidéoprotection pour optimiser leur intervention.
Toutefois, le traitement automatique des vidéos qu’elles récoltent n’est pas réalisé de manière systématique, ce qui retarde le temps de réaction des forces de l’ordre.
Cette thèse apporte une pierre à l’édifice de cette automatisation en mettant en place des modèles réalisant une classification des vidéos de comportements de foule.
Après avoir étudié les travaux existants en analyse de foule et proposé une taxonomie permettant de classer les travaux de l’état-de-l’art, nous avons proposé de classer les clips vidéo issus du jeu de données Crowd-11.
Ce jeu de données comporte onze catégories de mouvements assez représentatives des comportements de foule pouvant se dérouler dans les espaces publics et privés.
Dans le cadre d’un travail préliminaire sur l’apprentissage par transfert, nous avons étudié et analysé la classification des clips vidéo de foule réalisée par des réseaux de neurones convolutifs.
Nos meilleurs réseaux classent correctement la majeure partie des clips de l’ensemble de test.
Toutefois, une étude plus approfondie de leurs résultats nous a permis de constater qu’ils éprouvent des difficultés avec trois classes de mouvements assez similaires.
Afin de pallier les limites rencontrées par nos premiers réseaux, nous avons proposé deux nouvelles approches : la première approche exploite la détection de têtes, en tant qu’étape de pré-traitement, avant de recourir à la classification.
La deuxième approche se base sur la classification ensembliste qui associe les connaissances de plusieurs méthodes de classification permettant de produire de meilleures décisions.
Dans le cadre de l'exploitation de la détection de têtes, nous nous sommes basés sur les déplacements des têtes des personnes détectées dans les clips vidéo de foule.
Les positions des têtes, extraites de toutes les personnes apparaissant dans les scènes du jeu de données, ont été rassemblées dans des cartes de détection de têtes.
Ces cartes ont été envoyées en entrée des réseaux de neurones convolutifs pour caractériser les comportements de foule et les classer.
Dans le cadre de la classification ensembliste, plusieurs modèles entraînés différemment ont été réunis dans un ensemble pour classer des clips vidéo de foule.
Huit ensembles de modèles homogènes ont été étudiés et analysés.
Par la suite, des ensembles de modèles hétérogènes ont été mis en place pour étudier toutes les combinaisons possibles des ensembles de modèles homogènes.
L’objectif de cette étude a été de trouver la combinaison qui associe le mieux les compétences de chaque ensemble homogène pour obtenir l’ensemble de modèles hétérogènes le plus performant.
Related Results
Synthèse géologique et hydrogéologique du Shale d'Utica et des unités sus-jacentes (Lorraine, Queenston et dépôts meubles), Basses-Terres du Saint-Laurent, Québec
Synthèse géologique et hydrogéologique du Shale d'Utica et des unités sus-jacentes (Lorraine, Queenston et dépôts meubles), Basses-Terres du Saint-Laurent, Québec
Le présent travail a été initié dans le cadre d'un mandat donné à l'INRS-ETE par la Commission géologique du Canada (CGC) et le Ministère du Développement durable, de l'Environneme...
Le gouvernement numérique de la foule : enquête sur les technologies de quantification de la foule en démocratie
Le gouvernement numérique de la foule : enquête sur les technologies de quantification de la foule en démocratie
La foule s’est constituée comme objet scientifique depuis la fin du 19e siècle. Initialement liée à la psychologie des foules de Gustave Le Bon et empreinte d’une vision normative ...
REGULAR ARTICLES
REGULAR ARTICLES
L. Cowen and
C. J.
Schwarz
657Les Radio‐tags, en raison de leur détectabilitéélevée, ...
Résumés des conférences JRANF 2021
Résumés des conférences JRANF 2021
able des matières
Résumés. 140
Agenda Formation en Radioprotection JRANF 2021 Ouagadougou. 140
RPF 1 Rappel des unités de doses. 140
RPF 2 Risques déterministes et stochastique...
Apprentissage profond multimodal appliqué à l'usinage
Apprentissage profond multimodal appliqué à l'usinage
Les techniques axées sur les données ont offert à la technologie de fabrication intelligente des opportunités sans précédent pour assurer la transition vers une productivité basée ...
Deep Learning-based Methods for Radiotherapy Dose Optimization
Deep Learning-based Methods for Radiotherapy Dose Optimization
Apprentissage profond pour l'optimisation des doses en radiothérapie
La radiothérapie est un pilier du traitement moderne du cancer. La simulation de la dose de rad...
La foule dans les écrits journalistiques et romanesques : étude de la spécificité de la foule dans l’écriture zolienne
La foule dans les écrits journalistiques et romanesques : étude de la spécificité de la foule dans l’écriture zolienne
Notre intérêt réside dans le traitement de la question de la foule chez Zola sous l’angle d’une méthode pluridisciplinaire et à travers plusieurs genres d’écriture. Nous menons not...
Geometric deep learning for structural bioinformatics
Geometric deep learning for structural bioinformatics
Apprentissage profond géométrique pour la bioinformatique structurale
L'apprentissage automatique a permis plusieurs percées dans la gestion des données tabulaires,...

