Javascript must be enabled to continue!

Unsupervised STDP-based Feature Learning for Video Analysis with Spiking Neural Networks

Apprentissage non supervisé basé sur le STDP pour l’analyse vidéo avec des réseaux neuronaux impulsionnels La reconnaissance des actions humaines (HAR) est une tâche importante en analyse vidéo, en raison de ses applications dans de nombreux domaines. Les réseaux neuronaux convolutionnels profonds constituent actuellement l'état de l'art en matière d'HAR, mais leur coût de calcul élevé limite leur utilisation sur les appareils à faible consommation. En outre, ils reposent essentiellement sur l'apprentissage supervisé, qui nécessite de grandes quantités de données étiquetées. Les réseaux neuronaux à impulsions (SNN) sont des modèles qui traitent les informations sous forme d'impulsions à faible énergie, au lieu de valeurs numériques. Ces derniers peuvent surmonter les limitations des réseaux neuronaux analogiques (RNA) tels que le problème de l'efficacité énergétique, lorsqu'ils sont mis en œuvre sur du matériel neuromorphique. Toutefois, les méthodes d'apprentissage supervisé des SNN, telles que la conversion ANN-SNN et la rétropropagation à impulsions, ont leurs propres limites, notamment la nécessité d'une grande quantité de données étiquetées pour l'apprentissage. D'autre part, les SNN peuvent tirer parti de règles d'apprentissage non supervisées, telles que la règle de plasticité fonction du temps d'occurrence des impulsions (STDP), ce qui réduit leur dépendance aux données étiquetées. Malgré ces avantages, les SNN non supervisés doivent encore relever des défis pour atteindre les niveaux de performance des ANN sur des données complexes. Ainsi, comprendre comment un SNN basé sur la STDP peut apprendre efficacement les caractéristiques spatio-temporelles devient crucial pour l'amélioration de leur performance. Cette thèse couvre les connaissances en vision par ordinateur et en modélisation du mouvement, ainsi que les sujets relatifs aux SNN.Dans cette thèse, notre objectif principal est d'apprendre des caractéristiques spatio-temporelles avec des SNN de manière non supervisée via STDP à des fins d'analyse vidéo. Nous étudions les moyens de combler l'écart de performance entre les SNN et les ANN lors du traitement des données spatio-temporelles. Par conséquent, la première contribution de cette thèse est d'étudier les capacités d'extraction de caractéristiques d'un réseau neuronal convolutif à impulsions (CSNN) basé sur la STDP avec différentes représentations statiques du mouvement. Les méthodes de modélisation du mouvement sont introduites, catégorisées en représentations basées sur les trames ou basées sur les séquences, et traitées à l'aide d'un CSNN 2D. On obtient ainsi un référentiel clair de la capacité de ces modèles à extraire des caractéristiques spatio-temporelles à partir de différents types de représentations du mouvement. Notre deuxième contribution est de présenter le premier modèle CSNN 3D basé sur la STDP qui peut extraire des caractéristiques spatio-temporelles naturellement à partir de vidéos, sans nécessiter d'étapes supplémentaires de modélisation du mouvement. Ce modèle est plus performant que les CSNN 2D pour l'analyse vidéo, en particulier pour les vidéos plus longues. Ensuite, dans notre troisième contribution, nous explorons la possibilité de réduire le nombre de paramètres de ces réseaux en proposant des convolutions spatiales et temporelles séparées (S3TC). Cela permet de réduire le nombre de paramètres entraînables de ces réseaux, mais aussi de réduire potentiellement la complexité pour leur mise en œuvre sur du matériel neuromorphique. Les S3TC sont plus performants que les CSNN 3D et produisent une activité plus élevée à la sortie, ce qui réduit le problème de disparition des impulsions. Notre quatrième contribution présente des CSNN à deux flux basés sur la STDP. Les méthodes à deux flux sont efficaces pour l'extraction de caractéristiques spatio-temporelles, avec des performances de pointe sur les tâches HAR dans le domaine traditionnel. Par conséquent, nous utilisons des flux spatiaux et temporels à impulsions basés sur des CSNN pour obtenir des caractéristiques spatio-temporelles.

Agence Bibliographique de l'Enseignement Supérieur

Mireille El Assal

2026

Title: Unsupervised STDP-based Feature Learning for Video Analysis with Spiking Neural Networks

Description:

Les réseaux neuronaux convolutionnels profonds constituent actuellement l'état de l'art en matière d'HAR, mais leur coût de calcul élevé limite leur utilisation sur les appareils à faible consommation.

En outre, ils reposent essentiellement sur l'apprentissage supervisé, qui nécessite de grandes quantités de données étiquetées.

Les réseaux neuronaux à impulsions (SNN) sont des modèles qui traitent les informations sous forme d'impulsions à faible énergie, au lieu de valeurs numériques.

Ces derniers peuvent surmonter les limitations des réseaux neuronaux analogiques (RNA) tels que le problème de l'efficacité énergétique, lorsqu'ils sont mis en œuvre sur du matériel neuromorphique.

Toutefois, les méthodes d'apprentissage supervisé des SNN, telles que la conversion ANN-SNN et la rétropropagation à impulsions, ont leurs propres limites, notamment la nécessité d'une grande quantité de données étiquetées pour l'apprentissage.

D'autre part, les SNN peuvent tirer parti de règles d'apprentissage non supervisées, telles que la règle de plasticité fonction du temps d'occurrence des impulsions (STDP), ce qui réduit leur dépendance aux données étiquetées.

Malgré ces avantages, les SNN non supervisés doivent encore relever des défis pour atteindre les niveaux de performance des ANN sur des données complexes.

Ainsi, comprendre comment un SNN basé sur la STDP peut apprendre efficacement les caractéristiques spatio-temporelles devient crucial pour l'amélioration de leur performance.

Cette thèse couvre les connaissances en vision par ordinateur et en modélisation du mouvement, ainsi que les sujets relatifs aux SNN.

Dans cette thèse, notre objectif principal est d'apprendre des caractéristiques spatio-temporelles avec des SNN de manière non supervisée via STDP à des fins d'analyse vidéo.

Nous étudions les moyens de combler l'écart de performance entre les SNN et les ANN lors du traitement des données spatio-temporelles.

Par conséquent, la première contribution de cette thèse est d'étudier les capacités d'extraction de caractéristiques d'un réseau neuronal convolutif à impulsions (CSNN) basé sur la STDP avec différentes représentations statiques du mouvement.

Les méthodes de modélisation du mouvement sont introduites, catégorisées en représentations basées sur les trames ou basées sur les séquences, et traitées à l'aide d'un CSNN 2D.

On obtient ainsi un référentiel clair de la capacité de ces modèles à extraire des caractéristiques spatio-temporelles à partir de différents types de représentations du mouvement.

Notre deuxième contribution est de présenter le premier modèle CSNN 3D basé sur la STDP qui peut extraire des caractéristiques spatio-temporelles naturellement à partir de vidéos, sans nécessiter d'étapes supplémentaires de modélisation du mouvement.

Ce modèle est plus performant que les CSNN 2D pour l'analyse vidéo, en particulier pour les vidéos plus longues.

Ensuite, dans notre troisième contribution, nous explorons la possibilité de réduire le nombre de paramètres de ces réseaux en proposant des convolutions spatiales et temporelles séparées (S3TC).

Cela permet de réduire le nombre de paramètres entraînables de ces réseaux, mais aussi de réduire potentiellement la complexité pour leur mise en œuvre sur du matériel neuromorphique.

Les S3TC sont plus performants que les CSNN 3D et produisent une activité plus élevée à la sortie, ce qui réduit le problème de disparition des impulsions.

Notre quatrième contribution présente des CSNN à deux flux basés sur la STDP.

Les méthodes à deux flux sont efficaces pour l'extraction de caractéristiques spatio-temporelles, avec des performances de pointe sur les tâches HAR dans le domaine traditionnel.

Par conséquent, nous utilisons des flux spatiaux et temporels à impulsions basés sur des CSNN pour obtenir des caractéristiques spatio-temporelles.

Back

Direct training of Spiking Neural Networks (SNNs) on neuromorphic hardware has the potential to significantly reduce the energy consumption of artificial neural network training. S...

Mean-field approximations with adaptive coupling for networks with spike-timing-dependent plasticity

Abstract Understanding the effect of spike-timing-dependent plasticity (STDP) is key to elucidate how neural networks change over long timescales and to design inte...

What Can a Neuron Learn with Spike-Timing-Dependent Plasticity?

Spiking neurons are very flexible computational modules, which can implement with different values of their adjustable synaptic parameters an enormous variety of different transfor...

A spike-timing-dependent plasticity rule for single, clustered and distributed dendritic spines

SUMMARY Spike-timing-dependent plasticity (STDP) has been extensively studied in cortical pyramidal neurons, however, the precise structural organization of excitat...

Efficient supervised training of shallow and deep temporally-coded spiking neural networks

Apprentissage supervisé efficace pour les réseaux de neurones impulsionnels à codage temporel L'informatique neuromorphique avec les réseaux de neurones impulsionne...

Development of an STDP neural network for unsupervised online spike-sorting

Développement d'un réseau de neurones STDP pour le tri en ligne et non-supervisé de potentiels d'action La reconnaissance de motifs est une tâche cruciale pour les ...

Embedding optimization reveals long-lasting history dependence in neural spiking activity

AbstractInformation processing can leave distinct footprints on the statistics of neural spiking. For example, efficient coding minimizes the statistical dependencies on the spikin...

Theoretical investigation of weight-dependent optical spike timing dependent plasticity based on VCSOA

Abstract We propose an implement scheme of the weight-dependent optical spike timing dependent plasticity (STDP) based on the vertical-cavity semiconductor optical a...

Email:
Password:

Email:

Unsupervised STDP-based Feature Learning for Video Analysis with Spiking Neural Networks

Related Results