Javascript must be enabled to continue!

Equivariance in Vision for Unsupervised Low Data Regimes

Vision équivariante en mode non supervisée et en présence d'une faible quantité de données Cette thèse aborde la question clé de la création de modèles de vision robustes qui apprennent des représentations efficaces dans des régimes non supervisés à faible quantité de données et qui sont géométriquement cohérents sous des transformations géométriques rigides. Les réseaux neuronaux à convolution classiques ne possèdent qu'une augmentation naissante, avec de grands espaces de paramètres pour garantir la robustesse face à des transformations telles que la rotation et la mise à l'échelle. Même dans ce cas, ils sont fortement sujets aux problèmes de repliement spectral. Les convolutions de groupe, en revanche, offrent une manière plus rigoureuse de préserver l'équivariance. Cependant, elles sont confrontées à de sérieux obstacles computationnels dans des contextes d'autoencodage pour des tâches en aval, en raison des expansions dimensionnelles causées par les opérations de lifting, des limitations basées sur la mémoire, ainsi que des opérations de pooling qui peuvent souvent briser l'équivariance. Dans notre travail, nous explorons le domaine fréquentiel en présentant un cadre théorique commun pour l'autoencodage. Cela s'étend à la détection équivariante d'objets et à la localisation d'anomalies, reliant formellement l'équivariance de groupe à la théorie de la représentation de Riesz. Nous établissons ses capacités de généralisation supérieures avec des bornes PAC-bayésiennes plus resserrées. Notre nouvelle architecture LeaRN-EqSTN effectue une estimation séquentielle des transformations via une transformée de Riesz apprenable et des réseaux de transformation spatiale dans le but d'apprendre l'équivariance. Cette approche atteint une plus grande efficacité computationnelle sans sacrifier les garanties théoriques. Cette architecture permet une intégration directe aux modèles d'autoencodage tout en préservant les propriétés d'équivariance. La thèse présente plusieurs contributions principales. Nous proposons SPAGMACE, un nouveau système de détection d'objets basé sur des aperçus non supervisés qui organise l'espace latent avec des a priori de mélange gaussien pour favoriser une meilleure interprétation sémantique. Nous étendons LeaRN-EqSTN avec SPAGMACE pour développer le premier modèle de détection d'objets équivariant non supervisé basé sur des aperçus, avec des performances améliorées sur des ensembles de données réelles. Pour faciliter la localisation d'anomalies, nous suggérons un cadre d'autoencodeur qui combine la force de notre modèle LeaRN-EqSTN avec un post-traitement efficace capable de discriminer les anomalies des distorsions non rigides normales. Nous démontrons l'efficacité de notre approche dans trois contextes : l'autoencodage ainsi que la détection d'objets et la localisation d'anomalies non supervisées. Nos architectures montrent une généralisation supérieure par rapport aux modèles de l'état de l'art, en particulier dans les situations où la quantité de données est faible. Ce travail démontre que l'incorporation de l'équivariance géométrique basée sur des représentations au niveau fréquentiel dans les architectures neuronales offre une approche rigoureuse pour apprendre des représentations visuelles robustes à partir de données en quantité limitée. Une étude théorique révèle les relations inhérentes entre la symétrie, le repliement spectral et la généralisation, tandis que les résultats empiriques démontrent des améliorations par rapport aux techniques de de l'état de l'art en vision par ordinateur.

Agence Bibliographique de l'Enseignement Supérieur

Sayan Chaki

2026

Title: Equivariance in Vision for Unsupervised Low Data Regimes

Description:

Les réseaux neuronaux à convolution classiques ne possèdent qu'une augmentation naissante, avec de grands espaces de paramètres pour garantir la robustesse face à des transformations telles que la rotation et la mise à l'échelle.

Même dans ce cas, ils sont fortement sujets aux problèmes de repliement spectral.

Les convolutions de groupe, en revanche, offrent une manière plus rigoureuse de préserver l'équivariance.

Cependant, elles sont confrontées à de sérieux obstacles computationnels dans des contextes d'autoencodage pour des tâches en aval, en raison des expansions dimensionnelles causées par les opérations de lifting, des limitations basées sur la mémoire, ainsi que des opérations de pooling qui peuvent souvent briser l'équivariance.

Dans notre travail, nous explorons le domaine fréquentiel en présentant un cadre théorique commun pour l'autoencodage.

Cela s'étend à la détection équivariante d'objets et à la localisation d'anomalies, reliant formellement l'équivariance de groupe à la théorie de la représentation de Riesz.

Nous établissons ses capacités de généralisation supérieures avec des bornes PAC-bayésiennes plus resserrées.

Notre nouvelle architecture LeaRN-EqSTN effectue une estimation séquentielle des transformations via une transformée de Riesz apprenable et des réseaux de transformation spatiale dans le but d'apprendre l'équivariance.

Cette approche atteint une plus grande efficacité computationnelle sans sacrifier les garanties théoriques.

Cette architecture permet une intégration directe aux modèles d'autoencodage tout en préservant les propriétés d'équivariance.

La thèse présente plusieurs contributions principales.

Nous proposons SPAGMACE, un nouveau système de détection d'objets basé sur des aperçus non supervisés qui organise l'espace latent avec des a priori de mélange gaussien pour favoriser une meilleure interprétation sémantique.

Nous étendons LeaRN-EqSTN avec SPAGMACE pour développer le premier modèle de détection d'objets équivariant non supervisé basé sur des aperçus, avec des performances améliorées sur des ensembles de données réelles.

Pour faciliter la localisation d'anomalies, nous suggérons un cadre d'autoencodeur qui combine la force de notre modèle LeaRN-EqSTN avec un post-traitement efficace capable de discriminer les anomalies des distorsions non rigides normales.

Nous démontrons l'efficacité de notre approche dans trois contextes : l'autoencodage ainsi que la détection d'objets et la localisation d'anomalies non supervisées.

Nos architectures montrent une généralisation supérieure par rapport aux modèles de l'état de l'art, en particulier dans les situations où la quantité de données est faible.

Ce travail démontre que l'incorporation de l'équivariance géométrique basée sur des représentations au niveau fréquentiel dans les architectures neuronales offre une approche rigoureuse pour apprendre des représentations visuelles robustes à partir de données en quantité limitée.

Une étude théorique révèle les relations inhérentes entre la symétrie, le repliement spectral et la généralisation, tandis que les résultats empiriques démontrent des améliorations par rapport aux techniques de de l'état de l'art en vision par ordinateur.

Back

Purpose: To determine vision-specific and psychosocial implications of low vision among patients with low vision visiting the Low Vision Centre of the Eastern Regional Hospital in ...

Lists, Spatial Practice and Assistive Technologies for the Blind

IntroductionSupermarkets are functionally challenging environments for people with vision impairments. A supermarket is likely to house an average of 45,000 products in a median fl...

A novel unsupervised deep learning network for intelligent fault diagnosis of rotating machinery

Generally, the health conditions of rotating machinery are complicated and changeable. Meanwhile, its fault labeled information is mostly unknown. Therefore, it is man-sized to aut...

Depth-aware salient object segmentation

Object segmentation is an important task which is widely employed in many computer vision applications such as object detection, tracking, recognition, and ret...

Scale-Aware Network with Scale Equivariance

The convolutional neural network (CNN) has achieved good performance in object classification due to its inherent translation equivariance, but its scale equivariance is poor. A Sc...

Knowledge, Attitudes, and Practices of Optometrists Regarding Low Vision Services in Saudi Arabia

Purpose: To address the human resources challenge for the provision of low vision services in Saudi Arabia, this study sought to investigate the knowledge, atti...

Barriers to utilizing low vision devices among non-users with low vision: A cross-sectional study

Background: By recognizing and comprehending the obstacles that prevent low vision devices (LVDs) from being used effectively, the burden of blindness can be reduced. Objective: T...

Reorganisation of circadian activity and the pacemaker circuit under novel light regimes

Abstract Many environmental features are cyclic, with predictable daily and yearly changes which vary across latitudes. Organisms cope with such ...

Email:
Password:

Email:

Equivariance in Vision for Unsupervised Low Data Regimes

Related Results