Javascript must be enabled to continue!

Structuring visual representations to improve generalization in self-supervised learning

Structuration de représentations visuelles pour améliorer la généralisation en apprentissage auto-supervisé L'apprentissage de représentations est devenu un pilier central de l'intelligence artificielle moderne, jouant un rôle clé dans les avancées récentes de domaines tels que la vision par ordinateur et le traitement du langage naturel. Avec l'intérêt croissant pour l'apprentissage auto-supervisé, où les modèles apprennent de manière autonome à partir de données brutes sans supervision humaine, l'apprentissage des représentations est devenu encore plus important. Il permet de donner un sens à ces données brutes en en extrayant des caractéristiques pertinentes. De plus, ce cadre autonome favorise l'apprentissage de représentations plus générales grâce à l'absence d'une labellisation spécifique — ce qui les rend agnostiques aux tâches aval — tout en tirant parti des grandes quantités de données brutes disponibles. Néanmoins, la difficulté réside dans la recherche d'un signal de supervision, accessible uniquement à partir des données d'entrée, mais suffisamment pertinent pour structurer des représentations générales offrant de bonnes performances sur les tâches aval. Les méthodes récentes d'apprentissage auto-supervisé de représentations visuelles utilisent comme supervision des tâches prétextes de discrimination d'instances, qui ont démontré un fort potentiel pour générer des représentations riches, réutilisables et transférables à un large éventail de tâches aval, surpassant parfois même les approches supervisées. Le principe de discrimination d'instances repose sur l'idée que des entrées similaires doivent être projetées vers des points similaires dans l’espace des représentations. En pratique, cela est généralement réalisé grâce à une architecture siamoise, qui traite deux vues augmentées d’une même entrée à travers des réseaux identiques. Ces vues sont générées de manière auto-supervisée en appliquant des transformations — aussi appelées augmentations — sur une même image, produisant des paires sémantiquement similaires mais visuellement distinctes. La tâche prétexte vise ensuite à aligner les sorties des deux vues, encourageant le réseau à construire des représentations invariantes aux augmentations, mettant ainsi l’accent sur l'apprentissage des motifs visuels partagés entre les vues. Cet apprentissage, fondé sur une tâche prétexte visant à capturer une invariance, se distingue des méthodes historiques, telles que celles basées sur la reconstruction, qui cherchent à reconstruire une image à partir de sa représentation. En effet, la discrimination d'instances se focalise sur un objectif orienté structure, et le succès de ces approches met en évidence l'importance d'explorer les propriétés structurelles des représentations apprises, non pas uniquement comme un outil pratique pour concevoir des tâches prétextes, mais comme une façon directe pour améliorer leur qualité. Cette thèse s'inscrit dans cette perspective en explorant comment la structure des représentations — notamment l'invariance, la sensibilité et l'équivariance — peut être exploitée pour améliorer la généralisation dans l'apprentissage des représentations visuelles. Cette problématique est abordée à travers des sous-questions spécifiques, chacune liée à une contribution de la thèse. Ces sous-questions examinent la structure via divers moyens, tels que la modification de la distribution des données, l'ajout d'aspects variationnels, l'utilisation de l'équivariance, ou encore la corrélations entre performances et sous-propriétés structurelles. Ces travaux ont ainsi permis de mettre en lumière que la structure des représentations joue un rôle important dans la généralisation et montrent donc qu'elle constitue donc un levier efficace pour améliorer les performances.

Agence Bibliographique de l'Enseignement Supérieur

Alexandre Devillers

2026

Title: Structuring visual representations to improve generalization in self-supervised learning

Description:

Avec l'intérêt croissant pour l'apprentissage auto-supervisé, où les modèles apprennent de manière autonome à partir de données brutes sans supervision humaine, l'apprentissage des représentations est devenu encore plus important.

Il permet de donner un sens à ces données brutes en en extrayant des caractéristiques pertinentes.

De plus, ce cadre autonome favorise l'apprentissage de représentations plus générales grâce à l'absence d'une labellisation spécifique — ce qui les rend agnostiques aux tâches aval — tout en tirant parti des grandes quantités de données brutes disponibles.

Néanmoins, la difficulté réside dans la recherche d'un signal de supervision, accessible uniquement à partir des données d'entrée, mais suffisamment pertinent pour structurer des représentations générales offrant de bonnes performances sur les tâches aval.

Les méthodes récentes d'apprentissage auto-supervisé de représentations visuelles utilisent comme supervision des tâches prétextes de discrimination d'instances, qui ont démontré un fort potentiel pour générer des représentations riches, réutilisables et transférables à un large éventail de tâches aval, surpassant parfois même les approches supervisées.

Le principe de discrimination d'instances repose sur l'idée que des entrées similaires doivent être projetées vers des points similaires dans l’espace des représentations.

En pratique, cela est généralement réalisé grâce à une architecture siamoise, qui traite deux vues augmentées d’une même entrée à travers des réseaux identiques.

Ces vues sont générées de manière auto-supervisée en appliquant des transformations — aussi appelées augmentations — sur une même image, produisant des paires sémantiquement similaires mais visuellement distinctes.

La tâche prétexte vise ensuite à aligner les sorties des deux vues, encourageant le réseau à construire des représentations invariantes aux augmentations, mettant ainsi l’accent sur l'apprentissage des motifs visuels partagés entre les vues.

Cet apprentissage, fondé sur une tâche prétexte visant à capturer une invariance, se distingue des méthodes historiques, telles que celles basées sur la reconstruction, qui cherchent à reconstruire une image à partir de sa représentation.

En effet, la discrimination d'instances se focalise sur un objectif orienté structure, et le succès de ces approches met en évidence l'importance d'explorer les propriétés structurelles des représentations apprises, non pas uniquement comme un outil pratique pour concevoir des tâches prétextes, mais comme une façon directe pour améliorer leur qualité.

Cette thèse s'inscrit dans cette perspective en explorant comment la structure des représentations — notamment l'invariance, la sensibilité et l'équivariance — peut être exploitée pour améliorer la généralisation dans l'apprentissage des représentations visuelles.

Cette problématique est abordée à travers des sous-questions spécifiques, chacune liée à une contribution de la thèse.

Ces sous-questions examinent la structure via divers moyens, tels que la modification de la distribution des données, l'ajout d'aspects variationnels, l'utilisation de l'équivariance, ou encore la corrélations entre performances et sous-propriétés structurelles.

Ces travaux ont ainsi permis de mettre en lumière que la structure des représentations joue un rôle important dans la généralisation et montrent donc qu'elle constitue donc un levier efficace pour améliorer les performances.

Back

Data becomes something of a mirror in which people see themselves reflected. (Sorapure 270)In a 2014 essay for The New Yorker, the humourist David Sedaris recounts an obsession spu...

CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021

The pandemic Covid-19 currently demands teachers to be able to use technology in teaching and learning process. But in reality there are still many teachers who have not been able ...

THE ‘PARENT’ IN THE PARENTING STYLE: A CORRELATIONAL STUDY EXPLORING THE IMPACT OF PARENTING ON SELF-CONCEPT OF THE ADOLESCENT (Preprint)

BACKGROUND The present research attempts to explore the dynamics of parent child relationship. The investigation aims at understanding the impact of parenti...

The Histological Diagnosis of Breast Cancer by Employing scale invariant ResNet 18 With Spatial Supervised Technique

Abstract Background Breast cancer is one of the most prevalent cause of morbidity and mortality in women all over the world. Hi...

Self-Supervised Contrastive Representation Learning in Computer Vision

Although its origins date a few decades back, contrastive learning has recently gained popularity due to its achievements in self-supervised learning, especially in computer vision...

Heart Block Identification from 12-Lead ECG: Exploring the Generalizability of Self-Supervised AI

Abstract Timely diagnosis and treatment of heart blocks are critical for preventing fatal outcomes in patients with cardiac conduction disorders. Expert analysis of...

Selection of Injectable Drug Product Composition using Machine Learning Models (Preprint)

BACKGROUND As of July 2020, a Web of Science search of “machine learning (ML)” nested within the search of “pharmacokinetics or pharmacodynamics” yielded over 100...

Meta-Representations as Representations of Processes

In this study, we explore how the notion of meta-representations in Higher-Order Theories (HOT) of consciousness can be implemented in computational models. HOT suggests that consc...

Email:
Password:

Email:

Structuring visual representations to improve generalization in self-supervised learning

Related Results