Javascript must be enabled to continue!

Rethinking statistical methods with flags

Repenser les méthodes statistiques avec des drapeaux Un drapeau est une suite strictement croissante de sous-espaces linéaires. On peut également le définir comme une suite de sous-espaces linéaires mutuellement orthogonaux, dont les dimensions forment le type. L'ensemble des drapeaux d'un même type a une structure de variété riemannienne, lisse, compacte et connexe. Aussi abstraites que ces variétés de drapeaux puissent sembler, cette thèse s'attache à démontrer qu'elles ont une véritable importance en statistiques. Les sous-espaces propres d'une matrice symétrique réelle forment un drapeau, dont le type correspond aux multiplicités des valeurs propres. Par conséquent, les variétés de drapeaux devraient naturellement intervenir dans certaines méthodes statistiques incontournables telles que l'analyse en composantes principales, qui repose justement sur la décomposition spectrale de la matrice de covariance empirique. Cependant, leur utilisation en statistiques reste aujourd'hui très limitée, au profit de variétés plus simples telles que celles de Stiefel et de Grassmann, auxquelles appartiennent respectivement les composantes principales et les sous-espaces utilisés en réduction de dimension. Une première contribution fondamentale de cette thèse est la découverte d'un nouveau type de parcimonie dans les matrices de covariance. L'étude des variétés de drapeaux nous permet de démontrer que le nombre de paramètres des matrices de covariance décroît quadratiquement avec les multiplicités des valeurs propres. En vertu du principe de parcimonie, nous montrons qu'il faudrait égaliser les valeurs propres empiriques dont la distance relative est inférieure à un certain seuil. Ce résultat a un impact important en statistiques : il implique de passer d'une analyse en composantes principales à une analyse en sous-espaces principaux, avec de nets gains en interprétabilité. Plusieurs approfondissements de notre analyse en sous-espaces principaux sont proposés. Nous reformulons notamment le choix du type du drapeau comme un problème d'optimisation sur l'espace des matrices de covariance, stratifié par les multiplicités des valeurs propres. Une relaxation semblable à un lasso sur les valeurs propres améliore nettement la rapidité de la sélection de modèle. D'autres méthodologies — telles qu'un partitionnement hiérarchique des valeurs propres et une approximation bayésienne de la vraisemblance marginale — sont également explorées. Afin d'en améliorer l'expressivité, nous étendons notre analyse en sous-espaces principaux aux modèles de mélange. L'apprentissage des paramètres par un algorithme espérance-maximisation classique rendant le problème de sélection de modèle difficile, nous en proposons une variante qui estime et regroupe automatiquement les valeurs propres. Nous obtenons des garanties théoriques sur la monotonie de la fonction objectif au cours des itérations, ce qui rend notre approche prometteuse pour l'apprentissage de modèles de mélange parcimonieux. Enfin, nous montrons que certaines méthodes de réduction de dimension souffrent d'un fléau : les représentations qu'elles produisent à différentes dimensions ne sont pas imbriquées. L'extension de notre méthodologie via un principe simple et générique — faisant intervenir de l'optimisation sur des variétés de drapeaux — permet alors d'obtenir naturellement des représentations cohérentes.

Agence Bibliographique de l'Enseignement Supérieur

Tom Szwagier

2026

Title: Rethinking statistical methods with flags

Description:

Repenser les méthodes statistiques avec des drapeaux Un drapeau est une suite strictement croissante de sous-espaces linéaires.

On peut également le définir comme une suite de sous-espaces linéaires mutuellement orthogonaux, dont les dimensions forment le type.

L'ensemble des drapeaux d'un même type a une structure de variété riemannienne, lisse, compacte et connexe.

Aussi abstraites que ces variétés de drapeaux puissent sembler, cette thèse s'attache à démontrer qu'elles ont une véritable importance en statistiques.

Les sous-espaces propres d'une matrice symétrique réelle forment un drapeau, dont le type correspond aux multiplicités des valeurs propres.

Par conséquent, les variétés de drapeaux devraient naturellement intervenir dans certaines méthodes statistiques incontournables telles que l'analyse en composantes principales, qui repose justement sur la décomposition spectrale de la matrice de covariance empirique.

Cependant, leur utilisation en statistiques reste aujourd'hui très limitée, au profit de variétés plus simples telles que celles de Stiefel et de Grassmann, auxquelles appartiennent respectivement les composantes principales et les sous-espaces utilisés en réduction de dimension.

Une première contribution fondamentale de cette thèse est la découverte d'un nouveau type de parcimonie dans les matrices de covariance.

L'étude des variétés de drapeaux nous permet de démontrer que le nombre de paramètres des matrices de covariance décroît quadratiquement avec les multiplicités des valeurs propres.

En vertu du principe de parcimonie, nous montrons qu'il faudrait égaliser les valeurs propres empiriques dont la distance relative est inférieure à un certain seuil.

Ce résultat a un impact important en statistiques : il implique de passer d'une analyse en composantes principales à une analyse en sous-espaces principaux, avec de nets gains en interprétabilité.

Plusieurs approfondissements de notre analyse en sous-espaces principaux sont proposés.

Nous reformulons notamment le choix du type du drapeau comme un problème d'optimisation sur l'espace des matrices de covariance, stratifié par les multiplicités des valeurs propres.

Une relaxation semblable à un lasso sur les valeurs propres améliore nettement la rapidité de la sélection de modèle.

D'autres méthodologies — telles qu'un partitionnement hiérarchique des valeurs propres et une approximation bayésienne de la vraisemblance marginale — sont également explorées.

Afin d'en améliorer l'expressivité, nous étendons notre analyse en sous-espaces principaux aux modèles de mélange.

L'apprentissage des paramètres par un algorithme espérance-maximisation classique rendant le problème de sélection de modèle difficile, nous en proposons une variante qui estime et regroupe automatiquement les valeurs propres.

Nous obtenons des garanties théoriques sur la monotonie de la fonction objectif au cours des itérations, ce qui rend notre approche prometteuse pour l'apprentissage de modèles de mélange parcimonieux.

Enfin, nous montrons que certaines méthodes de réduction de dimension souffrent d'un fléau : les représentations qu'elles produisent à différentes dimensions ne sont pas imbriquées.

L'extension de notre méthodologie via un principe simple et générique — faisant intervenir de l'optimisation sur des variétés de drapeaux — permet alors d'obtenir naturellement des représentations cohérentes.

Back

Abstract Background The CAPS is regarded as the “gold standard” in PTSD assessment. It is a structured interview that yields a ...

Flags of Convenience

This chapter explores the history of flags of convenience in the twentieth century - a term for the flags of countries which permitted other countries to register ships in their po...

PP18 Red Flags For The Early Diagnosis Of Rare And Complex Connective Tissue And Musculoskeletal Diseases

IntroductionIn collaboration with a European Reference Network for rare diseases, we aimed to identify red flags for the diagnosis of rare and complex connective tissue and musculo...

FAIR Digital Objects in Official Statistics

Introduction*1 Statistical offices on national and international scale provide statistics on demography, labour, income, society, economy, environment and othe...

FREQUENCY OF WBC FLAGS GENERATED BY AUTOMATED HEMATOLOGY ANALYZER IN DIAGNOSED CASES OF DENGUE INFECTION

Objective: To determine the frequency of WBC flags generated by automated hematology analyzers in cases of dengue diagnosed by serological tests. We also aim to compare the platele...

From Black-Grey-White Detention-based Lists of Flags to Black-Grey-White Casualty-based Lists of Categories of Vessels?

The Paris Memorandum of Understanding (Paris MoU) establishes each year in its annual report the traditional “Black-Grey-White” lists of flags. These tables are based on processed ...

Headache: Classification, diagnostics, and principles of treatment (literature review; description of a clinical case)

Introduction. Headache (cephalgia) is one of the most common neurological disorders and is among the 20 most disabling diseases in the world. Most cases of headaches are benign, wh...

RECURRENT FEVER IN CHILDREN – DIAGNOSTIC APPROACH AND RED FLAGS FOR SERIOUS DISEASES

Recurrent fever in children represents a diagnostically challenging and clinically heterogeneous condition that extends beyond repeated exposure to common infections. While most fe...

Email:
Password:

Email:

Rethinking statistical methods with flags

Related Results