Javascript must be enabled to continue!
Rethinking statistical methods with flags
View through CrossRef
Repenser les méthodes statistiques avec des drapeaux
Un drapeau est une suite strictement croissante de sous-espaces linéaires. On peut également le définir comme une suite de sous-espaces linéaires mutuellement orthogonaux, dont les dimensions forment le type. L'ensemble des drapeaux d'un même type a une structure de variété riemannienne, lisse, compacte et connexe. Aussi abstraites que ces variétés de drapeaux puissent sembler, cette thèse s'attache à démontrer qu'elles ont une véritable importance en statistiques. Les sous-espaces propres d'une matrice symétrique réelle forment un drapeau, dont le type correspond aux multiplicités des valeurs propres. Par conséquent, les variétés de drapeaux devraient naturellement intervenir dans certaines méthodes statistiques incontournables telles que l'analyse en composantes principales, qui repose justement sur la décomposition spectrale de la matrice de covariance empirique. Cependant, leur utilisation en statistiques reste aujourd'hui très limitée, au profit de variétés plus simples telles que celles de Stiefel et de Grassmann, auxquelles appartiennent respectivement les composantes principales et les sous-espaces utilisés en réduction de dimension. Une première contribution fondamentale de cette thèse est la découverte d'un nouveau type de parcimonie dans les matrices de covariance. L'étude des variétés de drapeaux nous permet de démontrer que le nombre de paramètres des matrices de covariance décroît quadratiquement avec les multiplicités des valeurs propres. En vertu du principe de parcimonie, nous montrons qu'il faudrait égaliser les valeurs propres empiriques dont la distance relative est inférieure à un certain seuil. Ce résultat a un impact important en statistiques : il implique de passer d'une analyse en composantes principales à une analyse en sous-espaces principaux, avec de nets gains en interprétabilité. Plusieurs approfondissements de notre analyse en sous-espaces principaux sont proposés. Nous reformulons notamment le choix du type du drapeau comme un problème d'optimisation sur l'espace des matrices de covariance, stratifié par les multiplicités des valeurs propres. Une relaxation semblable à un lasso sur les valeurs propres améliore nettement la rapidité de la sélection de modèle. D'autres méthodologies — telles qu'un partitionnement hiérarchique des valeurs propres et une approximation bayésienne de la vraisemblance marginale — sont également explorées. Afin d'en améliorer l'expressivité, nous étendons notre analyse en sous-espaces principaux aux modèles de mélange. L'apprentissage des paramètres par un algorithme espérance-maximisation classique rendant le problème de sélection de modèle difficile, nous en proposons une variante qui estime et regroupe automatiquement les valeurs propres. Nous obtenons des garanties théoriques sur la monotonie de la fonction objectif au cours des itérations, ce qui rend notre approche prometteuse pour l'apprentissage de modèles de mélange parcimonieux. Enfin, nous montrons que certaines méthodes de réduction de dimension souffrent d'un fléau : les représentations qu'elles produisent à différentes dimensions ne sont pas imbriquées. L'extension de notre méthodologie via un principe simple et générique — faisant intervenir de l'optimisation sur des variétés de drapeaux — permet alors d'obtenir naturellement des représentations cohérentes.
Title: Rethinking statistical methods with flags
Description:
Repenser les méthodes statistiques avec des drapeaux
Un drapeau est une suite strictement croissante de sous-espaces linéaires.
On peut également le définir comme une suite de sous-espaces linéaires mutuellement orthogonaux, dont les dimensions forment le type.
L'ensemble des drapeaux d'un même type a une structure de variété riemannienne, lisse, compacte et connexe.
Aussi abstraites que ces variétés de drapeaux puissent sembler, cette thèse s'attache à démontrer qu'elles ont une véritable importance en statistiques.
Les sous-espaces propres d'une matrice symétrique réelle forment un drapeau, dont le type correspond aux multiplicités des valeurs propres.
Par conséquent, les variétés de drapeaux devraient naturellement intervenir dans certaines méthodes statistiques incontournables telles que l'analyse en composantes principales, qui repose justement sur la décomposition spectrale de la matrice de covariance empirique.
Cependant, leur utilisation en statistiques reste aujourd'hui très limitée, au profit de variétés plus simples telles que celles de Stiefel et de Grassmann, auxquelles appartiennent respectivement les composantes principales et les sous-espaces utilisés en réduction de dimension.
Une première contribution fondamentale de cette thèse est la découverte d'un nouveau type de parcimonie dans les matrices de covariance.
L'étude des variétés de drapeaux nous permet de démontrer que le nombre de paramètres des matrices de covariance décroît quadratiquement avec les multiplicités des valeurs propres.
En vertu du principe de parcimonie, nous montrons qu'il faudrait égaliser les valeurs propres empiriques dont la distance relative est inférieure à un certain seuil.
Ce résultat a un impact important en statistiques : il implique de passer d'une analyse en composantes principales à une analyse en sous-espaces principaux, avec de nets gains en interprétabilité.
Plusieurs approfondissements de notre analyse en sous-espaces principaux sont proposés.
Nous reformulons notamment le choix du type du drapeau comme un problème d'optimisation sur l'espace des matrices de covariance, stratifié par les multiplicités des valeurs propres.
Une relaxation semblable à un lasso sur les valeurs propres améliore nettement la rapidité de la sélection de modèle.
D'autres méthodologies — telles qu'un partitionnement hiérarchique des valeurs propres et une approximation bayésienne de la vraisemblance marginale — sont également explorées.
Afin d'en améliorer l'expressivité, nous étendons notre analyse en sous-espaces principaux aux modèles de mélange.
L'apprentissage des paramètres par un algorithme espérance-maximisation classique rendant le problème de sélection de modèle difficile, nous en proposons une variante qui estime et regroupe automatiquement les valeurs propres.
Nous obtenons des garanties théoriques sur la monotonie de la fonction objectif au cours des itérations, ce qui rend notre approche prometteuse pour l'apprentissage de modèles de mélange parcimonieux.
Enfin, nous montrons que certaines méthodes de réduction de dimension souffrent d'un fléau : les représentations qu'elles produisent à différentes dimensions ne sont pas imbriquées.
L'extension de notre méthodologie via un principe simple et générique — faisant intervenir de l'optimisation sur des variétés de drapeaux — permet alors d'obtenir naturellement des représentations cohérentes.
Related Results
Scoring consistency checks for the Clinician Administered PTSD Scale (CAPS-IV & CAPS-V)
Scoring consistency checks for the Clinician Administered PTSD Scale (CAPS-IV & CAPS-V)
Abstract
Background
The CAPS is regarded as the “gold standard” in PTSD assessment. It is a structured interview that yields a ...
Flags of Convenience
Flags of Convenience
This chapter explores the history of flags of convenience in the twentieth century - a term for the flags of countries which permitted other countries to register ships in their po...
From Black-Grey-White Detention-based Lists of Flags to Black-Grey-White Casualty-based Lists of Categories of Vessels?
From Black-Grey-White Detention-based Lists of Flags to Black-Grey-White Casualty-based Lists of Categories of Vessels?
The Paris Memorandum of Understanding (Paris MoU) establishes each year in its annual report the traditional “Black-Grey-White” lists of flags. These tables are based on processed ...
Trends in statistical methods in articles published in Archives of Plastic Surgery between 2012 and 2017
Trends in statistical methods in articles published in Archives of Plastic Surgery between 2012 and 2017
This review article presents an assessment of trends in statistical methods and an evaluation of their appropriateness in articles published in the Archives of Plastic Surgery (APS...
Headache: Classification, diagnostics, and principles of treatment (literature review; description of a clinical case)
Headache: Classification, diagnostics, and principles of treatment (literature review; description of a clinical case)
Introduction. Headache (cephalgia) is one of the most common neurological disorders and is among the 20 most disabling diseases in the world. Most cases of headaches are benign, wh...
Artificial intelligence VS human mind
Artificial intelligence VS human mind
In this scientific work, the author briefly analyzes some current problems of philosophical rethinking of the relationship between artificial intelligence and the human mind. To do...
RECURRENT FEVER IN CHILDREN – DIAGNOSTIC APPROACH AND RED FLAGS FOR SERIOUS DISEASES
RECURRENT FEVER IN CHILDREN – DIAGNOSTIC APPROACH AND RED FLAGS FOR SERIOUS DISEASES
Recurrent fever in children represents a diagnostically challenging and clinically heterogeneous condition that extends beyond repeated exposure to common infections. While most fe...
Rethinking Schubert
Rethinking Schubert
Abstract
Rethinking Schubert brings together twenty-two essays by some of today’s leading Schubert scholars with the aim of re-evaluating the analysis and interpreta...

