Javascript must be enabled to continue!

Some problems in Random Matrix Theory and High-Dimensional Statistics

Quelques problèmes de matrices aléatoires et de statistiques en grande dimension Cette thèse explore certains problèmes liés aux grandes matrices aléatoires et aux statistiques en grande dimension, motivés par la nécessité d'améliorer notre compréhension de l'apprentissage profond. L'apprentissage des réseaux neuronaux profonds implique la résolution de problèmes d'optimisation non convexes, à grande échelle et en grande dimension, qui devraient être théoriquement intraitables mais sont étonnamment réalisables en pratique. Afin de comprendre ce paradoxe, nous étudions des modèles solvables qui concilient pertinence pratique et rigueur mathématique. Les matrices aléatoires et les statistiques en grande dimension jouent un rôle central dans ces travaux, en raison du grand volume de données et de la grande dimensionnalité inhérents à ces modèles. D'abord, nous considérons le modèle des "random features", un réseau neuronal à deux couches avec des poids fixes et aléatoires dans la première couche et des poids apprenables dans la deuxième. Notre étude se concentre sur le spectre asymptotique de la matrice du noyau conjuguée YY* avec Y= f(WX), où W et X sont des matrices aléatoires rectangulaires avec des entrées i.i.d., et f est une fonction d’activation non linéaire appliquée élément par élément. Nous étendons les résultats obtenus précédemment sur les distributions à queues légères pour W et X en considérant deux nouveaux contextes. Premièrement, nous étudions le cas du biais additif Y =f (WX + B), où B est une matrice aléatoire gaussienne indépendante de rang un, ce qui modélise de plus près les architectures de réseaux neuronaux rencontrées en pratique. Pour obtenir les asymptotiques de la densité spectrale empirique, nous utilisons la méthode du résolvant via l'expansion des cumulants. Deuxièmement, nous analysons le cas où W a des entrées à queues lourdes, X reste à queues légères, et f est une fonction lisse, bornée et impaire. Nous montrons que les poids à queues lourdes induisent des corrélations beaucoup plus fortes entre les entrées de Y, ce qui se traduit par un comportement spectral inédit. Cette analyse s’appuie sur la méthode des moments via la théorie des probabilités de trafic. Ensuite, nous abordons l’ACP tensorielle (analyse en composantes principales), un problème d’inférence en grande dimension qui étudie la difficulté computationnelle d’estimer un vecteur signal inconnu à partir d’observations tensorielles bruitées via le maximum de vraisemblance. L’ACP tensorielle sert de prototype pour comprendre l’optimisation non convexe en grande dimension via des méthodes basées sur le gradient. Cette compréhension peut être abordée sous deux angles : la complexité topologique du paysage d’optimisation et les dynamiques d’optimisation des méthodes du premier ordre. Concernant la complexité du paysage, nous étudions la "complexité annealed" des polynômes gaussiens aléatoires sur la sphère unitaire de dimensions N en présence de polynômes déterministes dépendant de vecteurs unitaires fixes et de paramètres externes. En utilisant la formule de Kac-Rice et les asymptotiques du déterminant pour une perturbation de rang fini des matrices de Wigner, nous dérivons des formules variationnelles pour les asymptotiques exponentielles du nombre moyen de points critiques et de maxima locaux. Concernant les dynamiques d’optimisation en grande dimension, nous analysons la descente de gradient stochastique (SGD) et le flux de gradient (GF) pour l’ACP tensorielle avec plusieurs directions cachées. Nous montrons que SGD atteint le même seuil computationnel que dans le cas r=1, mais GF nécessite plus d’échantillons pour récupérer toutes les directions. Les signaux sont récupérés via un processus d’"élimination séquentielle" où les corrélations croissent successivement selon un ordre déterminé par les conditions initiales et les rapports signal-bruit (SNR). Dans le cas matriciel (p=2), des SNR bien séparés permettent une récupération exacte, tandis que des SNR égaux mènent à la récupération du sous-espace engendré.

Agence Bibliographique de l'Enseignement Supérieur

Vanessa Piccolo

2026

Title: Some problems in Random Matrix Theory and High-Dimensional Statistics

Description:

L'apprentissage des réseaux neuronaux profonds implique la résolution de problèmes d'optimisation non convexes, à grande échelle et en grande dimension, qui devraient être théoriquement intraitables mais sont étonnamment réalisables en pratique.

Afin de comprendre ce paradoxe, nous étudions des modèles solvables qui concilient pertinence pratique et rigueur mathématique.

Les matrices aléatoires et les statistiques en grande dimension jouent un rôle central dans ces travaux, en raison du grand volume de données et de la grande dimensionnalité inhérents à ces modèles.

D'abord, nous considérons le modèle des "random features", un réseau neuronal à deux couches avec des poids fixes et aléatoires dans la première couche et des poids apprenables dans la deuxième.

Notre étude se concentre sur le spectre asymptotique de la matrice du noyau conjuguée YY* avec Y= f(WX), où W et X sont des matrices aléatoires rectangulaires avec des entrées i.

, et f est une fonction d’activation non linéaire appliquée élément par élément.

Nous étendons les résultats obtenus précédemment sur les distributions à queues légères pour W et X en considérant deux nouveaux contextes.

Premièrement, nous étudions le cas du biais additif Y =f (WX + B), où B est une matrice aléatoire gaussienne indépendante de rang un, ce qui modélise de plus près les architectures de réseaux neuronaux rencontrées en pratique.

Pour obtenir les asymptotiques de la densité spectrale empirique, nous utilisons la méthode du résolvant via l'expansion des cumulants.

Deuxièmement, nous analysons le cas où W a des entrées à queues lourdes, X reste à queues légères, et f est une fonction lisse, bornée et impaire.

Nous montrons que les poids à queues lourdes induisent des corrélations beaucoup plus fortes entre les entrées de Y, ce qui se traduit par un comportement spectral inédit.

Cette analyse s’appuie sur la méthode des moments via la théorie des probabilités de trafic.

Ensuite, nous abordons l’ACP tensorielle (analyse en composantes principales), un problème d’inférence en grande dimension qui étudie la difficulté computationnelle d’estimer un vecteur signal inconnu à partir d’observations tensorielles bruitées via le maximum de vraisemblance.

L’ACP tensorielle sert de prototype pour comprendre l’optimisation non convexe en grande dimension via des méthodes basées sur le gradient.

Cette compréhension peut être abordée sous deux angles : la complexité topologique du paysage d’optimisation et les dynamiques d’optimisation des méthodes du premier ordre.

Concernant la complexité du paysage, nous étudions la "complexité annealed" des polynômes gaussiens aléatoires sur la sphère unitaire de dimensions N en présence de polynômes déterministes dépendant de vecteurs unitaires fixes et de paramètres externes.

En utilisant la formule de Kac-Rice et les asymptotiques du déterminant pour une perturbation de rang fini des matrices de Wigner, nous dérivons des formules variationnelles pour les asymptotiques exponentielles du nombre moyen de points critiques et de maxima locaux.

Concernant les dynamiques d’optimisation en grande dimension, nous analysons la descente de gradient stochastique (SGD) et le flux de gradient (GF) pour l’ACP tensorielle avec plusieurs directions cachées.

Nous montrons que SGD atteint le même seuil computationnel que dans le cas r=1, mais GF nécessite plus d’échantillons pour récupérer toutes les directions.

Les signaux sont récupérés via un processus d’"élimination séquentielle" où les corrélations croissent successivement selon un ordre déterminé par les conditions initiales et les rapports signal-bruit (SNR).

Dans le cas matriciel (p=2), des SNR bien séparés permettent une récupération exacte, tandis que des SNR égaux mènent à la récupération du sous-espace engendré.

Back

Problem The problem addressed in this study is the anxiety experienced by graduate students toward statistics courses, which often causes students to delay taking statistics cours...

A quasi-cyclic compressed sensing delay estimation algorithm based on progressive edge-growth

Time delay estimation (TDE) is a hot research topic in wireless location technology. Compressed sensing (CS) theory has been widely applied to image reconstruction and direction of...

Novel uncertainty quantification methods for stochastic isogeometric analysis

The main objective of this study is to develop novel computational methods for general high-dimensional uncertainty quantification (UQ) with a focus on stochastic isogeometric anal...

Editorial Messages

Just as it has been continually happening in the world of mathematical sciences, the group of mathematical scientists led by (for example) Professor Eyup Cetin and his colleagues (...

Matrix Subgridding and Its Effects in Dual Porosity Simulators

Abstract Naturally fractured reservoirs are found throughout the world and contain significant amounts of oil reserves. The so-called dual porosity model is one o...

Efficiency of Steamflooding in Naturally Fractured Reservoirs

Abstract This study aims to identify the effective parameters on matrix heating and recovery, and the efficiencies of these processes while there is a continuous ...

An Algorithm for Solving Three-dimensional Assignment Problem

This article presents a algorithm for solving Three-dimensional assignment problem. Firstly, decompose the three-dimensional cubic matrix corresponding to the three-dimensional ass...

APPLICATION OF SVD METHOD IN SOLVING INCORRECT GEODESIC PROBLEMS

The most reliable method for calculating linear equations of the least squares principle, which can be used to solve incorrect geodetic problems, is based on matrix factorization, ...

Email:
Password:

Email:

Some problems in Random Matrix Theory and High-Dimensional Statistics

Related Results