Javascript must be enabled to continue!
Some problems in Random Matrix Theory and High-Dimensional Statistics
View through CrossRef
Quelques problèmes de matrices aléatoires et de statistiques en grande dimension
Cette thèse explore certains problèmes liés aux grandes matrices aléatoires et aux statistiques en grande dimension, motivés par la nécessité d'améliorer notre compréhension de l'apprentissage profond. L'apprentissage des réseaux neuronaux profonds implique la résolution de problèmes d'optimisation non convexes, à grande échelle et en grande dimension, qui devraient être théoriquement intraitables mais sont étonnamment réalisables en pratique. Afin de comprendre ce paradoxe, nous étudions des modèles solvables qui concilient pertinence pratique et rigueur mathématique. Les matrices aléatoires et les statistiques en grande dimension jouent un rôle central dans ces travaux, en raison du grand volume de données et de la grande dimensionnalité inhérents à ces modèles. D'abord, nous considérons le modèle des "random features", un réseau neuronal à deux couches avec des poids fixes et aléatoires dans la première couche et des poids apprenables dans la deuxième. Notre étude se concentre sur le spectre asymptotique de la matrice du noyau conjuguée YY* avec Y= f(WX), où W et X sont des matrices aléatoires rectangulaires avec des entrées i.i.d., et f est une fonction d’activation non linéaire appliquée élément par élément. Nous étendons les résultats obtenus précédemment sur les distributions à queues légères pour W et X en considérant deux nouveaux contextes. Premièrement, nous étudions le cas du biais additif Y =f (WX + B), où B est une matrice aléatoire gaussienne indépendante de rang un, ce qui modélise de plus près les architectures de réseaux neuronaux rencontrées en pratique. Pour obtenir les asymptotiques de la densité spectrale empirique, nous utilisons la méthode du résolvant via l'expansion des cumulants. Deuxièmement, nous analysons le cas où W a des entrées à queues lourdes, X reste à queues légères, et f est une fonction lisse, bornée et impaire. Nous montrons que les poids à queues lourdes induisent des corrélations beaucoup plus fortes entre les entrées de Y, ce qui se traduit par un comportement spectral inédit. Cette analyse s’appuie sur la méthode des moments via la théorie des probabilités de trafic. Ensuite, nous abordons l’ACP tensorielle (analyse en composantes principales), un problème d’inférence en grande dimension qui étudie la difficulté computationnelle d’estimer un vecteur signal inconnu à partir d’observations tensorielles bruitées via le maximum de vraisemblance. L’ACP tensorielle sert de prototype pour comprendre l’optimisation non convexe en grande dimension via des méthodes basées sur le gradient. Cette compréhension peut être abordée sous deux angles : la complexité topologique du paysage d’optimisation et les dynamiques d’optimisation des méthodes du premier ordre. Concernant la complexité du paysage, nous étudions la "complexité annealed" des polynômes gaussiens aléatoires sur la sphère unitaire de dimensions N en présence de polynômes déterministes dépendant de vecteurs unitaires fixes et de paramètres externes. En utilisant la formule de Kac-Rice et les asymptotiques du déterminant pour une perturbation de rang fini des matrices de Wigner, nous dérivons des formules variationnelles pour les asymptotiques exponentielles du nombre moyen de points critiques et de maxima locaux. Concernant les dynamiques d’optimisation en grande dimension, nous analysons la descente de gradient stochastique (SGD) et le flux de gradient (GF) pour l’ACP tensorielle avec plusieurs directions cachées. Nous montrons que SGD atteint le même seuil computationnel que dans le cas r=1, mais GF nécessite plus d’échantillons pour récupérer toutes les directions. Les signaux sont récupérés via un processus d’"élimination séquentielle" où les corrélations croissent successivement selon un ordre déterminé par les conditions initiales et les rapports signal-bruit (SNR). Dans le cas matriciel (p=2), des SNR bien séparés permettent une récupération exacte, tandis que des SNR égaux mènent à la récupération du sous-espace engendré.
Title: Some problems in Random Matrix Theory and High-Dimensional Statistics
Description:
Quelques problèmes de matrices aléatoires et de statistiques en grande dimension
Cette thèse explore certains problèmes liés aux grandes matrices aléatoires et aux statistiques en grande dimension, motivés par la nécessité d'améliorer notre compréhension de l'apprentissage profond.
L'apprentissage des réseaux neuronaux profonds implique la résolution de problèmes d'optimisation non convexes, à grande échelle et en grande dimension, qui devraient être théoriquement intraitables mais sont étonnamment réalisables en pratique.
Afin de comprendre ce paradoxe, nous étudions des modèles solvables qui concilient pertinence pratique et rigueur mathématique.
Les matrices aléatoires et les statistiques en grande dimension jouent un rôle central dans ces travaux, en raison du grand volume de données et de la grande dimensionnalité inhérents à ces modèles.
D'abord, nous considérons le modèle des "random features", un réseau neuronal à deux couches avec des poids fixes et aléatoires dans la première couche et des poids apprenables dans la deuxième.
Notre étude se concentre sur le spectre asymptotique de la matrice du noyau conjuguée YY* avec Y= f(WX), où W et X sont des matrices aléatoires rectangulaires avec des entrées i.
i.
d.
, et f est une fonction d’activation non linéaire appliquée élément par élément.
Nous étendons les résultats obtenus précédemment sur les distributions à queues légères pour W et X en considérant deux nouveaux contextes.
Premièrement, nous étudions le cas du biais additif Y =f (WX + B), où B est une matrice aléatoire gaussienne indépendante de rang un, ce qui modélise de plus près les architectures de réseaux neuronaux rencontrées en pratique.
Pour obtenir les asymptotiques de la densité spectrale empirique, nous utilisons la méthode du résolvant via l'expansion des cumulants.
Deuxièmement, nous analysons le cas où W a des entrées à queues lourdes, X reste à queues légères, et f est une fonction lisse, bornée et impaire.
Nous montrons que les poids à queues lourdes induisent des corrélations beaucoup plus fortes entre les entrées de Y, ce qui se traduit par un comportement spectral inédit.
Cette analyse s’appuie sur la méthode des moments via la théorie des probabilités de trafic.
Ensuite, nous abordons l’ACP tensorielle (analyse en composantes principales), un problème d’inférence en grande dimension qui étudie la difficulté computationnelle d’estimer un vecteur signal inconnu à partir d’observations tensorielles bruitées via le maximum de vraisemblance.
L’ACP tensorielle sert de prototype pour comprendre l’optimisation non convexe en grande dimension via des méthodes basées sur le gradient.
Cette compréhension peut être abordée sous deux angles : la complexité topologique du paysage d’optimisation et les dynamiques d’optimisation des méthodes du premier ordre.
Concernant la complexité du paysage, nous étudions la "complexité annealed" des polynômes gaussiens aléatoires sur la sphère unitaire de dimensions N en présence de polynômes déterministes dépendant de vecteurs unitaires fixes et de paramètres externes.
En utilisant la formule de Kac-Rice et les asymptotiques du déterminant pour une perturbation de rang fini des matrices de Wigner, nous dérivons des formules variationnelles pour les asymptotiques exponentielles du nombre moyen de points critiques et de maxima locaux.
Concernant les dynamiques d’optimisation en grande dimension, nous analysons la descente de gradient stochastique (SGD) et le flux de gradient (GF) pour l’ACP tensorielle avec plusieurs directions cachées.
Nous montrons que SGD atteint le même seuil computationnel que dans le cas r=1, mais GF nécessite plus d’échantillons pour récupérer toutes les directions.
Les signaux sont récupérés via un processus d’"élimination séquentielle" où les corrélations croissent successivement selon un ordre déterminé par les conditions initiales et les rapports signal-bruit (SNR).
Dans le cas matriciel (p=2), des SNR bien séparés permettent une récupération exacte, tandis que des SNR égaux mènent à la récupération du sous-espace engendré.
Related Results
Predictors of Statistics Anxiety Among Graduate Students in Saudi Arabia
Predictors of Statistics Anxiety Among Graduate Students in Saudi Arabia
Problem The problem addressed in this study is the anxiety experienced by graduate students toward statistics courses, which often causes students to delay taking statistics cours...
A quasi-cyclic compressed sensing delay estimation algorithm based on progressive edge-growth
A quasi-cyclic compressed sensing delay estimation algorithm based on progressive edge-growth
Time delay estimation (TDE) is a hot research topic in wireless location technology. Compressed sensing (CS) theory has been widely applied to image reconstruction and direction of...
Novel uncertainty quantification methods for stochastic isogeometric analysis
Novel uncertainty quantification methods for stochastic isogeometric analysis
The main objective of this study is to develop novel computational methods for general high-dimensional uncertainty quantification (UQ) with a focus on stochastic isogeometric anal...
Editorial Messages
Editorial Messages
Just as it has been continually happening in the world of mathematical sciences, the group of mathematical scientists led by (for example) Professor Eyup Cetin and his colleagues (...
Matrix Subgridding and Its Effects in Dual Porosity Simulators
Matrix Subgridding and Its Effects in Dual Porosity Simulators
Abstract
Naturally fractured reservoirs are found throughout the world and contain significant amounts of oil reserves. The so-called dual porosity model is one o...
Efficiency of Steamflooding in Naturally Fractured Reservoirs
Efficiency of Steamflooding in Naturally Fractured Reservoirs
Abstract
This study aims to identify the effective parameters on matrix heating and recovery, and the efficiencies of these processes while there is a continuous ...
An Algorithm for Solving Three-dimensional Assignment Problem
An Algorithm for Solving Three-dimensional Assignment Problem
This article presents a algorithm for solving Three-dimensional assignment problem. Firstly, decompose the three-dimensional cubic matrix corresponding to the three-dimensional ass...
APPLICATION OF SVD METHOD IN SOLVING INCORRECT GEODESIC PROBLEMS
APPLICATION OF SVD METHOD IN SOLVING INCORRECT GEODESIC PROBLEMS
The most reliable method for calculating linear equations of the least squares principle, which can be used to solve incorrect geodetic problems, is based on matrix factorization, ...

