Javascript must be enabled to continue!
Implicit regularization in deep learning : a tensor perspective
View through CrossRef
Régularisation implicite en apprentissage profond par approches tensorielles
L’apprentissage profond a connu un succès remarquable au cours des dernières années dans diverses tâches de prédiction. Cependant, de nombreux résultats empiriques restent inexpliqués d’un point de vue théorique. Des pistes de recherche ont été proposées récemment pour expliquer les bonnes performances en généralisation des réseaux de neurones profonds. Parmi ces pistes, la régularisation implicite a récemment reçu un intérêt considérable : la capacité d’un réseau de neurones profond à bien généraliser sur des nouvelles données résulte d’une régularisation implicite induite par des algorithmes basés sur le gradient qui minimisent une certaine mesure de complexité en fonction des paramètres du problème. Trouver cette mesure est un véritable défi. Cette thèse suit cette ligne de recherche et est consacrée à la compréhension de la généralisation des modèles sur-paramétrés en utilisant les décompositions tensorielles. La première contribution de la thèse consiste à caractériser la régularisation implicite dans l’apprentissage profond dans le contexte de la factorisation tensorielle CP (Candecomp/Parafac) sur-paramétrés. Nous introduisons une nouvelle notion de profondeur dans le modèle tensoriel CP et étudions son effet sur l’amélioration de la convergence de la descente de gradient vers des solutions de faible rang. Alors que la régularisation implicite dans le cas de factorisation matricielle via des réseaux neuronaux linéaires favorise des solutions de faible rang avec une croissance au plus quadratique avec la profondeur du réseau, nous proposons une analyse de la dynamique de l’apprentissage montrant que l’effet de la régularisation implicite dans la factorisation profonde des tenseurs croît de manière polynomiale avec la profondeur. Ceci fournit une description fidèle du comportement expérimental observé.La deuxième contribution de cette thèse est l’analyse théorique de la régularisation implicite dans les réseaux de neurones utilisant la factorisation tensorielle de Tucker. Nous montrons que la factorisation Tucker profonde entraînée par descente de gradient induit une régularisation parcimonieuse structurée qui est accentuée par la profondeur. Ceci fournit une explication potentielle pour le biais de la descente de gradient vers dessolutions avec un rang multilinéaire faible. Nous confirmons nos résultats théoriques par des expériences numériques et donnons un nouvel aperçu du comportement de la descente de gradient dans la factorisation tensorielle profonde. Nous explorons également de nouvelles perspectives, basées sur les décompositions tensorielles, pour la mise au point de stratégies de "Fine Tuning" efficaces pour les grands modèles de langage. Nous discutons des modèles tensorisés de la méthode d’adaptation de faible rang "LoRA" et nous fournissons de nouvelles idées qui pourraient être utiles pour étudier théoriquement l’efficacité des techniques basées sur LoRA
Title: Implicit regularization in deep learning : a tensor perspective
Description:
Régularisation implicite en apprentissage profond par approches tensorielles
L’apprentissage profond a connu un succès remarquable au cours des dernières années dans diverses tâches de prédiction.
Cependant, de nombreux résultats empiriques restent inexpliqués d’un point de vue théorique.
Des pistes de recherche ont été proposées récemment pour expliquer les bonnes performances en généralisation des réseaux de neurones profonds.
Parmi ces pistes, la régularisation implicite a récemment reçu un intérêt considérable : la capacité d’un réseau de neurones profond à bien généraliser sur des nouvelles données résulte d’une régularisation implicite induite par des algorithmes basés sur le gradient qui minimisent une certaine mesure de complexité en fonction des paramètres du problème.
Trouver cette mesure est un véritable défi.
Cette thèse suit cette ligne de recherche et est consacrée à la compréhension de la généralisation des modèles sur-paramétrés en utilisant les décompositions tensorielles.
La première contribution de la thèse consiste à caractériser la régularisation implicite dans l’apprentissage profond dans le contexte de la factorisation tensorielle CP (Candecomp/Parafac) sur-paramétrés.
Nous introduisons une nouvelle notion de profondeur dans le modèle tensoriel CP et étudions son effet sur l’amélioration de la convergence de la descente de gradient vers des solutions de faible rang.
Alors que la régularisation implicite dans le cas de factorisation matricielle via des réseaux neuronaux linéaires favorise des solutions de faible rang avec une croissance au plus quadratique avec la profondeur du réseau, nous proposons une analyse de la dynamique de l’apprentissage montrant que l’effet de la régularisation implicite dans la factorisation profonde des tenseurs croît de manière polynomiale avec la profondeur.
Ceci fournit une description fidèle du comportement expérimental observé.
La deuxième contribution de cette thèse est l’analyse théorique de la régularisation implicite dans les réseaux de neurones utilisant la factorisation tensorielle de Tucker.
Nous montrons que la factorisation Tucker profonde entraînée par descente de gradient induit une régularisation parcimonieuse structurée qui est accentuée par la profondeur.
Ceci fournit une explication potentielle pour le biais de la descente de gradient vers dessolutions avec un rang multilinéaire faible.
Nous confirmons nos résultats théoriques par des expériences numériques et donnons un nouvel aperçu du comportement de la descente de gradient dans la factorisation tensorielle profonde.
Nous explorons également de nouvelles perspectives, basées sur les décompositions tensorielles, pour la mise au point de stratégies de "Fine Tuning" efficaces pour les grands modèles de langage.
Nous discutons des modèles tensorisés de la méthode d’adaptation de faible rang "LoRA" et nous fournissons de nouvelles idées qui pourraient être utiles pour étudier théoriquement l’efficacité des techniques basées sur LoRA.
Related Results
A Mixed Regularization Method for Ill-Posed Problems
A Mixed Regularization Method for Ill-Posed Problems
In this paper we propose a mixed regularization method for ill-posed problems. This method combines iterative regularization methods and continuous regularization methods effective...
Theoretical Foundations and Practical Applications in Signal Processing and Machine Learning
Theoretical Foundations and Practical Applications in Signal Processing and Machine Learning
Tensor decomposition has emerged as a powerful mathematical framework for analyzing multi-dimensional data, extending classical matrix decomposition techniques to higher-order repr...
Enhanced inherent strain modelling for powder-based metal additive manufacturing
Enhanced inherent strain modelling for powder-based metal additive manufacturing
(English) Metal additive manufacturing (MAM), particularly powder bed fusion using a laser beam (PBF-LB), has transformed manufacturing by enabling the production of intricate and ...
Gravitational Waves from Alena Tensor
Gravitational Waves from Alena Tensor
Alena Tensor is a recently discovered class of energy-momentum tensors that proposes a general equivalence of the curved path and the geodesic for the analyzed spacetimes which all...
CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021
CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021
The pandemic Covid-19 currently demands teachers to be able to use technology in teaching and learning process. But in reality there are still many teachers who have not been able ...
Harnessing Tensor Decomposition for High-Dimensional Machine Learning
Harnessing Tensor Decomposition for High-Dimensional Machine Learning
Tensor decomposition has gained significant attention in machine learning due to its ability to efficiently represent and process high-dimensional data. As a natural extension of m...
Selection of Injectable Drug Product Composition using Machine Learning Models (Preprint)
Selection of Injectable Drug Product Composition using Machine Learning Models (Preprint)
BACKGROUND
As of July 2020, a Web of Science search of “machine learning (ML)” nested within the search of “pharmacokinetics or pharmacodynamics” yielded over 100...
The Effect on The Volume and Semi Axes of a Conducting Spheroid Due to The Scaling on Its First Order Polarization Tensor
The Effect on The Volume and Semi Axes of a Conducting Spheroid Due to The Scaling on Its First Order Polarization Tensor
In order to enhance identification of objects in electrical imaging or metal detection, the polarization tensor is used to characterize the perturbation in electric or electromagne...

