Javascript must be enabled to continue!
Supervised learning methods for offline reinforcement learning
View through CrossRef
Méthodes d'apprentissage supervisé pour l'apprentissage par renforcement hors ligne
L'Apprentissage par Renforcement Hors Ligne (RL hors ligne) permet l'apprentissage de politiques à partir de données de trajectoires statiques sans interaction avec l'environnement, présentant des défis uniques pour l'apprentissage de représentations efficace et l'optimisation. Cette thèse examine les méthodes d'apprentissage supervisé pour le RL hors ligne, en se concentrant sur les approches de modélisation de séquences utilisant les architectures de transformeurs. Nous présentons plusieurs contributions clés qui font progresser à la fois la compréhension théorique et les performances empiriques dans ce domaine.Premièrement, nous proposons les Transformeurs de Décision Multi-Objectifs (MO-DT), qui optimisent conjointement la prédiction d'action, d'état et de retour pour encourager des motifs d'attention plus riches par rapport aux approches mono-tâche. Pour traiter la non-lissité des distributions d'actions, nous introduisons les Transformeurs de Décision à Région de Confiance (TRDT), qui augmentent les trajectoires avec des régions dans l'espace d'actions pour lisser les représentations et améliorer l'attention cross-modale. Deuxièmement, nous développons le Traducteur de Décision Guidé par Récompense (RGDT), une architecture encodeur-décodeur qui reformule le RL hors ligne comme une modélisation séquence-à-séquence, prédisant les états suivants plutôt que les actions tout en conditionnant directement sur les séquences de retours futurs.Nos contributions théoriques incluent un cadre complet basé sur l'analyse de flux de gradient modifiée qui révèle comment l'entraînement multi-tâche façonne fondamentalement les dynamiques d'optimisation. Nous prouvons que la descente de gradient encourage implicitement le désaccord entre tâches en minimisant les produits scalaires entre les gradients de tâches, l'entraînement multi-objectif introduisant une régularisation de premier ordre et l'entraînement séquentiel ajoutant des corrections de second ordre potentiellement nuisibles. De plus, nous établissons des bornes de complexité d'échantillonnage pour la modélisation de séquences en RL hors ligne, identifiant les transitions critiques entre les régimes de petites et grandes données et révélant les compromis entre l'ampleur de la couverture du contexte et la profondeur d'échantillonnage.Empiriquement, nos méthodes surpassent significativement les Transformeurs de Décision vanilla et égalent ou dépassent les références de l'état de l'art sur les benchmarks de locomotion D4RL. Nos prédictions théoriques prévoient avec précision les trajectoires d'optimisation et fournissent des principes actionnables pour concevoir des stratégies d'entraînement multi-tâche efficaces en RL hors ligne. Ensemble, ces contributions démontrent comment les approches d'apprentissage supervisé basées sur des principes peuvent efficacement aborder les défis de l'apprentissage à partir de données de trajectoires statiques.
Title: Supervised learning methods for offline reinforcement learning
Description:
Méthodes d'apprentissage supervisé pour l'apprentissage par renforcement hors ligne
L'Apprentissage par Renforcement Hors Ligne (RL hors ligne) permet l'apprentissage de politiques à partir de données de trajectoires statiques sans interaction avec l'environnement, présentant des défis uniques pour l'apprentissage de représentations efficace et l'optimisation.
Cette thèse examine les méthodes d'apprentissage supervisé pour le RL hors ligne, en se concentrant sur les approches de modélisation de séquences utilisant les architectures de transformeurs.
Nous présentons plusieurs contributions clés qui font progresser à la fois la compréhension théorique et les performances empiriques dans ce domaine.
Premièrement, nous proposons les Transformeurs de Décision Multi-Objectifs (MO-DT), qui optimisent conjointement la prédiction d'action, d'état et de retour pour encourager des motifs d'attention plus riches par rapport aux approches mono-tâche.
Pour traiter la non-lissité des distributions d'actions, nous introduisons les Transformeurs de Décision à Région de Confiance (TRDT), qui augmentent les trajectoires avec des régions dans l'espace d'actions pour lisser les représentations et améliorer l'attention cross-modale.
Deuxièmement, nous développons le Traducteur de Décision Guidé par Récompense (RGDT), une architecture encodeur-décodeur qui reformule le RL hors ligne comme une modélisation séquence-à-séquence, prédisant les états suivants plutôt que les actions tout en conditionnant directement sur les séquences de retours futurs.
Nos contributions théoriques incluent un cadre complet basé sur l'analyse de flux de gradient modifiée qui révèle comment l'entraînement multi-tâche façonne fondamentalement les dynamiques d'optimisation.
Nous prouvons que la descente de gradient encourage implicitement le désaccord entre tâches en minimisant les produits scalaires entre les gradients de tâches, l'entraînement multi-objectif introduisant une régularisation de premier ordre et l'entraînement séquentiel ajoutant des corrections de second ordre potentiellement nuisibles.
De plus, nous établissons des bornes de complexité d'échantillonnage pour la modélisation de séquences en RL hors ligne, identifiant les transitions critiques entre les régimes de petites et grandes données et révélant les compromis entre l'ampleur de la couverture du contexte et la profondeur d'échantillonnage.
Empiriquement, nos méthodes surpassent significativement les Transformeurs de Décision vanilla et égalent ou dépassent les références de l'état de l'art sur les benchmarks de locomotion D4RL.
Nos prédictions théoriques prévoient avec précision les trajectoires d'optimisation et fournissent des principes actionnables pour concevoir des stratégies d'entraînement multi-tâche efficaces en RL hors ligne.
Ensemble, ces contributions démontrent comment les approches d'apprentissage supervisé basées sur des principes peuvent efficacement aborder les défis de l'apprentissage à partir de données de trajectoires statiques.
Related Results
STRENGTH OF BUTT WELDED BUTT JOINT OF REINFORCEMENT OF CLASS A500C
STRENGTH OF BUTT WELDED BUTT JOINT OF REINFORCEMENT OF CLASS A500C
The paper presents the results of experimental studies of the strength of cross-shaped welded joints of types К1-Кт and К3-Рр [1] of thermomechanically hardened reinforcement of cl...
Offline Pre-trained Multi-agent Decision Transformer
Offline Pre-trained Multi-agent Decision Transformer
AbstractOffline reinforcement learning leverages previously collected offline datasets to learn optimal policies with no necessity to access the real environment. Such a paradigm i...
Fiber reinforcement as an alternative to the compressed zone linear reinforcement and the flexible concrete elements stretched zone prestressing
Fiber reinforcement as an alternative to the compressed zone linear reinforcement and the flexible concrete elements stretched zone prestressing
Abstract
The results of a numerical experiment in the framework of a theoretical study of the strength and crack resistance of the reinforced concrete beams availabl...
Trained-feature specific offline learning in an orientation detection task
Trained-feature specific offline learning in an orientation detection task
AbstractIt has been suggested that sleep provides additional enhancement of visual perceptual learning (VPL) acquired before sleep, termed offline performance gains. A majority of ...
The Effect of Compression Reinforcement on the Shear Behavior of Concrete Beams with Hybrid Reinforcement
The Effect of Compression Reinforcement on the Shear Behavior of Concrete Beams with Hybrid Reinforcement
Abstract
This study examines the impact of steel compression reinforcement on the shear behavior of concrete beams reinforced with glass fiber reinforced polymer (GFRP) bar...
Full Offline Well Cementing Implementation Resulting in Significant Time Savings and Improvement in Operational Efficiency
Full Offline Well Cementing Implementation Resulting in Significant Time Savings and Improvement in Operational Efficiency
Abstract
The current global low oil price environment has driven many operators to consider having a quicker and more efficient operations and reduction of the well ...
Study on Scheme Optimization of bridge reinforcement increasing ratio
Study on Scheme Optimization of bridge reinforcement increasing ratio
Abstract
The bridge reinforcement methods, each method has its advantages and disadvantages. The load-bearing capacity of bridge members is controlled by the ultimat...
The Histological Diagnosis of Breast Cancer by Employing scale invariant ResNet 18 With Spatial Supervised Technique
The Histological Diagnosis of Breast Cancer by Employing scale invariant ResNet 18 With Spatial Supervised Technique
Abstract
Background
Breast cancer is one of the most prevalent cause of morbidity and mortality in women all over the world. Hi...

