Javascript must be enabled to continue!
Constrained Exploration in Reinforcement Learning
View through CrossRef
Exploration sous contrainte dans l'apprentissage par renforcement
Une application majeure de l'apprentissage machine automatisée est la personnalisation des différents contenus recommandé à différents utilisateurs. Généralement, les algorithmes étant à la base de ces systèmes sont dit supervisé. C'est-à-dire que les données utilisées lors de la phase d'apprentissage sont supposées provenir de la même distribution. Cependant, ces données sont générées par des interactions entre un utilisateur et ces mêmes algorithmes. Ainsi, les recommandations pour un utilisateur à un instant t peuvent modifier l'ensemble des recommandations pertinentes à un instant ultérieur. Il est donc nécessaire de prendre en compte ces interactions afin de produire un service de la meilleure qualité possible. Ce type d'interaction est réminiscente du problème d'apprentissage en ligne. Parmi les algorithmes dit en ligne, les algorithmes de bandits et d'apprentissage par Renforcement (AR) semblent être les mieux positionnés afin de remplacer les méthodes d'apprentissage supervisé pour des applications nécessitant un certain degré de personnalisation. Le déploiement en production d'algorithmes d'apprentissage par Renforcement présente un certain nombre de difficultés tel que garantir un certain niveau de performance lors des phases d'exploration ou encore comment garantir la confidentialité des données collectées par ces algorithmes. Dans cette thèse nous considérons différentes contraintes freinant l’utilisation d’algorithmes d’apprentissage par renforcement, en fournissant des résultats à la fois empirique et théorique sur la vitesse d’apprentissage en présence de différentes contraintes.
Title: Constrained Exploration in Reinforcement Learning
Description:
Exploration sous contrainte dans l'apprentissage par renforcement
Une application majeure de l'apprentissage machine automatisée est la personnalisation des différents contenus recommandé à différents utilisateurs.
Généralement, les algorithmes étant à la base de ces systèmes sont dit supervisé.
C'est-à-dire que les données utilisées lors de la phase d'apprentissage sont supposées provenir de la même distribution.
Cependant, ces données sont générées par des interactions entre un utilisateur et ces mêmes algorithmes.
Ainsi, les recommandations pour un utilisateur à un instant t peuvent modifier l'ensemble des recommandations pertinentes à un instant ultérieur.
Il est donc nécessaire de prendre en compte ces interactions afin de produire un service de la meilleure qualité possible.
Ce type d'interaction est réminiscente du problème d'apprentissage en ligne.
Parmi les algorithmes dit en ligne, les algorithmes de bandits et d'apprentissage par Renforcement (AR) semblent être les mieux positionnés afin de remplacer les méthodes d'apprentissage supervisé pour des applications nécessitant un certain degré de personnalisation.
Le déploiement en production d'algorithmes d'apprentissage par Renforcement présente un certain nombre de difficultés tel que garantir un certain niveau de performance lors des phases d'exploration ou encore comment garantir la confidentialité des données collectées par ces algorithmes.
Dans cette thèse nous considérons différentes contraintes freinant l’utilisation d’algorithmes d’apprentissage par renforcement, en fournissant des résultats à la fois empirique et théorique sur la vitesse d’apprentissage en présence de différentes contraintes.
Related Results
STRENGTH OF BUTT WELDED BUTT JOINT OF REINFORCEMENT OF CLASS A500C
STRENGTH OF BUTT WELDED BUTT JOINT OF REINFORCEMENT OF CLASS A500C
The paper presents the results of experimental studies of the strength of cross-shaped welded joints of types К1-Кт and К3-Рр [1] of thermomechanically hardened reinforcement of cl...
CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021
CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021
The pandemic Covid-19 currently demands teachers to be able to use technology in teaching and learning process. But in reality there are still many teachers who have not been able ...
Fiber reinforcement as an alternative to the compressed zone linear reinforcement and the flexible concrete elements stretched zone prestressing
Fiber reinforcement as an alternative to the compressed zone linear reinforcement and the flexible concrete elements stretched zone prestressing
Abstract
The results of a numerical experiment in the framework of a theoretical study of the strength and crack resistance of the reinforced concrete beams availabl...
The Effect of Compression Reinforcement on the Shear Behavior of Concrete Beams with Hybrid Reinforcement
The Effect of Compression Reinforcement on the Shear Behavior of Concrete Beams with Hybrid Reinforcement
Abstract
This study examines the impact of steel compression reinforcement on the shear behavior of concrete beams reinforced with glass fiber reinforced polymer (GFRP) bar...
Study on Scheme Optimization of bridge reinforcement increasing ratio
Study on Scheme Optimization of bridge reinforcement increasing ratio
Abstract
The bridge reinforcement methods, each method has its advantages and disadvantages. The load-bearing capacity of bridge members is controlled by the ultimat...
Particle swarm optimization based multi-task parallel reinforcementlearning algorithm
Particle swarm optimization based multi-task parallel reinforcementlearning algorithm
Transfer learning has been identified as conducive to improving the speed of machine learning in many areas. In multi-task reinforcement learning, transfer learning can assist the ...
PERENCANAAN HOTEL BERBINTANG 6 LANTAI DI KABUPATEN CIANJUR
PERENCANAAN HOTEL BERBINTANG 6 LANTAI DI KABUPATEN CIANJUR
ABSTRACTCianjur is a city in Indonesia that has a tourist destination. This causes many people from outside the city to come for a vacation in Cianjur district. The increasing popu...
Dopamine regulates decision thresholds in human reinforcement learning
Dopamine regulates decision thresholds in human reinforcement learning
Abstract
Dopamine fundamentally contributes to reinforcement learning by encoding prediction errors, deviations of an outcome from expectation. Prediction error cod...

