Javascript must be enabled to continue!
Non-parametric algorithms for multi-armed bandits
View through CrossRef
Algorithmes non-paramétriques pour bandits multi-bras
Un bandit est un problème d'apprentissage dans lequel un agent choisit séquentiellement de tester une action parmi un ensemble de candidats fixé, collecte une récompense, et met en place une stratégie dans le but de maximiser son gain cumulé. Motivés par une étude de cas dans le domaine de l'agriculture, nous abordons dans cette thèse plusieurs problématiques pertinentes pour les applications réelles des bandits.La première question que nous considérons concerne les hypothèses faites sur les distribution des récompenses. Alors qu'en théorie il est généralement commode de considérer des hypothèses paramétriques simples (par exemples, des distributions gaussiennes), le practicien peut avoir des difficultés à trouver le bon modèle adapté à son problème. Pour cette raison, nous étudions deux familles d'algorithmes non-paramétriques, dans la mesure où ils ne nécessitent pas d'hypothèses paramétriques fortes sur les distributions pour leur implémentation. Nous montrons que ces deux approches peuvent obtenir de bonnes garanties théoriques pour le problème de bandits usuel, tout en utilisant moins d'hypothèses que les méthodes précédemment proposées.Nous proposons ensuite différentes extensions de ces algorithmes afin de faciliter leur miseen pratique. La deuxième question principalement étudiée dans nos travaux concerne la prise en compte de critères de performance alternatifs à l'espérance des récompenses cumulées, qui pourraient potentiellement mieux refléter les préférences réelles du practicien. Nous proposons notamment des algorithmes sensibles au risque, pour des problèmes dans lesquels l'objectif est d'identifier un bras peu risqué selon une mesure: la Conditional-Value-at-Risk. Nous proposons également des algorithmes efficaces pour un problème analogue au cas limite du précédent, appelé Bandits Extrêmes. Enfin, nous adaptons nos méthodes pour traiter des variantes usuelles du problème de bandit, avec notamment le cas de récompenses non-stationnaires et un exemple où les données sont collectées dans des groupes d'observations et non dans un cadre purement séquentiel.
Title: Non-parametric algorithms for multi-armed bandits
Description:
Algorithmes non-paramétriques pour bandits multi-bras
Un bandit est un problème d'apprentissage dans lequel un agent choisit séquentiellement de tester une action parmi un ensemble de candidats fixé, collecte une récompense, et met en place une stratégie dans le but de maximiser son gain cumulé.
Motivés par une étude de cas dans le domaine de l'agriculture, nous abordons dans cette thèse plusieurs problématiques pertinentes pour les applications réelles des bandits.
La première question que nous considérons concerne les hypothèses faites sur les distribution des récompenses.
Alors qu'en théorie il est généralement commode de considérer des hypothèses paramétriques simples (par exemples, des distributions gaussiennes), le practicien peut avoir des difficultés à trouver le bon modèle adapté à son problème.
Pour cette raison, nous étudions deux familles d'algorithmes non-paramétriques, dans la mesure où ils ne nécessitent pas d'hypothèses paramétriques fortes sur les distributions pour leur implémentation.
Nous montrons que ces deux approches peuvent obtenir de bonnes garanties théoriques pour le problème de bandits usuel, tout en utilisant moins d'hypothèses que les méthodes précédemment proposées.
Nous proposons ensuite différentes extensions de ces algorithmes afin de faciliter leur miseen pratique.
La deuxième question principalement étudiée dans nos travaux concerne la prise en compte de critères de performance alternatifs à l'espérance des récompenses cumulées, qui pourraient potentiellement mieux refléter les préférences réelles du practicien.
Nous proposons notamment des algorithmes sensibles au risque, pour des problèmes dans lesquels l'objectif est d'identifier un bras peu risqué selon une mesure: la Conditional-Value-at-Risk.
Nous proposons également des algorithmes efficaces pour un problème analogue au cas limite du précédent, appelé Bandits Extrêmes.
Enfin, nous adaptons nos méthodes pour traiter des variantes usuelles du problème de bandit, avec notamment le cas de récompenses non-stationnaires et un exemple où les données sont collectées dans des groupes d'observations et non dans un cadre purement séquentiel.
Related Results
Algorithms for Markovian bandits : Indexability and Learning
Algorithms for Markovian bandits : Indexability and Learning
Des algorithmes pour les bandits markoviens : indexabilité et apprentissage
Un bandit markovien est un problème de décision séquentielle dans lequel un sous-ensembl...
Bandits Everywhere
Bandits Everywhere
Abstract
This chapter focuses on the issue of banditry in the Southwest and White Americans' exaggerated sense that Mexicans were bandits, especially in the early tw...
Privacy-Utility Trade-offs in Sequential Decision-Making under Uncertainty
Privacy-Utility Trade-offs in Sequential Decision-Making under Uncertainty
Compromis entre confidentialité et utilité dans la prise de décision séquentielle dans l’incertain
Les thèmes abordés dans cette thèse visent à caractériser les com...
ARMED EXTORTION IN LIGHT OF THE PRINCIPLE OF CRIMINAL LEGALITY
ARMED EXTORTION IN LIGHT OF THE PRINCIPLE OF CRIMINAL LEGALITY
Furthermore, the DRC's military courts and tribunals fail to respect the principle of legality of offenses and penalties, in that they conflate the offense of armed robbery with th...
Formation of a hierarchy of doctrinal documents in the Armed Forces of Ukraine as an element of the stability of the management system
Formation of a hierarchy of doctrinal documents in the Armed Forces of Ukraine as an element of the stability of the management system
The modern conditions of conducting armed struggle require the search for rational ways and means of maintaining the necessary level of combat effectiveness of the Armed Forces of ...
Variance-sensitive confidence intervals for parametric and offline bandits
Variance-sensitive confidence intervals for parametric and offline bandits
Intervalles de confiance sensibles à la variance : Applications aux bandits paramétriques et bandits hors ligne
Cette thèse présente des contributions récentes au p...
Online Learning with Survival Data
Online Learning with Survival Data
Decision-makers frequently utilize adaptive experiments to optimize time-to-event outcomes, such as accelerating healthcare screenings or delaying customer churn. Traditional multi...
Contextual Bandits with Fairness Constraints for Personalized Ad Delivery at Scale
Contextual Bandits with Fairness Constraints for Personalized Ad Delivery at Scale
Personalized advertising has emerged as a dominant paradigm in digital marketing, leveraging online learning algorithms to optimize ad placement decisions in real-time. Contextual ...

