Search engine for discovering works of Art, research articles, and books related to Art and Culture
ShareThis
Javascript must be enabled to continue!

Variance-sensitive confidence intervals for parametric and offline bandits

View through CrossRef
Intervalles de confiance sensibles à la variance : Applications aux bandits paramétriques et bandits hors ligne Cette thèse présente des contributions récentes au problème d’optimisation sous feedback bandit, au travers de la construction d’intervalles de confiance sensibles à la variance. Nous traitons deux aspects distincts du problème: (1) la minimisation du regret pour les bandits à modèle linéaire généralisé (GLBs), une large classe de bandits paramétriques non-linéaires et (2) le problème d’optimisation de politique hors ligne sous signal bandit. Concernant (1) nous étudions les effets de la non-linéarité dans les GLBs et remettons en question la compréhension actuelle selon laquelle des hauts niveaux de non-linéarité ne peuvent être que préjudiciables à l’équilibre exploration-exploitation. Des algorithmes améliorés suivis d’une nouvelle méthode d’analyse montrent que lorsque correctement manipulé, le problème de minimisation du regret dans les GLBs n’est pas nécessairement plus dur que pour leur contrepartie linéaire. Il peut même être significativement facilité pour certains membres importants de la famille GLB comme le bandit logistique. Notre approche utilise de nouveaux ensembles de confiance sensibles à la non-linéarité au travers de la variance qu’elle impose à la fonction récompense, accompagnés d’un traitement local de la non-linéarité au travers d’une analyse dite auto-concordante. Concernant (2) nous utilisons des résultats de la littérature de l’optimisation robuste afin de construire des intervalles de confiance asymptotiques sensibles à la variance pour l’évaluation contrefactuelle de politiques. Cela permet d’assurer du conservatisme (désirable pour des agents averses au risque) lors de la recherche hors-ligne de politiques prometteuses. Cet intervalle de confiance engendre de nouveaux objectifs contrefactuels qui sont plus adaptés à des applications pratiques, car convexes et de nature composites.
Agence Bibliographique de l'Enseignement Supérieur
Title: Variance-sensitive confidence intervals for parametric and offline bandits
Description:
Intervalles de confiance sensibles à la variance : Applications aux bandits paramétriques et bandits hors ligne Cette thèse présente des contributions récentes au problème d’optimisation sous feedback bandit, au travers de la construction d’intervalles de confiance sensibles à la variance.
Nous traitons deux aspects distincts du problème: (1) la minimisation du regret pour les bandits à modèle linéaire généralisé (GLBs), une large classe de bandits paramétriques non-linéaires et (2) le problème d’optimisation de politique hors ligne sous signal bandit.
Concernant (1) nous étudions les effets de la non-linéarité dans les GLBs et remettons en question la compréhension actuelle selon laquelle des hauts niveaux de non-linéarité ne peuvent être que préjudiciables à l’équilibre exploration-exploitation.
Des algorithmes améliorés suivis d’une nouvelle méthode d’analyse montrent que lorsque correctement manipulé, le problème de minimisation du regret dans les GLBs n’est pas nécessairement plus dur que pour leur contrepartie linéaire.
Il peut même être significativement facilité pour certains membres importants de la famille GLB comme le bandit logistique.
Notre approche utilise de nouveaux ensembles de confiance sensibles à la non-linéarité au travers de la variance qu’elle impose à la fonction récompense, accompagnés d’un traitement local de la non-linéarité au travers d’une analyse dite auto-concordante.
Concernant (2) nous utilisons des résultats de la littérature de l’optimisation robuste afin de construire des intervalles de confiance asymptotiques sensibles à la variance pour l’évaluation contrefactuelle de politiques.
Cela permet d’assurer du conservatisme (désirable pour des agents averses au risque) lors de la recherche hors-ligne de politiques prometteuses.
Cet intervalle de confiance engendre de nouveaux objectifs contrefactuels qui sont plus adaptés à des applications pratiques, car convexes et de nature composites.

Related Results

Bandits Everywhere
Bandits Everywhere
Abstract This chapter focuses on the issue of banditry in the Southwest and White Americans' exaggerated sense that Mexicans were bandits, especially in the early tw...
Algorithms for Markovian bandits : Indexability and Learning
Algorithms for Markovian bandits : Indexability and Learning
Des algorithmes pour les bandits markoviens : indexabilité et apprentissage Un bandit markovien est un problème de décision séquentielle dans lequel un sous-ensembl...
Privacy-Utility Trade-offs in Sequential Decision-Making under Uncertainty
Privacy-Utility Trade-offs in Sequential Decision-Making under Uncertainty
Compromis entre confidentialité et utilité dans la prise de décision séquentielle dans l’incertain Les thèmes abordés dans cette thèse visent à caractériser les com...
ANALISIS SELF CONFIDENCE MAHASISWA DITINJAU DARI HASIL BELAJAR STATISTIKA DASAR PADA PEMBELAJARAN DARING
ANALISIS SELF CONFIDENCE MAHASISWA DITINJAU DARI HASIL BELAJAR STATISTIKA DASAR PADA PEMBELAJARAN DARING
ABSTRAK Hasil belajar statistika dasar yang merupakan bagian dari matematika sangat dipengaruhi oleh kepercayaan diri atau self confidence. Pada saat pembelajaran tatap muka, self ...
A Study on the Difference in Aging Characteristics of Sensitive and Non‐Sensitive Skin
A Study on the Difference in Aging Characteristics of Sensitive and Non‐Sensitive Skin
ABSTRACTBackgroundAccording to Euromonitor and T Mall data statistics from 2017 to 2022, the Chinese market for sensitive skin (SS) skincare is growing by 20% every year, and anti‐...
Trained-feature specific offline learning in an orientation detection task
Trained-feature specific offline learning in an orientation detection task
AbstractIt has been suggested that sleep provides additional enhancement of visual perceptual learning (VPL) acquired before sleep, termed offline performance gains. A majority of ...
Rodnoosjetljiv jezik na primjeru njemačkih časopisa Brigitte i Der Spiegel
Rodnoosjetljiv jezik na primjeru njemačkih časopisa Brigitte i Der Spiegel
On the basis of the comparative analysis of texts of the German biweekly magazine Brigitte and the weekly magazine Der Spiegel and under the presumption that gender-sensitive langu...
Full Offline Well Cementing Implementation Resulting in Significant Time Savings and Improvement in Operational Efficiency
Full Offline Well Cementing Implementation Resulting in Significant Time Savings and Improvement in Operational Efficiency
Abstract The current global low oil price environment has driven many operators to consider having a quicker and more efficient operations and reduction of the well ...

Back to Top