Javascript must be enabled to continue!

Variance-sensitive confidence intervals for parametric and offline bandits

Intervalles de confiance sensibles à la variance : Applications aux bandits paramétriques et bandits hors ligne Cette thèse présente des contributions récentes au problème d’optimisation sous feedback bandit, au travers de la construction d’intervalles de confiance sensibles à la variance. Nous traitons deux aspects distincts du problème: (1) la minimisation du regret pour les bandits à modèle linéaire généralisé (GLBs), une large classe de bandits paramétriques non-linéaires et (2) le problème d’optimisation de politique hors ligne sous signal bandit. Concernant (1) nous étudions les effets de la non-linéarité dans les GLBs et remettons en question la compréhension actuelle selon laquelle des hauts niveaux de non-linéarité ne peuvent être que préjudiciables à l’équilibre exploration-exploitation. Des algorithmes améliorés suivis d’une nouvelle méthode d’analyse montrent que lorsque correctement manipulé, le problème de minimisation du regret dans les GLBs n’est pas nécessairement plus dur que pour leur contrepartie linéaire. Il peut même être significativement facilité pour certains membres importants de la famille GLB comme le bandit logistique. Notre approche utilise de nouveaux ensembles de confiance sensibles à la non-linéarité au travers de la variance qu’elle impose à la fonction récompense, accompagnés d’un traitement local de la non-linéarité au travers d’une analyse dite auto-concordante. Concernant (2) nous utilisons des résultats de la littérature de l’optimisation robuste afin de construire des intervalles de confiance asymptotiques sensibles à la variance pour l’évaluation contrefactuelle de politiques. Cela permet d’assurer du conservatisme (désirable pour des agents averses au risque) lors de la recherche hors-ligne de politiques prometteuses. Cet intervalle de confiance engendre de nouveaux objectifs contrefactuels qui sont plus adaptés à des applications pratiques, car convexes et de nature composites.

Agence Bibliographique de l'Enseignement Supérieur

Louis Faury

2026

Title: Variance-sensitive confidence intervals for parametric and offline bandits

Description:

Nous traitons deux aspects distincts du problème: (1) la minimisation du regret pour les bandits à modèle linéaire généralisé (GLBs), une large classe de bandits paramétriques non-linéaires et (2) le problème d’optimisation de politique hors ligne sous signal bandit.

Concernant (1) nous étudions les effets de la non-linéarité dans les GLBs et remettons en question la compréhension actuelle selon laquelle des hauts niveaux de non-linéarité ne peuvent être que préjudiciables à l’équilibre exploration-exploitation.

Des algorithmes améliorés suivis d’une nouvelle méthode d’analyse montrent que lorsque correctement manipulé, le problème de minimisation du regret dans les GLBs n’est pas nécessairement plus dur que pour leur contrepartie linéaire.

Il peut même être significativement facilité pour certains membres importants de la famille GLB comme le bandit logistique.

Notre approche utilise de nouveaux ensembles de confiance sensibles à la non-linéarité au travers de la variance qu’elle impose à la fonction récompense, accompagnés d’un traitement local de la non-linéarité au travers d’une analyse dite auto-concordante.

Concernant (2) nous utilisons des résultats de la littérature de l’optimisation robuste afin de construire des intervalles de confiance asymptotiques sensibles à la variance pour l’évaluation contrefactuelle de politiques.

Cela permet d’assurer du conservatisme (désirable pour des agents averses au risque) lors de la recherche hors-ligne de politiques prometteuses.

Cet intervalle de confiance engendre de nouveaux objectifs contrefactuels qui sont plus adaptés à des applications pratiques, car convexes et de nature composites.

Back

Related Results

Bandits Everywhere

Abstract This chapter focuses on the issue of banditry in the Southwest and White Americans' exaggerated sense that Mexicans were bandits, especially in the early tw...

Algorithms for Markovian bandits : Indexability and Learning

Des algorithmes pour les bandits markoviens : indexabilité et apprentissage Un bandit markovien est un problème de décision séquentielle dans lequel un sous-ensembl...

Privacy-Utility Trade-offs in Sequential Decision-Making under Uncertainty

Compromis entre confidentialité et utilité dans la prise de décision séquentielle dans l’incertain Les thèmes abordés dans cette thèse visent à caractériser les com...

ANALISIS SELF CONFIDENCE MAHASISWA DITINJAU DARI HASIL BELAJAR STATISTIKA DASAR PADA PEMBELAJARAN DARING

ABSTRAK Hasil belajar statistika dasar yang merupakan bagian dari matematika sangat dipengaruhi oleh kepercayaan diri atau self confidence. Pada saat pembelajaran tatap muka, self ...

A Study on the Difference in Aging Characteristics of Sensitive and Non‐Sensitive Skin

ABSTRACTBackgroundAccording to Euromonitor and T Mall data statistics from 2017 to 2022, the Chinese market for sensitive skin (SS) skincare is growing by 20% every year, and anti‐...

Trained-feature specific offline learning in an orientation detection task

AbstractIt has been suggested that sleep provides additional enhancement of visual perceptual learning (VPL) acquired before sleep, termed offline performance gains. A majority of ...

Rodnoosjetljiv jezik na primjeru njemačkih časopisa Brigitte i Der Spiegel

On the basis of the comparative analysis of texts of the German biweekly magazine Brigitte and the weekly magazine Der Spiegel and under the presumption that gender-sensitive langu...

Full Offline Well Cementing Implementation Resulting in Significant Time Savings and Improvement in Operational Efficiency

Abstract The current global low oil price environment has driven many operators to consider having a quicker and more efficient operations and reduction of the well ...

Email:
Password:

Email: