Javascript must be enabled to continue!

Risk-Sensitive Planning in Markov Decision Processes : Distributional Perspective and Entropic Front

Gestion du risque dans les Processus de Décision Markoviens : Approche Distributionnelle et Front Entropique Les approches classiques des Processus de Décision Markoviens (MDP) se concentrent généralement sur la maximisation du retour espéré. Pourtant, de nombreuses applications du monde réel nécessitent une prise en compte du risque allant au-delà du résultat moyen. Cette thèse étudie la prise de décision séquentielle sensible au risque, visant à optimiser des fonctionnelles de la distribution des retours au-delà de la simple espérance.Un espoir a été soulevé par l'approche distributionnelle, qui permet de capturer l'intégralité de la distribution du retour. Cette approche offre, en théorie, un moyen d'aborder plus aisément des métriques de risque telles que la Value-at-Risk (VaR), la Conditional Value-at-Risk (CVaR) et la Mesure de Risque Entropique (EntRM). Cette thèse examine rigoureusement les capacités et les limites de cette approche, en étudiant quelles mesures de risque peuvent être efficacement optimisées par programmation dynamique.Malgré les promesses de la perspective distributionnelle, nous mettons en lumière des barrières théoriques fondamentales. Nous caractérisons l'ensemble des mesures de risque se prêtant à une optimisation par programmation dynamique et montrons qu'il est beaucoup plus restreint qu'on ne le supposait auparavant. En particulier, seule une classe spécifique de mesures de risque, la famille des Mesures de Risque Entropiques, peut être optimisée de manière exacte via la programmation dynamique.Cette famille s'avère cependant cruciale, car elle apparaît naturellement dans l'approximation d'autres mesures de risque importantes. Sur la base de ce constat, nous proposons un cadre d'optimisation unifié appelé DOLFIN (Distributional Optimality Front Iteration). Cette méthode exploite le spectre complet des comportements sensibles au risque offerts par la famille EntRM (le Front d'Optimalité), pour lequel nous prouvons des propriétés structurelles. Inspirés par ces propriétés, nous développons un algorithme permettant de résoudre approximativement des objectifs autrement intraitables (VaR, CVaR, Probabilités de Seuil) via le principe d'Amélioration de Politique Généralisée (Generalized Policy Improvement).Enfin, nous étudions le problème de l'apprentissage de l'EntRM sous incertitude afin de permettre une prise de décision fiable dans des environnements à la dynamique inconnue. Nous dérivons des bornes de concentration statistiques pour son estimation et fournissons la première analyse de l'apprentissage de l'EntRM pour une plage de paramètres de risque simultanément.

Agence Bibliographique de l'Enseignement Supérieur

Alexandre Marthe

2026

Title: Risk-Sensitive Planning in Markov Decision Processes : Distributional Perspective and Entropic Front

Description:

Pourtant, de nombreuses applications du monde réel nécessitent une prise en compte du risque allant au-delà du résultat moyen.

Cette thèse étudie la prise de décision séquentielle sensible au risque, visant à optimiser des fonctionnelles de la distribution des retours au-delà de la simple espérance.

Un espoir a été soulevé par l'approche distributionnelle, qui permet de capturer l'intégralité de la distribution du retour.

Cette approche offre, en théorie, un moyen d'aborder plus aisément des métriques de risque telles que la Value-at-Risk (VaR), la Conditional Value-at-Risk (CVaR) et la Mesure de Risque Entropique (EntRM).

Cette thèse examine rigoureusement les capacités et les limites de cette approche, en étudiant quelles mesures de risque peuvent être efficacement optimisées par programmation dynamique.

Malgré les promesses de la perspective distributionnelle, nous mettons en lumière des barrières théoriques fondamentales.

Nous caractérisons l'ensemble des mesures de risque se prêtant à une optimisation par programmation dynamique et montrons qu'il est beaucoup plus restreint qu'on ne le supposait auparavant.

En particulier, seule une classe spécifique de mesures de risque, la famille des Mesures de Risque Entropiques, peut être optimisée de manière exacte via la programmation dynamique.

Cette famille s'avère cependant cruciale, car elle apparaît naturellement dans l'approximation d'autres mesures de risque importantes.

Sur la base de ce constat, nous proposons un cadre d'optimisation unifié appelé DOLFIN (Distributional Optimality Front Iteration).

Cette méthode exploite le spectre complet des comportements sensibles au risque offerts par la famille EntRM (le Front d'Optimalité), pour lequel nous prouvons des propriétés structurelles.

Inspirés par ces propriétés, nous développons un algorithme permettant de résoudre approximativement des objectifs autrement intraitables (VaR, CVaR, Probabilités de Seuil) via le principe d'Amélioration de Politique Généralisée (Generalized Policy Improvement).

Enfin, nous étudions le problème de l'apprentissage de l'EntRM sous incertitude afin de permettre une prise de décision fiable dans des environnements à la dynamique inconnue.

Nous dérivons des bornes de concentration statistiques pour son estimation et fournissons la première analyse de l'apprentissage de l'EntRM pour une plage de paramètres de risque simultanément.

Back

Background Markov models are used in health research to simulate health care utilization and disease states over time. Health phenomena, however, are complex, a...

Entropic uncertainty and quantum correlations dynamics in a system of two qutrits exposed to local noisy channels

Abstract We address the dynamics of the lower bound of geometric quantum discord and quantum-memory-assisted entropic uncertainty in a two-qutrit system when expo...

Distributional Properties

Abstract This paper discusses a distinctive kind of property that I call ‘distributional’ properties, which include, for example, the property of being polka-dotted ...

Autonomy on Trial

Photo by CHUTTERSNAP on Unsplash Abstract This paper critically examines how US bioethics and health law conceptualize patient autonomy, contrasting the rights-based, individualist...

Entropic Path Sampling: Computational Protocol to Evaluate Entropic Profile along a Reaction Path

Fleeting intermediates constitute dynamically-stepwise mechanisms. They have been characterized in molecular dynamics trajectories, but whether these intermediates form a free ener...

Entropic force for quantum particles

Abstract Entropic force has been drawing the attention of theoretical physicists following E Verlinde’s work in 2011 to derive Newton’s second law and Einstein’s fie...

ANALISA PERBANDINGAN METODE CELLULAR AUTOMATA ANN DAN MARKOV UNTUK PREDIKSI TUTUPAN LAHAN DI KOTA BLITAR

ABSTRACT The development of urban areas in Blitar City, which is triggered by population growth and mobility, has caused changes in land cover, especially the reduction in rice fie...

Rodnoosjetljiv jezik na primjeru njemačkih časopisa Brigitte i Der Spiegel

On the basis of the comparative analysis of texts of the German biweekly magazine Brigitte and the weekly magazine Der Spiegel and under the presumption that gender-sensitive langu...

Email:
Password:

Email:

Risk-Sensitive Planning in Markov Decision Processes : Distributional Perspective and Entropic Front

Related Results