Javascript must be enabled to continue!
Lexicographic refinements in possibilistic sequential decision-making models
View through CrossRef
Raffinements lexicographiques en prise de décision séquentielle possibiliste
Ce travail contribue à la théorie de la décision possibiliste et plus précisément à la prise de décision séquentielle dans le cadre de la théorie des possibilités, à la fois au niveau théorique et pratique. Bien qu'attrayante pour sa capacité à résoudre les problèmes de décision qualitatifs, la théorie de la décision possibiliste souffre d'un inconvénient important : les critères d'utilité qualitatives possibilistes comparent les actions avec les opérateurs min et max, ce qui entraîne un effet de noyade. Pour surmonter ce manque de pouvoir décisionnel, plusieurs raffinements ont été proposés dans la littérature. Les raffinements lexicographiques sont particulièrement intéressants puisqu'ils permettent de bénéficier de l'arrière-plan de l'utilité espérée, tout en restant "qualitatifs". Cependant, ces raffinements ne sont définis que pour les problèmes de décision non séquentiels. Dans cette thèse, nous présentons des résultats sur l'extension des raffinements lexicographiques aux problèmes de décision séquentiels, en particulier aux Arbres de Décision et aux Processus Décisionnels de Markov possibilistes. Cela aboutit à des nouveaux algorithmes de planification plus "décisifs" que leurs contreparties possibilistes. Dans un premier temps, nous présentons des relations de préférence lexicographiques optimistes et pessimistes entre les politiques avec et sans utilités intermédiaires, qui raffinent respectivement les utilités possibilistes optimistes et pessimistes. Nous prouvons que les critères proposés satisfont le principe de l'efficacité de Pareto ainsi que la propriété de monotonie stricte. Cette dernière garantit la possibilité d'application d'un algorithme de programmation dynamique pour calculer des politiques optimales. Nous étudions tout d'abord l'optimisation lexicographique des politiques dans les Arbres de Décision possibilistes et les Processus Décisionnels de Markov à horizon fini. Nous fournissons des adaptations de l'algorithme de programmation dynamique qui calculent une politique optimale en temps polynomial. Ces algorithmes sont basés sur la comparaison lexicographique des matrices de trajectoires associées aux sous-politiques. Ce travail algorithmique est complété par une étude expérimentale qui montre la faisabilité et l'intérêt de l'approche proposée. Ensuite, nous prouvons que les critères lexicographiques bénéficient toujours d'une fondation en termes d'utilité espérée, et qu'ils peuvent être capturés par des utilités espérées infinitésimales. La dernière partie de notre travail est consacrée à l'optimisation des politiques dans les Processus Décisionnels de Markov (éventuellement infinis) stationnaires. Nous proposons un algorithme d'itération de la valeur pour le calcul des politiques optimales lexicographiques. De plus, nous étendons ces résultats au cas de l'horizon infini. La taille des matrices augmentant exponentiellement (ce qui est particulièrement problématique dans le cas de l'horizon infini), nous proposons un algorithme d'approximation qui se limite à la partie la plus intéressante de chaque matrice de trajectoires, à savoir les premières lignes et colonnes. Enfin, nous rapportons des résultats expérimentaux qui prouvent l'efficacité des algorithmes basés sur la troncation des matrices.
Title: Lexicographic refinements in possibilistic sequential decision-making models
Description:
Raffinements lexicographiques en prise de décision séquentielle possibiliste
Ce travail contribue à la théorie de la décision possibiliste et plus précisément à la prise de décision séquentielle dans le cadre de la théorie des possibilités, à la fois au niveau théorique et pratique.
Bien qu'attrayante pour sa capacité à résoudre les problèmes de décision qualitatifs, la théorie de la décision possibiliste souffre d'un inconvénient important : les critères d'utilité qualitatives possibilistes comparent les actions avec les opérateurs min et max, ce qui entraîne un effet de noyade.
Pour surmonter ce manque de pouvoir décisionnel, plusieurs raffinements ont été proposés dans la littérature.
Les raffinements lexicographiques sont particulièrement intéressants puisqu'ils permettent de bénéficier de l'arrière-plan de l'utilité espérée, tout en restant "qualitatifs".
Cependant, ces raffinements ne sont définis que pour les problèmes de décision non séquentiels.
Dans cette thèse, nous présentons des résultats sur l'extension des raffinements lexicographiques aux problèmes de décision séquentiels, en particulier aux Arbres de Décision et aux Processus Décisionnels de Markov possibilistes.
Cela aboutit à des nouveaux algorithmes de planification plus "décisifs" que leurs contreparties possibilistes.
Dans un premier temps, nous présentons des relations de préférence lexicographiques optimistes et pessimistes entre les politiques avec et sans utilités intermédiaires, qui raffinent respectivement les utilités possibilistes optimistes et pessimistes.
Nous prouvons que les critères proposés satisfont le principe de l'efficacité de Pareto ainsi que la propriété de monotonie stricte.
Cette dernière garantit la possibilité d'application d'un algorithme de programmation dynamique pour calculer des politiques optimales.
Nous étudions tout d'abord l'optimisation lexicographique des politiques dans les Arbres de Décision possibilistes et les Processus Décisionnels de Markov à horizon fini.
Nous fournissons des adaptations de l'algorithme de programmation dynamique qui calculent une politique optimale en temps polynomial.
Ces algorithmes sont basés sur la comparaison lexicographique des matrices de trajectoires associées aux sous-politiques.
Ce travail algorithmique est complété par une étude expérimentale qui montre la faisabilité et l'intérêt de l'approche proposée.
Ensuite, nous prouvons que les critères lexicographiques bénéficient toujours d'une fondation en termes d'utilité espérée, et qu'ils peuvent être capturés par des utilités espérées infinitésimales.
La dernière partie de notre travail est consacrée à l'optimisation des politiques dans les Processus Décisionnels de Markov (éventuellement infinis) stationnaires.
Nous proposons un algorithme d'itération de la valeur pour le calcul des politiques optimales lexicographiques.
De plus, nous étendons ces résultats au cas de l'horizon infini.
La taille des matrices augmentant exponentiellement (ce qui est particulièrement problématique dans le cas de l'horizon infini), nous proposons un algorithme d'approximation qui se limite à la partie la plus intéressante de chaque matrice de trajectoires, à savoir les premières lignes et colonnes.
Enfin, nous rapportons des résultats expérimentaux qui prouvent l'efficacité des algorithmes basés sur la troncation des matrices.
Related Results
Autonomy on Trial
Autonomy on Trial
Photo by CHUTTERSNAP on Unsplash
Abstract
This paper critically examines how US bioethics and health law conceptualize patient autonomy, contrasting the rights-based, individualist...
Three-valued possibilistic networks
Three-valued possibilistic networks
Possibilistic networks are graphical models that compactly encode joint possibility distributions. This paper studies a new form of possibilistic graphical models called three-valu...
A Generalization of Possibilistic Fuzzy C-Means Method for Statistical Clustering of Data
A Generalization of Possibilistic Fuzzy C-Means Method for Statistical Clustering of Data
The Fuzzy C-means (FCM) algorithm has been widely used in the field of clustering and classification but has encountered difficulties with noisy data and outliers. Other versions o...
The biobjective multiarmed bandit: learning approximate lexicographic optimal allocations
The biobjective multiarmed bandit: learning approximate lexicographic optimal allocations
We consider a biobjective sequential decision-making problem where an allocation (arm) is called ε lexi- cographic optimal if its expected reward in the first objective is at most ...
Inferring ownership domains from refinements
Inferring ownership domains from refinements
Ownership type qualifiers clarify aliasing invariants that cannot be directly expressed in mainstream programming languages. Adding qualifiers to code, however, often involves sign...
A diffusion model analysis of transitivity and lexicographic semiorder
A diffusion model analysis of transitivity and lexicographic semiorder
The primary aim of the present dissertation is to examine the underlying cognitive processes of transitivity and lexicographic semiorders. To this end, I apply the diffusion model ...
Chronotopes of foresight: Models of time‐space in probabilistic, possibilistic and constructivist futures
Chronotopes of foresight: Models of time‐space in probabilistic, possibilistic and constructivist futures
AbstractThe concept of chronotope was introduced in the 1920s by the Russian neurophysiologist A.A. Ukhtomsky, and extensively used by Mikhail Bakhtin in his analysis of the develo...
Set-Valued Conditioning in a Possibility Theory Setting
Set-Valued Conditioning in a Possibility Theory Setting
Possibilistic logic is a well-known framework for dealing with uncertainty and reasoning under inconsistent or prioritized knowledge bases. This paper deals with conditioning uncer...

