Search engine for discovering works of Art, research articles, and books related to Art and Culture
ShareThis
Javascript must be enabled to continue!

Can Deep Reinforcement Learning solve the portfolio allocation problem ?

View through CrossRef
Le Deep Reinforcement Learning peut-il résoudre le problème d'allocation de portefeuille ? Les modèles développés en théorie du portefeuille reposent principalement sur des principes statistiques et économiques. A la base, il y a un modèle. De celui-ci, en supposant les marchés financiers rationnels et sans arbitrage, on en déduit des relations. Ainsi si on part du principe de représentation du risque par ratio de Sharpe, on aboutit au portefeuille de Markowitz. Ces principes reposent sur des biais cognitifs en termes de risque (risque réduit à la variance) et sur des limitations en termes d'optimisation (optimisation quadratique). Si on souhaite s'en affranchir et appliquer des principes d'apprentissage automatique aux marchés financiers, on n'a plus besoin de faire de choix de modèle. On cherche simplement à trouver des relations entre les données sans à priori. Dans cette thèse, nous examinons la question centrale de savoir si l'apprentissage par renforcement profond (DRL) peut fournir de nouvelles méthodes d'allocation de portefeuille. Nous soutenons que le DRL offre de nouvelles méthodes reliant directement états et action et sont donc capables de s'adapter dynamiquement à un environnement changeant plus rapidement. Nous commençons par rappeler les fondements du DRL avant de revoir la question de l'allocation de portefeuille. Ceci nous permet de formuler les questions posées et adressées par cette thèse, à savoir comment utiliser des informations supplémentaires par rapport aux deux premiers moments des actifs du portefeuille et comment valider que cette approche se généralise en dehors de la période d'apprentissage. Ces travaux adressent la question de l’utilisation pratique du DRL sur données non stationnaires et fortement bruitées. Nous appliquons le DRL au cas d'allocation multi-actifs afin de cerner les points clefs de l'approche. Nous montrons empiriquement que le DRL permet de dépasser l'état de l'art des méthodes d’allocation de portefeuille et de mieux s'adapter aux conditions de marché. Le choix de l'architecture par réseaux de convolutions capture mieux la dépendance entre les données de marché et s'adapte à des changements de situation comme la crise du Covid. Nous étendons l'usage du DRL à un problème de sélection de modèles quantitatifs de ciblage de volatilité, développant ainsi une approche dite à base de modèles. Nous expliquons ensuite pourquoi l'approche DRL généralise les approches quantitatives classiques de théorie du portefeuille en étendant le problème d'optimisation à un problème de contrôle optimal multi périodes. Nous montrons que les méthodes DRL réalisent des réductions de variance et analysons le cas particulier de la méthode acteur critique en l'interprétant comme la résolution d'un problème de simulation de Monte Carlo par variable de contrôle optimal. Nous étudions aussi les similitudes entre l'apprentissage par renforcement et l'apprentissage supervisé. Nous exhibons notamment que l'apprentissage par renforcement par descente de gradient est en fait un apprentissage supervisé avec une fonction de perte d'entropie croisée et des labels égaux aux récompenses optimales. Ce résultat bien que théorique en raison de l'impossibilité de connaitre à l'avance les récompenses optimales établit un lien profond entre les deux méthodes d'apprentissage. Nous terminons cette thèse sur l'analyse de la méthode d'apprentissage des hyperparamètres par adaptation de la matrice de covariance et stratégie évolutionnaire. Grace aux lois de Wishart et Wishart inverse, conjuguées au sens Bayesien de la normale multivariée, nous établissons des formules similaires à celles trouvées empiriquement dans l'algorithme CMAES. Ceci démontre que CMAES est de façon cachée une optimisation Bayesienne par loi normale multivariée et loi conjuguée dont l'objectif de modélisation est la distribution de l'optimum. Nous concluons cette thèse en résumant nos contributions et présentons des développements futurs, que ce soit par des prolongements naturels ou des questions nouvelles que cette thèse suscite.
Agence Bibliographique de l'Enseignement Supérieur
Title: Can Deep Reinforcement Learning solve the portfolio allocation problem ?
Description:
Le Deep Reinforcement Learning peut-il résoudre le problème d'allocation de portefeuille ? Les modèles développés en théorie du portefeuille reposent principalement sur des principes statistiques et économiques.
A la base, il y a un modèle.
De celui-ci, en supposant les marchés financiers rationnels et sans arbitrage, on en déduit des relations.
Ainsi si on part du principe de représentation du risque par ratio de Sharpe, on aboutit au portefeuille de Markowitz.
Ces principes reposent sur des biais cognitifs en termes de risque (risque réduit à la variance) et sur des limitations en termes d'optimisation (optimisation quadratique).
Si on souhaite s'en affranchir et appliquer des principes d'apprentissage automatique aux marchés financiers, on n'a plus besoin de faire de choix de modèle.
On cherche simplement à trouver des relations entre les données sans à priori.
Dans cette thèse, nous examinons la question centrale de savoir si l'apprentissage par renforcement profond (DRL) peut fournir de nouvelles méthodes d'allocation de portefeuille.
Nous soutenons que le DRL offre de nouvelles méthodes reliant directement états et action et sont donc capables de s'adapter dynamiquement à un environnement changeant plus rapidement.
Nous commençons par rappeler les fondements du DRL avant de revoir la question de l'allocation de portefeuille.
Ceci nous permet de formuler les questions posées et adressées par cette thèse, à savoir comment utiliser des informations supplémentaires par rapport aux deux premiers moments des actifs du portefeuille et comment valider que cette approche se généralise en dehors de la période d'apprentissage.
Ces travaux adressent la question de l’utilisation pratique du DRL sur données non stationnaires et fortement bruitées.
Nous appliquons le DRL au cas d'allocation multi-actifs afin de cerner les points clefs de l'approche.
Nous montrons empiriquement que le DRL permet de dépasser l'état de l'art des méthodes d’allocation de portefeuille et de mieux s'adapter aux conditions de marché.
Le choix de l'architecture par réseaux de convolutions capture mieux la dépendance entre les données de marché et s'adapte à des changements de situation comme la crise du Covid.
Nous étendons l'usage du DRL à un problème de sélection de modèles quantitatifs de ciblage de volatilité, développant ainsi une approche dite à base de modèles.
Nous expliquons ensuite pourquoi l'approche DRL généralise les approches quantitatives classiques de théorie du portefeuille en étendant le problème d'optimisation à un problème de contrôle optimal multi périodes.
Nous montrons que les méthodes DRL réalisent des réductions de variance et analysons le cas particulier de la méthode acteur critique en l'interprétant comme la résolution d'un problème de simulation de Monte Carlo par variable de contrôle optimal.
Nous étudions aussi les similitudes entre l'apprentissage par renforcement et l'apprentissage supervisé.
Nous exhibons notamment que l'apprentissage par renforcement par descente de gradient est en fait un apprentissage supervisé avec une fonction de perte d'entropie croisée et des labels égaux aux récompenses optimales.
Ce résultat bien que théorique en raison de l'impossibilité de connaitre à l'avance les récompenses optimales établit un lien profond entre les deux méthodes d'apprentissage.
Nous terminons cette thèse sur l'analyse de la méthode d'apprentissage des hyperparamètres par adaptation de la matrice de covariance et stratégie évolutionnaire.
Grace aux lois de Wishart et Wishart inverse, conjuguées au sens Bayesien de la normale multivariée, nous établissons des formules similaires à celles trouvées empiriquement dans l'algorithme CMAES.
Ceci démontre que CMAES est de façon cachée une optimisation Bayesienne par loi normale multivariée et loi conjuguée dont l'objectif de modélisation est la distribution de l'optimum.
Nous concluons cette thèse en résumant nos contributions et présentons des développements futurs, que ce soit par des prolongements naturels ou des questions nouvelles que cette thèse suscite.

Related Results

STRENGTH OF BUTT WELDED BUTT JOINT OF REINFORCEMENT OF CLASS A500C
STRENGTH OF BUTT WELDED BUTT JOINT OF REINFORCEMENT OF CLASS A500C
The paper presents the results of experimental studies of the strength of cross-shaped welded joints of types К1-Кт and К3-Рр [1] of thermomechanically hardened reinforcement of cl...
CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021
CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021
The pandemic Covid-19 currently demands teachers to be able to use technology in teaching and learning process. But in reality there are still many teachers who have not been able ...
Optimizing Portfolio Management using Mean-Variance Optimization in Python
Optimizing Portfolio Management using Mean-Variance Optimization in Python
Portfolio management refers to the process of managing a collection of investments, known as a portfolio, intending to achieve optimal risk-adjusted returns. Portfolio management i...
APPROACH SELECTION METHOD FOR PROJECT PORTFOLIO MANAGEMENT AND ITS APPLICATION
APPROACH SELECTION METHOD FOR PROJECT PORTFOLIO MANAGEMENT AND ITS APPLICATION
Project portfolio management has evolved in recent decades from an empirical field to a field with advanced management technologies, including the active use of information technol...
Selection of Injectable Drug Product Composition using Machine Learning Models (Preprint)
Selection of Injectable Drug Product Composition using Machine Learning Models (Preprint)
BACKGROUND As of July 2020, a Web of Science search of “machine learning (ML)” nested within the search of “pharmacokinetics or pharmacodynamics” yielded over 100...
The Effect of Compression Reinforcement on the Shear Behavior of Concrete Beams with Hybrid Reinforcement
The Effect of Compression Reinforcement on the Shear Behavior of Concrete Beams with Hybrid Reinforcement
Abstract This study examines the impact of steel compression reinforcement on the shear behavior of concrete beams reinforced with glass fiber reinforced polymer (GFRP) bar...
Portfolio Optimisation and Screening in Low Funding Era
Portfolio Optimisation and Screening in Low Funding Era
Abstract Portfolio optimisation is the process of choosing the proportions of various assets to be held in a portfolio, in such a way as to make the best use of the ...

Back to Top