Javascript must be enabled to continue!

Reinforcement learning for dialogue systems optimization with user adaptation

Apprentissage par renforcement pour l’optimisation des systèmes de dialogue via l’adaptation à l’utilisateur Les systèmes d’intelligence artificielle les plus puissants utilisent désormais des modèles statistiques. Afin de construire des modèles efficaces, ces systèmes doivent collecter une quantité substantielle de données issues de l’environnement. Les assistants personnels, maisons connectées, serveurs vocaux et autres systèmes de dialogue ne font pas exception. Ces systèmes ont pour vocation d’interagir avec des humains, et pour cela, leurs données d’apprentissage se doivent d’être collectées avec ces mêmes humains. Parce que le nombre d’interactions avec une seule personne est assez faible, l’approche usuelle pour augmenter le jeu de données consiste à agréger les données de tous les utilisateurs.Une des limitations de cette approche vient du fait que, par construction, les modèles entraînés ainsi ne sont efficaces qu’avec un humain "moyen" et n’incluent pas de système d’adaptation ; cette faiblesse entraîne la restriction du service à certains groupes de personnes; Par conséquent, cela réduit l’ensemble des utilisateurs et provoque des problèmes d’inclusion. La présente thèse propose des solutions impliquant la construction de systèmes de dialogue combinant l’apprentissage par transfert et l’apprentissage parrenforcement. La thèse explore deux pistes de recherche : La première consiste à inclure un mécanisme d’adaptation dès les premières interactions avec un nouvel utilisateur. Pour ce faire, nous utilisons la connaissance accumulée avec des utilisateurs déjà connus du système. La question sous-jacente est la suivante : comment gérer l’évolution du système suite à une croissance interrompue d’utilisateurs et donc de connaissance? La première approche implique le clustering des systèmes de dialogue (chacun étant spécialisé pour un utilisateur) en fonction de leurs stratégies. Nous démontrons que la méthode améliore la qualité des dialogues en interagissant avec des modèles à base de règles et des modèles d’humains. La seconde approche propose d’inclure un mécanisme d’apprentissage par transfert dans l’exécution d’un algorithme d’apprentissage profond par renforcement, Deep Q-learning. La seconde piste avance l’idée selon laquelle les premières interactions avec un nouvel utilisateur devraient être gérées par un système de dialogue sécurisé et précautionneux avant d’utiliser un système de dialogue spécialisé. L’approche se divise en deux étapes. La première étape consiste à apprendre une stratégie sécurisée avec de l’apprentissage par renforcement. À cet effet, nous proposons un nouveau framework d’apprentissage par renforcement sous contrainte en états continus ainsi que des algorithmes les solutionnant. En particulier, nous validons, en termes de sécurité et d’efficacité, une extension de Fitted-Q pour les deux applications sous contraintes : les systèmes de dialogue et la conduite autonome. La deuxième étape implique l’utilisation de ces stratégies sécurisées lors des premières interactions avec un nouvel utilisateur ; cette méthode est une extension de l’algorithme classique d’exploration, ε-greedy.

Agence Bibliographique de l'Enseignement Supérieur

Nicolas Carrara

2026

Title: Reinforcement learning for dialogue systems optimization with user adaptation

Description:

Afin de construire des modèles efficaces, ces systèmes doivent collecter une quantité substantielle de données issues de l’environnement.

Les assistants personnels, maisons connectées, serveurs vocaux et autres systèmes de dialogue ne font pas exception.

Ces systèmes ont pour vocation d’interagir avec des humains, et pour cela, leurs données d’apprentissage se doivent d’être collectées avec ces mêmes humains.

Parce que le nombre d’interactions avec une seule personne est assez faible, l’approche usuelle pour augmenter le jeu de données consiste à agréger les données de tous les utilisateurs.

Une des limitations de cette approche vient du fait que, par construction, les modèles entraînés ainsi ne sont efficaces qu’avec un humain "moyen" et n’incluent pas de système d’adaptation ; cette faiblesse entraîne la restriction du service à certains groupes de personnes; Par conséquent, cela réduit l’ensemble des utilisateurs et provoque des problèmes d’inclusion.

La présente thèse propose des solutions impliquant la construction de systèmes de dialogue combinant l’apprentissage par transfert et l’apprentissage parrenforcement.

La thèse explore deux pistes de recherche : La première consiste à inclure un mécanisme d’adaptation dès les premières interactions avec un nouvel utilisateur.

Pour ce faire, nous utilisons la connaissance accumulée avec des utilisateurs déjà connus du système.

La question sous-jacente est la suivante : comment gérer l’évolution du système suite à une croissance interrompue d’utilisateurs et donc de connaissance? La première approche implique le clustering des systèmes de dialogue (chacun étant spécialisé pour un utilisateur) en fonction de leurs stratégies.

Nous démontrons que la méthode améliore la qualité des dialogues en interagissant avec des modèles à base de règles et des modèles d’humains.

La seconde approche propose d’inclure un mécanisme d’apprentissage par transfert dans l’exécution d’un algorithme d’apprentissage profond par renforcement, Deep Q-learning.

La seconde piste avance l’idée selon laquelle les premières interactions avec un nouvel utilisateur devraient être gérées par un système de dialogue sécurisé et précautionneux avant d’utiliser un système de dialogue spécialisé.

L’approche se divise en deux étapes.

La première étape consiste à apprendre une stratégie sécurisée avec de l’apprentissage par renforcement.

À cet effet, nous proposons un nouveau framework d’apprentissage par renforcement sous contrainte en états continus ainsi que des algorithmes les solutionnant.

En particulier, nous validons, en termes de sécurité et d’efficacité, une extension de Fitted-Q pour les deux applications sous contraintes : les systèmes de dialogue et la conduite autonome.

La deuxième étape implique l’utilisation de ces stratégies sécurisées lors des premières interactions avec un nouvel utilisateur ; cette méthode est une extension de l’algorithme classique d’exploration, ε-greedy.

Back

Many delta and coastal cities worldwide face increasing flood risk due to changing climate conditions and sea level rise. The question is how to develop measures and strategies for...

Successful coastal adaptation projects? The role of multi-lateral climate funding.

<p><strong>This thesis investigates the evaluation of climate change adaptation success of projects in coastal zones of developing countries, specifically focusing on t...

CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021

The pandemic Covid-19 currently demands teachers to be able to use technology in teaching and learning process. But in reality there are still many teachers who have not been able ...

STRENGTH OF BUTT WELDED BUTT JOINT OF REINFORCEMENT OF CLASS A500C

The paper presents the results of experimental studies of the strength of cross-shaped welded joints of types К1-Кт and К3-Рр [1] of thermomechanically hardened reinforcement of cl...

Multimodal Emotion Recognition and Human Computer Interaction for AI-Driven Mental Health Support (Preprint)

BACKGROUND Mental health has become one of the most urgent global health issues of the twenty-first century. The World Health Organization (WHO) reports tha...

Fiber reinforcement as an alternative to the compressed zone linear reinforcement and the flexible concrete elements stretched zone prestressing

Abstract The results of a numerical experiment in the framework of a theoretical study of the strength and crack resistance of the reinforced concrete beams availabl...

The Effect of Compression Reinforcement on the Shear Behavior of Concrete Beams with Hybrid Reinforcement

Abstract This study examines the impact of steel compression reinforcement on the shear behavior of concrete beams reinforced with glass fiber reinforced polymer (GFRP) bar...

Study on Scheme Optimization of bridge reinforcement increasing ratio

Abstract The bridge reinforcement methods, each method has its advantages and disadvantages. The load-bearing capacity of bridge members is controlled by the ultimat...

Email:
Password:

Email:

Reinforcement learning for dialogue systems optimization with user adaptation

Related Results