Javascript must be enabled to continue!

Question Answering with Hybrid Data and Models

Question-réponse utilisant des données et modèles hybrides La recherche de réponses à des questions relève de deux disciplines : le traitement du langage naturel et la recherche d’information. L’émergence de l’apprentissage profond dans plusieurs domaines de recherche tels que la vision par ordinateur, le traitement du langage naturel etc. a conduit à l’émergence de modèles de bout en bout. Les travaux actuels de l’état de l’art en question-réponse (QR) visent à mettre en oeuvre de tels modèles. Dans le cadre du projet GoASQ, l’objectif est d’étudier, comparer et combiner différentes approches pour répondre à des questions formulées en langage naturel sur des données textuelles, en domaine ouvert et en domaine biomédical. Ce travail se concentre principalement sur 1) la construction de modèles permettant de traiter des ensembles de données à petite et à grande échelle, et 2) l’exploitation de connaissances sémantiques pour répondre aux questions par leur intégration dans les différents modèles. Nous visons à fusionner des connaissances issues de textes libres, d’ontologies, de représentations d’entités, etc. Afin de faciliter l’utilisation des modèles neuronaux sur des données de domaine de spécialité, nous nous plaçons dans le cadre de l’adaptation de domaine. Nous avons proposé deux modèles de tâches de QR différents, évalués sur la tâche BIOASQ de réponse à des questions biomédicales. Nous montrons par nos résultats expérimentaux que le modèle de QR ouvert convient mieux qu’une modélisation de type Compréhension machine. Nous pré-entrainons le modèle de Compréhension machine, qui sert de base à notre modèle, sur différents ensembles de données pour montrer la variabilité des performances. Nous constatons que l’utilisation d’un ensemble de données particulier pour le pré-entraînement donne les meilleurs résultats lors du test et qu’une combinaison de quatre jeux de données donne les meilleurs résultats lors de l’adaptation au domaine biomédical. Nous avons testé des modèles de langage à grande échelle, comme BERT, qui sont adaptés à la tâche de réponse aux questions. Les performances varient en fonction du type des données utilisées pour pré-entrainer BERT. Ainsi, le modèle de langue appris sur des données biomédicales, BIOBERT, constitue le meilleur choix pour le QR biomédical. Les modèles d’apprentissage profond visent à fonctionner de bout en bout. Les informations sémantiques provenant de sources de connaissances construites par des experts n’y sont généralement pas introduites. Nous avons annoté manuellement et automatiquement un jeu de données par les variantes des réponses de BIOASQ et montré l’importance d’apprendre un modèle de QR avec ces variantes. Ces types sont ensuite utilisés pour mettre en évidence les entités dans les jeux de données, ce qui montre des améliorations sur l’état de l’art. Par ailleurs l’exploitation de représentations vectorielles d’entités dans les modèles se montre positif pour le domaine ouvert. Nous faisons l’hypothèse que les résultats obtenus à partir de modèles d’apprentissage profond peuvent être encore améliorés en utilisant des traits sémantiques et des traits collectifs calculés à partir des différents paragraphes sélectionnés pour répondre à une question. Nous utilisons des modèles de classification binaires pour améliorer la prédiction de la réponse parmi les K candidats à l’aide de ces caractéristiques, conduisant à un modèle hybride qui surpasse les résultats de l’état de l’art. Enfin, nous avons évalué des modèles de QR ouvert sur des ensembles de données construits pour les tâches de Compréhension machine et Sélection de phrases. Nous montrons la différence de performance lorsque la tâche à résoudre est une tâche de QR ouverte et soulignons le fossé important qu’il reste à franchir dans la construction de modèles de bout en bout pour la tâche complète de réponse aux questions.

Agence Bibliographique de l'Enseignement Supérieur

Sanjay Kamath Ramachandra Rao

2026

Title: Question Answering with Hybrid Data and Models

Description:

L’émergence de l’apprentissage profond dans plusieurs domaines de recherche tels que la vision par ordinateur, le traitement du langage naturel etc.

a conduit à l’émergence de modèles de bout en bout.

Les travaux actuels de l’état de l’art en question-réponse (QR) visent à mettre en oeuvre de tels modèles.

Dans le cadre du projet GoASQ, l’objectif est d’étudier, comparer et combiner différentes approches pour répondre à des questions formulées en langage naturel sur des données textuelles, en domaine ouvert et en domaine biomédical.

Ce travail se concentre principalement sur 1) la construction de modèles permettant de traiter des ensembles de données à petite et à grande échelle, et 2) l’exploitation de connaissances sémantiques pour répondre aux questions par leur intégration dans les différents modèles.

Nous visons à fusionner des connaissances issues de textes libres, d’ontologies, de représentations d’entités, etc.

Afin de faciliter l’utilisation des modèles neuronaux sur des données de domaine de spécialité, nous nous plaçons dans le cadre de l’adaptation de domaine.

Nous avons proposé deux modèles de tâches de QR différents, évalués sur la tâche BIOASQ de réponse à des questions biomédicales.

Nous montrons par nos résultats expérimentaux que le modèle de QR ouvert convient mieux qu’une modélisation de type Compréhension machine.

Nous pré-entrainons le modèle de Compréhension machine, qui sert de base à notre modèle, sur différents ensembles de données pour montrer la variabilité des performances.

Nous constatons que l’utilisation d’un ensemble de données particulier pour le pré-entraînement donne les meilleurs résultats lors du test et qu’une combinaison de quatre jeux de données donne les meilleurs résultats lors de l’adaptation au domaine biomédical.

Nous avons testé des modèles de langage à grande échelle, comme BERT, qui sont adaptés à la tâche de réponse aux questions.

Les performances varient en fonction du type des données utilisées pour pré-entrainer BERT.

Ainsi, le modèle de langue appris sur des données biomédicales, BIOBERT, constitue le meilleur choix pour le QR biomédical.

Les modèles d’apprentissage profond visent à fonctionner de bout en bout.

Les informations sémantiques provenant de sources de connaissances construites par des experts n’y sont généralement pas introduites.

Nous avons annoté manuellement et automatiquement un jeu de données par les variantes des réponses de BIOASQ et montré l’importance d’apprendre un modèle de QR avec ces variantes.

Ces types sont ensuite utilisés pour mettre en évidence les entités dans les jeux de données, ce qui montre des améliorations sur l’état de l’art.

Par ailleurs l’exploitation de représentations vectorielles d’entités dans les modèles se montre positif pour le domaine ouvert.

Nous faisons l’hypothèse que les résultats obtenus à partir de modèles d’apprentissage profond peuvent être encore améliorés en utilisant des traits sémantiques et des traits collectifs calculés à partir des différents paragraphes sélectionnés pour répondre à une question.

Nous utilisons des modèles de classification binaires pour améliorer la prédiction de la réponse parmi les K candidats à l’aide de ces caractéristiques, conduisant à un modèle hybride qui surpasse les résultats de l’état de l’art.

Enfin, nous avons évalué des modèles de QR ouvert sur des ensembles de données construits pour les tâches de Compréhension machine et Sélection de phrases.

Nous montrons la différence de performance lorsque la tâche à résoudre est une tâche de QR ouverte et soulignons le fossé important qu’il reste à franchir dans la construction de modèles de bout en bout pour la tâche complète de réponse aux questions.

Back

Related Results

Interactive Question Answering

The increasing amount of information available online has led to the development of technologies that help to deal with it. One of them is Interactive Question Answering (IQA), a r...

Nanjing Yunjin intelligent question-answering system based on knowledge graphs and retrieval augmented generation technology

Abstract Nanjing Yunjin, a traditional Chinese silk weaving craft, is celebrated globally for its unique local characteristics and exquisite workmanship, forming an integ...

EVJVQA CHALLENGE: MULTILINGUAL VISUAL QUESTION ANSWERING

Visual Question Answering (VQA) is a challenging task of natural language processing (NLP) and computer vision (CV), attracting significant attention from researchers. English is a...

Selection of Injectable Drug Product Composition using Machine Learning Models (Preprint)

BACKGROUND As of July 2020, a Web of Science search of “machine learning (ML)” nested within the search of “pharmacokinetics or pharmacodynamics” yielded over 100...

Improving Hybrid Models For Precipitation Forecasting By Combining Nonlinear Machine Learning Methods

Abstract Precipitation forecast, especially on monthly and annual scales, is a key for optimal water resources management and planning, especially in semiarid climates with...

Nanogold and nanosilver hybrid polymer materials

<p>Significant opportunities exist in both the scientific and industrial sectors for the development of new generation hybrid materials. These multifunctional hybrid material...

RAG Based QA for Low Resource Languages

Abstract Question Answering (QA) has been an important research direction in Natural Language Processing (NLP) and artificial intelligence. The majority of current large la...

Comparative Reproductive Success of Yellow-Shafted, Red-Shafted, and Hybrid Flickers across a Hybrid Zone

Abstract Alternative hypotheses of hybrid zones make specific predictions about reproductive components of fitness in the hybrids. The dynamic-equilibrium and reinfo...

Email:
Password:

Email: