Javascript must be enabled to continue!
Neural Module Networks for Compositional Visual Reasoning
View through CrossRef
Réseaux de modules neuronaux pour un raisonnement visuel compositionnel
Cette thèse de doctorat porte sur le raisonnement visuel compositionnel. Lorsqu'on présente une paire image-question à un modèle de réseau de neurones, notre objectif est que le modèle réponde à la question en suivant une chaîne de raisonnement définie par un programme. Nous évaluons la capacité de raisonnement du modèle dans le cadre de la Question Réponse Visuelle (QRV). La QRV compositionnelle décompose les questions complexes en sous-problèmes modulaires plus simples. Ces sous-problèmes incluent des compétences de raisonnement telles que la détection d'objets et d'attributs, la détection de relations, les opérations logiques, le dénombrement et les comparaisons. Chaque sous-problème est attribué à un module différent. Cette approche décourage les raccourcis, exigeant une compréhension explicite du problème. Elle favorise également la transparence et l'explicabilité.Les réseaux de modules neuronaux (NMN) sont utilisés pour permettre un raisonnement compositionnel. Il sont basés sur un cadre de générateur-exécuteur, le générateur apprend la traduction de la question vers son programme de fonctions. L'exécuteur instancie un NMN où chaque fonction est attribuée à un module spécifique. Nous développons également un catalogue de modules neuronaux et définissons leurs fonctions et leurs structures. Les entraînements et les évaluations sont effectués sur l'ensemble de données GQA [3], qui comprend des questions, des programmes fonctionnels, des images et des réponses.L'une des principales contributions implique l'intégration de représentations pré-entraînées multi-modales dans la QRV modulaire. Cette intégration sert à initialiser le processus de raisonnement. Les expériences démontrent que les représentations multimodales surpassent les unimodales. Ceci permet de capturer des relations complexes intra-modales tout en facilitant l'alignement entre les différentes modalités, améliorant ainsi la précision globale de notre NMN.De plus, nous explorons différentes techniques d'entraînement pour améliorer le processus d'apprentissage et l'efficacité du coût de calcul. En plus d'optimiser les modules au sein de la chaîne de raisonnement pour produire collectivement des réponses précises, nous introduisons une approche d'apprentissage guidé pour optimiser les modules intermédiaires de la chaîne de raisonnement. Cela garantit que ces modules effectuent leurs sous-tâches de raisonnement spécifiques sans prendre de raccourcis ou compromettre l'intégrité du processus de raisonnement. L'une des techniques proposées s'inspire de la méthode d'apprentissage guidé couramment utilisée dans les modèles séquentiels. Des analyses comparatives démontrent les avantages de notre approche pour les NMN, comme détaillé dans notre article [1].Nous introduisons également une nouvelle stratégie d'apprentissage par Curriculum (CL) adaptée aux NMN pour réorganiser les exemples d'entraînement et définir une stratégie d'apprentissage progressif. Nous commençons par apprendre des programmes plus simples et augmentons progressivement la complexité des programmes d'entraînement. Nous utilisons plusieurs critères de difficulté pour définir l'approche du CL. Nos résultats montrent qu'en sélectionnant la méthode de CL appropriée, nous pouvons réduire considérablement le coût de l'entraînement et la quantité de données d'entraînement requise, avec un impact limité sur la précision finale de la QRV. Cette contribution importante constitue le cœur de notre article [2].[1] W. Aissa, M. Ferecatu, and M. Crucianu. Curriculum learning for compositional visual reasoning. In Proceedings of VISIGRAPP 2023, Volume 5: VISAPP, 2023.[2] W. Aissa, M. Ferecatu, and M. Crucianu. Multimodal representations for teacher-guidedcompositional visual reasoning. In Proceedings of ACIVS 2023. Springer International Publishing, 2023.[3] D. A. Hudson and C. D. Manning. GQA: A new dataset for real-world visual reasoning and compositional question answering. 2019.
Title: Neural Module Networks for Compositional Visual Reasoning
Description:
Réseaux de modules neuronaux pour un raisonnement visuel compositionnel
Cette thèse de doctorat porte sur le raisonnement visuel compositionnel.
Lorsqu'on présente une paire image-question à un modèle de réseau de neurones, notre objectif est que le modèle réponde à la question en suivant une chaîne de raisonnement définie par un programme.
Nous évaluons la capacité de raisonnement du modèle dans le cadre de la Question Réponse Visuelle (QRV).
La QRV compositionnelle décompose les questions complexes en sous-problèmes modulaires plus simples.
Ces sous-problèmes incluent des compétences de raisonnement telles que la détection d'objets et d'attributs, la détection de relations, les opérations logiques, le dénombrement et les comparaisons.
Chaque sous-problème est attribué à un module différent.
Cette approche décourage les raccourcis, exigeant une compréhension explicite du problème.
Elle favorise également la transparence et l'explicabilité.
Les réseaux de modules neuronaux (NMN) sont utilisés pour permettre un raisonnement compositionnel.
Il sont basés sur un cadre de générateur-exécuteur, le générateur apprend la traduction de la question vers son programme de fonctions.
L'exécuteur instancie un NMN où chaque fonction est attribuée à un module spécifique.
Nous développons également un catalogue de modules neuronaux et définissons leurs fonctions et leurs structures.
Les entraînements et les évaluations sont effectués sur l'ensemble de données GQA [3], qui comprend des questions, des programmes fonctionnels, des images et des réponses.
L'une des principales contributions implique l'intégration de représentations pré-entraînées multi-modales dans la QRV modulaire.
Cette intégration sert à initialiser le processus de raisonnement.
Les expériences démontrent que les représentations multimodales surpassent les unimodales.
Ceci permet de capturer des relations complexes intra-modales tout en facilitant l'alignement entre les différentes modalités, améliorant ainsi la précision globale de notre NMN.
De plus, nous explorons différentes techniques d'entraînement pour améliorer le processus d'apprentissage et l'efficacité du coût de calcul.
En plus d'optimiser les modules au sein de la chaîne de raisonnement pour produire collectivement des réponses précises, nous introduisons une approche d'apprentissage guidé pour optimiser les modules intermédiaires de la chaîne de raisonnement.
Cela garantit que ces modules effectuent leurs sous-tâches de raisonnement spécifiques sans prendre de raccourcis ou compromettre l'intégrité du processus de raisonnement.
L'une des techniques proposées s'inspire de la méthode d'apprentissage guidé couramment utilisée dans les modèles séquentiels.
Des analyses comparatives démontrent les avantages de notre approche pour les NMN, comme détaillé dans notre article [1].
Nous introduisons également une nouvelle stratégie d'apprentissage par Curriculum (CL) adaptée aux NMN pour réorganiser les exemples d'entraînement et définir une stratégie d'apprentissage progressif.
Nous commençons par apprendre des programmes plus simples et augmentons progressivement la complexité des programmes d'entraînement.
Nous utilisons plusieurs critères de difficulté pour définir l'approche du CL.
Nos résultats montrent qu'en sélectionnant la méthode de CL appropriée, nous pouvons réduire considérablement le coût de l'entraînement et la quantité de données d'entraînement requise, avec un impact limité sur la précision finale de la QRV.
Cette contribution importante constitue le cœur de notre article [2].
[1] W.
Aissa, M.
Ferecatu, and M.
Crucianu.
Curriculum learning for compositional visual reasoning.
In Proceedings of VISIGRAPP 2023, Volume 5: VISAPP, 2023.
[2] W.
Aissa, M.
Ferecatu, and M.
Crucianu.
Multimodal representations for teacher-guidedcompositional visual reasoning.
In Proceedings of ACIVS 2023.
Springer International Publishing, 2023.
[3] D.
A.
Hudson and C.
D.
Manning.
GQA: A new dataset for real-world visual reasoning and compositional question answering.
2019.
Related Results
Optimisation in Neurosymbolic Learning Systems
Optimisation in Neurosymbolic Learning Systems
In the last few years, Artificial Intelligence (AI) has reached the public consciousness through high-profile applications such as chatbots, image generators, speech synthesis and ...
Logical Challenges in Artificial General Intelligence
Logical Challenges in Artificial General Intelligence
The present thesis pertains to the research area of logic for artificial intelligence (AI), and is motivated by the critical role of automated reasoning in AI, particularly by the ...
Characteristics and processes of registered nurses’ clinical reasoning and factors relating to the use of clinical reasoning in practice: a scoping review
Characteristics and processes of registered nurses’ clinical reasoning and factors relating to the use of clinical reasoning in practice: a scoping review
Objective:
The objective of this review was to examine the characteristics and processes of clinical reasoning used by registered nurses in clinical practice, and to id...
Construction of Enhanced Recovery Training Module for Former Drug Addicts
Construction of Enhanced Recovery Training Module for Former Drug Addicts
Construction of an academic module requires few main objectives in the module construction which are Module Construction, Module Validity Assessment, Module Reliability Test, and M...
Fuzzy Chaotic Neural Networks
Fuzzy Chaotic Neural Networks
An understanding of the human brain’s local function has improved in recent years. But the cognition of human brain’s working process as a whole is still obscure. Both fuzzy logic ...
Compositional Space Parameterization for Flow Simulation
Compositional Space Parameterization for Flow Simulation
Abstract
Thermodynamic equilibrium (flash) calculations in compositional simulators are used to find the partitioning of components among fluid phases. The basic ...
On the role of network dynamics for information processing in artificial and biological neural networks
On the role of network dynamics for information processing in artificial and biological neural networks
Understanding how interactions in complex systems give rise to various collective behaviours has been of interest for researchers across a wide range of fields. However, despite ma...
How Large Language Models Can Affect Clinical Reasoning: A Randomized Clinical Trial
How Large Language Models Can Affect Clinical Reasoning: A Randomized Clinical Trial
Abstract
Importance
LLMs have encoded a vast array of medical knowledge and are being integrated into clinical settings as deci...

