Javascript must be enabled to continue!
Lexical emergence from context : exploring unsupervised learning approaches on large multimodal language corpora
View through CrossRef
L'émergence du lexique en contexte : apport des méthodes non supervisées sur grands corpus de données multimodales
Ces dernières années, les méthodes d'apprentissage profond ont permis de créer des modèles neuronaux capables de traiter plusieurs modalités à la fois. Les modèles neuronaux de traitement de la Parole Visuellement Contextualisée (PVC) sont des modèles de ce type, capables de traiter conjointement une entrée vocale et une entrée visuelle correspondante. Ils sont couramment utilisés pour résoudre une tâche de recherche d'image à partir d'une requête vocale: c'est-à-dire qu'à partir d'une description orale, ils sont entraînés à retrouver l'image correspondant à la description orale passée en entrée. Ces modèles ont suscité l'intérêt des linguistes et des chercheurs en sciences cognitives car ils sont capables de modéliser des interactions complexes entre deux modalités --- la parole et la vision --- et peuvent être utilisés pour simuler l'acquisition du langage chez l'enfant, et plus particulièrement l'acquisition lexicale.Dans cette thèse, nous étudions un modèle récurrent de PVC et analysons les connaissances linguistiques que de tels modèles sont capables d'inférer comme sous-produit de la tâche principale pour laquelle ils sont entraînés. Nous introduisons un nouveau jeu de données qui convient à l'entraînement des modèles de PVC. Contrairement à la plupart des jeux de données qui sont en anglais, ce jeu de données est en japonais, ce qui permet d'étudier l'impact de la langue d'entrée sur les représentations apprises par les modèles neuronaux.Nous nous concentrons ensuite sur l'analyse des mécanismes d'attention de deux modèles de PVC, l'un entrainé sur le jeu de données en anglais, l'autre sur le jeu de données en japonais, et montrons que les modèles ont développé un comportement général, valable quelle que soit la langue utilisée, en utilisant leur poids d'attention pour se focaliser sur des noms spécifiques dans la chaîne parlée. Nos expériences révèlent que ces modèles sont également capables d'adopter un comportement spécifique à la langue en prenant en compte les particularités de la langue d'entrée afin de mieux résoudre la tâche qui leur est donnée.Nous étudions ensuite si les modèles de PVC sont capables d'associer des mots isolés à leurs référents visuels. Cela nous permet d'examiner si le modèle a implicitement segmenté l'entrée parlée en sous-unités. Nous étudions ensuite comment les mots isolés sont stockés dans les poids des réseaux en empruntant une méthodologie issue de la linguistique, le paradigme de gating, et nous montrons que la partie initiale du mot joue un rôle majeur pour une activation réussie.Enfin, nous présentons une méthode simple pour introduire des informations sur les frontières des segments dans un modèle neuronal de traitement de la parole. Cela nous permet de tester si la segmentation implicite qui a lieu dans le réseau est aussi efficace qu'une segmentation explicite. Nous étudions plusieurs types de frontières, allant des frontières de phones aux frontières de mots, et nous montrons que ces dernières donnent les meilleurs résultats. Nous observons que donner au réseau plusieurs frontières en même temps est bénéfique. Cela permet au réseau de prendre en compte la nature hiérarchique de l'entrée linguistique.
Title: Lexical emergence from context : exploring unsupervised learning approaches on large multimodal language corpora
Description:
L'émergence du lexique en contexte : apport des méthodes non supervisées sur grands corpus de données multimodales
Ces dernières années, les méthodes d'apprentissage profond ont permis de créer des modèles neuronaux capables de traiter plusieurs modalités à la fois.
Les modèles neuronaux de traitement de la Parole Visuellement Contextualisée (PVC) sont des modèles de ce type, capables de traiter conjointement une entrée vocale et une entrée visuelle correspondante.
Ils sont couramment utilisés pour résoudre une tâche de recherche d'image à partir d'une requête vocale: c'est-à-dire qu'à partir d'une description orale, ils sont entraînés à retrouver l'image correspondant à la description orale passée en entrée.
Ces modèles ont suscité l'intérêt des linguistes et des chercheurs en sciences cognitives car ils sont capables de modéliser des interactions complexes entre deux modalités --- la parole et la vision --- et peuvent être utilisés pour simuler l'acquisition du langage chez l'enfant, et plus particulièrement l'acquisition lexicale.
Dans cette thèse, nous étudions un modèle récurrent de PVC et analysons les connaissances linguistiques que de tels modèles sont capables d'inférer comme sous-produit de la tâche principale pour laquelle ils sont entraînés.
Nous introduisons un nouveau jeu de données qui convient à l'entraînement des modèles de PVC.
Contrairement à la plupart des jeux de données qui sont en anglais, ce jeu de données est en japonais, ce qui permet d'étudier l'impact de la langue d'entrée sur les représentations apprises par les modèles neuronaux.
Nous nous concentrons ensuite sur l'analyse des mécanismes d'attention de deux modèles de PVC, l'un entrainé sur le jeu de données en anglais, l'autre sur le jeu de données en japonais, et montrons que les modèles ont développé un comportement général, valable quelle que soit la langue utilisée, en utilisant leur poids d'attention pour se focaliser sur des noms spécifiques dans la chaîne parlée.
Nos expériences révèlent que ces modèles sont également capables d'adopter un comportement spécifique à la langue en prenant en compte les particularités de la langue d'entrée afin de mieux résoudre la tâche qui leur est donnée.
Nous étudions ensuite si les modèles de PVC sont capables d'associer des mots isolés à leurs référents visuels.
Cela nous permet d'examiner si le modèle a implicitement segmenté l'entrée parlée en sous-unités.
Nous étudions ensuite comment les mots isolés sont stockés dans les poids des réseaux en empruntant une méthodologie issue de la linguistique, le paradigme de gating, et nous montrons que la partie initiale du mot joue un rôle majeur pour une activation réussie.
Enfin, nous présentons une méthode simple pour introduire des informations sur les frontières des segments dans un modèle neuronal de traitement de la parole.
Cela nous permet de tester si la segmentation implicite qui a lieu dans le réseau est aussi efficace qu'une segmentation explicite.
Nous étudions plusieurs types de frontières, allant des frontières de phones aux frontières de mots, et nous montrons que ces dernières donnent les meilleurs résultats.
Nous observons que donner au réseau plusieurs frontières en même temps est bénéfique.
Cela permet au réseau de prendre en compte la nature hiérarchique de l'entrée linguistique.
Related Results
Hubungan Perilaku Pola Makan dengan Kejadian Anak Obesitas
Hubungan Perilaku Pola Makan dengan Kejadian Anak Obesitas
<p><em><span style="font-size: 11.0pt; font-family: 'Times New Roman',serif; mso-fareast-font-family: 'Times New Roman'; mso-ansi-language: EN-US; mso-fareast-langua...
Učinak poučavanja razrednomu jeziku u izobrazbi nastavnika njemačkoga
Učinak poučavanja razrednomu jeziku u izobrazbi nastavnika njemačkoga
The actual use of classroom language is principally limited to the classroom environment. As far as foreign language learning is concerned, the classroom often turns out to be the ...
Žanrovska analiza pomorskopravnih tekstova i ostvarenje prijevodnih univerzalija u njihovim prijevodima s engleskoga jezika
Žanrovska analiza pomorskopravnih tekstova i ostvarenje prijevodnih univerzalija u njihovim prijevodima s engleskoga jezika
Genre implies formal and stylistic conventions of a particular text type, which inevitably affects the translation process. This „force of genre bias“ (Prieto Ramos, 2014) has been...
Multimodal Emotion Recognition and Human Computer Interaction for AI-Driven Mental Health Support (Preprint)
Multimodal Emotion Recognition and Human Computer Interaction for AI-Driven Mental Health Support (Preprint)
BACKGROUND
Mental health has become one of the most urgent global health issues of the twenty-first century. The World Health Organization (WHO) reports tha...
Aviation English - A global perspective: analysis, teaching, assessment
Aviation English - A global perspective: analysis, teaching, assessment
This e-book brings together 13 chapters written by aviation English researchers and practitioners settled in six different countries, representing institutions and universities fro...
Increased life expectancy of heart failure patients in a rural center by a multidisciplinary program
Increased life expectancy of heart failure patients in a rural center by a multidisciplinary program
Abstract
Funding Acknowledgements
Type of funding sources: None.
INTRODUCTION Patients with heart failure (HF)...
Lukijat sanaston monimuotoisuutta määrittämässä
Lukijat sanaston monimuotoisuutta määrittämässä
Artikkelissa tarkastellaan leksikaalisen diversiteetin eli tekstin sanastollisen monimuotoisuuden rakentumista. Tavoitteena on esitellä leksikaalisen diversiteetin tutkimuksen meto...
A Research Overview of Corpus-Assisted Enhancement of English Writing Proficiency
A Research Overview of Corpus-Assisted Enhancement of English Writing Proficiency
With the deep development of big data and artificial intelligence technologies, corpus research has garnered increasing attention and recognition. Initially, corpora were collectio...

