Search engine for discovering works of Art, research articles, and books related to Art and Culture
ShareThis
Javascript must be enabled to continue!

Improving methods to learn word representations for efficient semantic similarites computations

View through CrossRef
Amélioration des méthodes d’apprentissage de représentations de mots pour des calculs de similarités sémantiques efficaces De nombreuses applications en traitement du langage naturel (TALN) reposent sur les représentations de mots, ou “word embeddings”. Ces représentations doivent capturer à la fois de l’information syntaxique et sémantique pour donner des bonnes performances dans les tâches en aval qui les utilisent. Cependant, les méthodes courantes pour les apprendre utilisent des textes génériques comme Wikipédia qui ne contiennent pas d’information sémantique précise. De plus, un espace mémoire important est requis pour pouvoir les sauvegarder car le nombre de représentations de mots à apprendre peut être de l’ordre du million. Le sujet de ma thèse est de développer de nouveaux algorithmes pour améliorer l’information sémantique dans les word embeddings tout en réduisant leur taille en mémoire lors de leur utilisation dans des tâches en aval de TALN.La première partie de mes travaux améliore l’information sémantique contenue dans les word embeddings. J’ai développé dict2vec, un modèle qui utilise l’information des dictionnaires linguistiques lors de l’apprentissage des word embeddings. Les word embeddings appris par dict2vec obtiennent des scores supérieurs d’environ 15% par rapport à ceux appris avec d’autres méthodes sur des tâches de similarités sémantiques de mots. La seconde partie de mes travaux consiste à réduire la taille mémoire des word embeddings. J’ai développé une architecture basée sur un auto-encodeur pour transformer des word embeddings à valeurs réelles en vecteurs binaires, réduisant leur taille mémoire de 97% avec seulement une baisse de précision d’environ 2% dans des tâches de TALN en aval.
Agence Bibliographique de l'Enseignement Supérieur
Title: Improving methods to learn word representations for efficient semantic similarites computations
Description:
Amélioration des méthodes d’apprentissage de représentations de mots pour des calculs de similarités sémantiques efficaces De nombreuses applications en traitement du langage naturel (TALN) reposent sur les représentations de mots, ou “word embeddings”.
Ces représentations doivent capturer à la fois de l’information syntaxique et sémantique pour donner des bonnes performances dans les tâches en aval qui les utilisent.
Cependant, les méthodes courantes pour les apprendre utilisent des textes génériques comme Wikipédia qui ne contiennent pas d’information sémantique précise.
De plus, un espace mémoire important est requis pour pouvoir les sauvegarder car le nombre de représentations de mots à apprendre peut être de l’ordre du million.
Le sujet de ma thèse est de développer de nouveaux algorithmes pour améliorer l’information sémantique dans les word embeddings tout en réduisant leur taille en mémoire lors de leur utilisation dans des tâches en aval de TALN.
La première partie de mes travaux améliore l’information sémantique contenue dans les word embeddings.
J’ai développé dict2vec, un modèle qui utilise l’information des dictionnaires linguistiques lors de l’apprentissage des word embeddings.
Les word embeddings appris par dict2vec obtiennent des scores supérieurs d’environ 15% par rapport à ceux appris avec d’autres méthodes sur des tâches de similarités sémantiques de mots.
La seconde partie de mes travaux consiste à réduire la taille mémoire des word embeddings.
J’ai développé une architecture basée sur un auto-encodeur pour transformer des word embeddings à valeurs réelles en vecteurs binaires, réduisant leur taille mémoire de 97% avec seulement une baisse de précision d’environ 2% dans des tâches de TALN en aval.

Related Results

Računalno potpomognuto usmjeravanje kod dvojezičnih govornika
Računalno potpomognuto usmjeravanje kod dvojezičnih govornika
This thesis investigates whether modern computer models can confirm how people encounter words and then use these findings in didactics. In recent years, computers have been used i...
A Semantic Orthogonal Mapping Method Through Deep-Learning for Semantic Computing
A Semantic Orthogonal Mapping Method Through Deep-Learning for Semantic Computing
In order to realize an artificial intelligent system, a basic mechanism should be provided for expressing and processing the semantic. We have presented semantic computing models i...
Exploiting Wikipedia Semantics for Computing Word Associations
Exploiting Wikipedia Semantics for Computing Word Associations
<p><b>Semantic association computation is the process of automatically quantifying the strength of a semantic connection between two textual units based on various lexi...
Spoken Word Recognition
Spoken Word Recognition
The core question that spoken word recognition research attempts to address is: How does a phonological word-form activate the corresponding lexical representation that is stored i...
Emotional Valence Precedes Semantic Maturation of Words: A Longitudinal Computational Study of Early Verbal Emotional Anchoring
Emotional Valence Precedes Semantic Maturation of Words: A Longitudinal Computational Study of Early Verbal Emotional Anchoring
AbstractWe present a longitudinal computational study on the connection between emotional and amodal word representations from a developmental perspective. In this study, children'...

Back to Top