Javascript must be enabled to continue!

Improving methods to learn word representations for efficient semantic similarites computations

Amélioration des méthodes d’apprentissage de représentations de mots pour des calculs de similarités sémantiques efficaces De nombreuses applications en traitement du langage naturel (TALN) reposent sur les représentations de mots, ou “word embeddings”. Ces représentations doivent capturer à la fois de l’information syntaxique et sémantique pour donner des bonnes performances dans les tâches en aval qui les utilisent. Cependant, les méthodes courantes pour les apprendre utilisent des textes génériques comme Wikipédia qui ne contiennent pas d’information sémantique précise. De plus, un espace mémoire important est requis pour pouvoir les sauvegarder car le nombre de représentations de mots à apprendre peut être de l’ordre du million. Le sujet de ma thèse est de développer de nouveaux algorithmes pour améliorer l’information sémantique dans les word embeddings tout en réduisant leur taille en mémoire lors de leur utilisation dans des tâches en aval de TALN.La première partie de mes travaux améliore l’information sémantique contenue dans les word embeddings. J’ai développé dict2vec, un modèle qui utilise l’information des dictionnaires linguistiques lors de l’apprentissage des word embeddings. Les word embeddings appris par dict2vec obtiennent des scores supérieurs d’environ 15% par rapport à ceux appris avec d’autres méthodes sur des tâches de similarités sémantiques de mots. La seconde partie de mes travaux consiste à réduire la taille mémoire des word embeddings. J’ai développé une architecture basée sur un auto-encodeur pour transformer des word embeddings à valeurs réelles en vecteurs binaires, réduisant leur taille mémoire de 97% avec seulement une baisse de précision d’environ 2% dans des tâches de TALN en aval.

Agence Bibliographique de l'Enseignement Supérieur

Julien Tissier

2026

Title: Improving methods to learn word representations for efficient semantic similarites computations

Description:

Ces représentations doivent capturer à la fois de l’information syntaxique et sémantique pour donner des bonnes performances dans les tâches en aval qui les utilisent.

Cependant, les méthodes courantes pour les apprendre utilisent des textes génériques comme Wikipédia qui ne contiennent pas d’information sémantique précise.

De plus, un espace mémoire important est requis pour pouvoir les sauvegarder car le nombre de représentations de mots à apprendre peut être de l’ordre du million.

Le sujet de ma thèse est de développer de nouveaux algorithmes pour améliorer l’information sémantique dans les word embeddings tout en réduisant leur taille en mémoire lors de leur utilisation dans des tâches en aval de TALN.

La première partie de mes travaux améliore l’information sémantique contenue dans les word embeddings.

J’ai développé dict2vec, un modèle qui utilise l’information des dictionnaires linguistiques lors de l’apprentissage des word embeddings.

Les word embeddings appris par dict2vec obtiennent des scores supérieurs d’environ 15% par rapport à ceux appris avec d’autres méthodes sur des tâches de similarités sémantiques de mots.

La seconde partie de mes travaux consiste à réduire la taille mémoire des word embeddings.

J’ai développé une architecture basée sur un auto-encodeur pour transformer des word embeddings à valeurs réelles en vecteurs binaires, réduisant leur taille mémoire de 97% avec seulement une baisse de précision d’environ 2% dans des tâches de TALN en aval.

Back

This thesis investigates whether modern computer models can confirm how people encounter words and then use these findings in didactics. In recent years, computers have been used i...

A Semantic Orthogonal Mapping Method Through Deep-Learning for Semantic Computing

In order to realize an artificial intelligent system, a basic mechanism should be provided for expressing and processing the semantic. We have presented semantic computing models i...

Exploiting Wikipedia Semantics for Computing Word Associations

Semantic association computation is the process of automatically quantifying the strength of a semantic connection between two textual units based on various lexi...

A Technique for Constructing <span class="changedDisabl

To solve the problem of constructing the frequency responses (FR) of filters on switched capacitors, which belong to the class of electronic circuits with a periodically changing s...

Spoken Word Recognition

The core question that spoken word recognition research attempts to address is: How does a phonological word-form activate the corresponding lexical representation that is stored i...

Successful Replacement Therapy After <span c

Background. Vitamin D has recognized immunomodulatory, anti-proliferative, and differentiation-regulating effects primarily mediated through its genomic effects via the vitamin D r...

'A Large Quantity of E

The succesful escape from slavery between the late 17th and the mid 19thth century depended greatly on the runaway’s skills in adapting themselves to their natural environment. Alt...

Emotional Valence Precedes Semantic Maturation of Words: A Longitudinal Computational Study of Early Verbal Emotional Anchoring

AbstractWe present a longitudinal computational study on the connection between emotional and amodal word representations from a developmental perspective. In this study, children'...

Email:
Password:

Email:

Improving methods to learn word representations for efficient semantic similarites computations

Related Results