Javascript must be enabled to continue!

Unsupervised representation learning of text data streams

Apprentissage de représentation non supervisé de flux de données textuelles Cette thèse présente des méthodes innovantes pour le regroupement de flux de données textuelles et introduit également un système d'identification des textes générés par l'IA. Cette méthode de détection de l'IA peut être utilisée indépendamment ou comme étape de prétraitement pour filtrer les documents entrants, en supprimant le contenu généré par l'IA et en préservant l'authenticité et la validité de l'information.Plus précisément, nous développons un système de classification qui distingue entre le texte écrit par des humains et celui généré par l'IA. Pour ce faire, cette méthode utilise une stratégie de fusion hiérarchique qui intègre des représentations provenant de diverses couches du modèle BERT. En se concentrant sur les caractéristiques syntaxiques, notre modèle classifie chaque token comme étant soit Humain, soit IA, capturant efficacement des structures textuelles détaillées et assurant une performance robuste dans plusieurs langues grâce au modèle XLM-RoBERTa-Large.Dans le domaine du regroupement de flux de données, en particulier pour les données textuelles, nous introduisons d'abord une méthode appelée OTTC (Regroupement Textuel Topologique en Ligne). Cette approche exploite l'apprentissage de représentations topologiques en combinaison avec des techniques de regroupement en ligne. Elle aborde efficacement les défis du clustering de flux de données textuelles, tels que la dynamique des données, la sparsité et la malédiction de la dimensionnalité, qui sont des problèmes que les méthodes de regroupement traditionnelles peinent souvent à gérer.Pour améliorer davantage les résultats du regroupement et répondre aux limites de l'OTTC, nous proposons l'algorithme MVTStream, spécialement conçu pour les flux de données textuelles à vues multiples. Cet algorithme fonctionne en trois étapes: d'abord, il génère des représentations textuelles diverses à partir des données entrantes, traitant chaque représentation comme une vue distincte. Ensuite, il utilise des structures de micro-clusters pour un traitement en temps réel. Enfin, il utilise des méthodes d'ensemble pour agréger les clusters provenant des différentes vues et obtenir les clusters finaux.

Agence Bibliographique de l'Enseignement Supérieur

Maha Ben-Fares

2026

Title: Unsupervised representation learning of text data streams

Description:

Cette méthode de détection de l'IA peut être utilisée indépendamment ou comme étape de prétraitement pour filtrer les documents entrants, en supprimant le contenu généré par l'IA et en préservant l'authenticité et la validité de l'information.

Plus précisément, nous développons un système de classification qui distingue entre le texte écrit par des humains et celui généré par l'IA.

Pour ce faire, cette méthode utilise une stratégie de fusion hiérarchique qui intègre des représentations provenant de diverses couches du modèle BERT.

En se concentrant sur les caractéristiques syntaxiques, notre modèle classifie chaque token comme étant soit Humain, soit IA, capturant efficacement des structures textuelles détaillées et assurant une performance robuste dans plusieurs langues grâce au modèle XLM-RoBERTa-Large.

Dans le domaine du regroupement de flux de données, en particulier pour les données textuelles, nous introduisons d'abord une méthode appelée OTTC (Regroupement Textuel Topologique en Ligne).

Cette approche exploite l'apprentissage de représentations topologiques en combinaison avec des techniques de regroupement en ligne.

Elle aborde efficacement les défis du clustering de flux de données textuelles, tels que la dynamique des données, la sparsité et la malédiction de la dimensionnalité, qui sont des problèmes que les méthodes de regroupement traditionnelles peinent souvent à gérer.

Pour améliorer davantage les résultats du regroupement et répondre aux limites de l'OTTC, nous proposons l'algorithme MVTStream, spécialement conçu pour les flux de données textuelles à vues multiples.

Cet algorithme fonctionne en trois étapes: d'abord, il génère des représentations textuelles diverses à partir des données entrantes, traitant chaque représentation comme une vue distincte.

Ensuite, il utilise des structures de micro-clusters pour un traitement en temps réel.

Enfin, il utilise des méthodes d'ensemble pour agréger les clusters provenant des différentes vues et obtenir les clusters finaux.

Back

<span style="color: #000000; font-family: Verdana, Arial, Helvetica, sans-serif; font-size: 10px; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; ...

Sleep Habits and Occurrence of Lowback Pain among Craftsmen

<span style="color: #000000; font-family: Verdana, Arial, Helvetica, sans-serif; font-size: 10px; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; ...

CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021

The pandemic Covid-19 currently demands teachers to be able to use technology in teaching and learning process. But in reality there are still many teachers who have not been able ...

Bounds on the sum of broadcast domination number and strong metric dimension of graphs

Let [Formula: see text] be a connected graph of order at least two with vertex set [Formula: see text]. For [Formula: see text], let [Formula: see text] denote the length of an [Fo...

ANALYSIS OF READING MATERIALS IN TEXTBOOK FOR GRADE XI SENIOR HIGH SCHOOL

This study aims to find out the GI and LD level, the text which has the highest GI and LD and what make the text has the highest GI and LD of Advanced Learning English 2 textbook. ...

A novel unsupervised deep learning network for intelligent fault diagnosis of rotating machinery

Generally, the health conditions of rotating machinery are complicated and changeable. Meanwhile, its fault labeled information is mostly unknown. Therefore, it is man-sized to aut...

E-Press and Oppress

From elephants to ABBA fans, silicon to hormone, the following discussion uses a new research method to look at printed text, motion pictures and a te...

Physicochemical and rheological properties of Australian and Russian wheat flour mill streams

AbstractBackground and objectivesThe physicochemical and rheological properties of flour mill streams obtained from the normal milling process of two wheat types were studied. Flou...

Email:
Password:

Email:

Unsupervised representation learning of text data streams

Related Results