Javascript must be enabled to continue!

Sequential Pattern Generalization for Mining Multi-source Data

Généralisation de motifs séquentiels pour la fouille de données multi-sources La digitalisation de notre monde est souvent associée à une production de grandes quantités de données. Ainsi, des outils de collecte et de stockage de données ont dû être développés, à des fins d’exploitation en recherche ou dans l’industrie. Les données collectées peuvent provenir de plusieurs sources, formant ainsi de gros corpus de données hétérogènes. Ces corpus peuvent être analysés pour extraire de l’information. C’est l’objet de la fouille de données, qui fait l’objet d’un intérêt grandissant depuis de nombreuses années. Différentes approches de fouille de données ont été proposées, parmi lesquelles la très populaire fouille de motifs. La fouille de motifs, qui inclut la fouille de motifs séquentiels, vise à extraire des motifs ordonnés fréquents dans les données.Dans le cadre de sources de données multiples, les données peuvent représenter des points de vue différents sur le phénomène représenté. Par ailleurs, la présence de similarité entre certains éléments de données est une caractéristique classique, qui mène à la perte d’information lors du processus de fouille. L’objectif de cette thèse est de concevoir un algorithme de fouille des motifs dans des données multi-source dans le but d’extraire une information pertinente tout en compensant la perte de motifs due à la similarité entre éléments et en limitant la redondance entre motifs. Plusieurs approches ont été proposées dans la littérature. Certaines fusionnent l’ensemble des sources dans un seul ensemble de données et exploitent un algorithme classique de fouille de motifs, ce qui mène à un algorithme complexe qui extrait un grand nombre de motifs redondants. D’autres fouillent les sources séparément ce qui peut mener à une perte potentielle de motifs. Nous proposons G_SPM, un algorithme de fouille de motifs séquentiels qui tire avantage des multiples sources de données à disposition dans le but de pallier le problème de la similarité entre éléments, en formant des motifs généraux. G_SPM adopte une stratégie de fouille sélective de sources, ce qui lui permet d’avoir une complexité limitée. Par ailleurs, G_SPM fouille dans un premier temps une unique source de données, celle qui lui permet d’avoir des motifs séquentiels les plus précis possibles. Les expérimentations menées confirment que G_SPM identifie des motifs généraux avec un temps d’exécution limité, il permet donc de gérer la similarité entre les éléments en compensant l’éclatement des occurrences sur plusieurs motifs.

Agence Bibliographique de l'Enseignement Supérieur

Julie Bu Daher

2026

Title: Sequential Pattern Generalization for Mining Multi-source Data

Description:

Généralisation de motifs séquentiels pour la fouille de données multi-sources La digitalisation de notre monde est souvent associée à une production de grandes quantités de données.

Ainsi, des outils de collecte et de stockage de données ont dû être développés, à des fins d’exploitation en recherche ou dans l’industrie.

Les données collectées peuvent provenir de plusieurs sources, formant ainsi de gros corpus de données hétérogènes.

Ces corpus peuvent être analysés pour extraire de l’information.

C’est l’objet de la fouille de données, qui fait l’objet d’un intérêt grandissant depuis de nombreuses années.

Différentes approches de fouille de données ont été proposées, parmi lesquelles la très populaire fouille de motifs.

La fouille de motifs, qui inclut la fouille de motifs séquentiels, vise à extraire des motifs ordonnés fréquents dans les données.

Dans le cadre de sources de données multiples, les données peuvent représenter des points de vue différents sur le phénomène représenté.

Par ailleurs, la présence de similarité entre certains éléments de données est une caractéristique classique, qui mène à la perte d’information lors du processus de fouille.

L’objectif de cette thèse est de concevoir un algorithme de fouille des motifs dans des données multi-source dans le but d’extraire une information pertinente tout en compensant la perte de motifs due à la similarité entre éléments et en limitant la redondance entre motifs.

Plusieurs approches ont été proposées dans la littérature.

Certaines fusionnent l’ensemble des sources dans un seul ensemble de données et exploitent un algorithme classique de fouille de motifs, ce qui mène à un algorithme complexe qui extrait un grand nombre de motifs redondants.

D’autres fouillent les sources séparément ce qui peut mener à une perte potentielle de motifs.

Nous proposons G_SPM, un algorithme de fouille de motifs séquentiels qui tire avantage des multiples sources de données à disposition dans le but de pallier le problème de la similarité entre éléments, en formant des motifs généraux.

G_SPM adopte une stratégie de fouille sélective de sources, ce qui lui permet d’avoir une complexité limitée.

Par ailleurs, G_SPM fouille dans un premier temps une unique source de données, celle qui lui permet d’avoir des motifs séquentiels les plus précis possibles.

Les expérimentations menées confirment que G_SPM identifie des motifs généraux avec un temps d’exécution limité, il permet donc de gérer la similarité entre les éléments en compensant l’éclatement des occurrences sur plusieurs motifs.

Back

The mining industry provides valuable mined commodities and financial support for communities worldwide. Mining has become safer for workers. Significant injustices, however, are c...

Classification with Single Constraint Progressive Mining of Sequential Patterns

<span>Classification based on sequential pattern data has become an important topic to explore. One of research has been carried was the Classify-By-Sequence, CBS. CBS classi...

Impact of Mining on Socioeconomic Status in Puno, Peru

This study examines the direct and indirect effects of mining activities on key socioeconomic indicators such as per capita income, the Human Development Index (HDI), and education...

The Significance of Text Mining in Research: A Comprehensive Review

Text mining has emerged as a pivotal tool in various domains of research, revolutionizing the way scholars and scientists extract valuable insights from vast volumes of textual dat...

Optimisation of potash mining technology for cell and pillar mining method

The diverse demand for inorganic fertilizers has predetermined the intensification of potash mining, which is a raw material for their production. In this regard, it has become nec...

EATURES OF MONITORING OF TECHNOLOGICALLY LOADED AREAS CHANGED BY MILITARY ACTIONS

Coal mining regions of Ukraine are the most technogenically loaded due to the long period of their development. The negative impact on the environment caused by mining operations h...

Mining actionable combined high utility incremental and associated sequential patterns

High utility sequential pattern (HUSP) mining aims to mine actionable patterns with high utilities, widely applied in real-world learning scenarios such as market basket analysis, ...

French Technological Development in Nodule Mining

ABSTRACT Since 1971, AFERNOD has studied mining concepts which are adapted to the requirements of commercial exploitation of the nodules deposits together with su...

Email:
Password:

Email:

Sequential Pattern Generalization for Mining Multi-source Data

Related Results