Search engine for discovering works of Art, research articles, and books related to Art and Culture
ShareThis
Javascript must be enabled to continue!

Declarative Approaches for Mining Frequent Itemsets over Transactional Databases

View through CrossRef
Approches déclaratives pour l'extraction des itemsets fréquents à partir des bases de données transactionnelles La fouille de données est une étape primordiale du processus d’extraction de connaissances à partir des données. Elle a pour but d’analyser de grandes quantités de données afin de découvrir des connaissances. L’extraction des itemsets fréquents à partir d’une base de données transactionnelle est l’une des tâches principales de la fouille de données, qui consiste à identifier divers types de motifs afin de répondre aux besoins des utilisateurs ou des applications. Différentes approches d’extraction des itemsets fréquents ont été introduites dans la littérature et peuvent être scindées en deux catégories: spécialisées et déclaratives.Les travaux de cette thèse se situent dans la seconde catégorie d’approches. Les approches déclaratives basées sur SAT pour l’extraction des itemsets fréquents se distinguent par leurs flexibilités et permettent d’extraire divers types de motifs particuliers par ajout de contraintes. Toutefois, ces approches sont inefficaces pour traiter les grandes bases de données transactionnellesdû principalement à la taille des encodages et au nombre élevé des itemsets à extraire. Dans notre première contribution, nous montrons les limites des approches d’énumération de modèles à base des solveurs CDCL pour ces encodages et proposons une solution alternative de type DPLL plus appropriée. Dans la deuxième contribution, et pour pallier le problème de la taille del’encodage, nous proposons d’utiliser une technique de partitionnement. Cela permet de ramener l’énumération de tous les modèles en l’énumération de modèles de sous-problèmes de taille réduite. Cette approche permet un passage à l’échelle et se montre plus performante que les approches basées sur la programmation par contraintes. Nous étendons également ce cadre pour considérer la résolution en parallèle des sous-problèmes générés. Notre troisième contribution est une nouvelle approche d’extraction des motifs fréquents maximaux, appelé SATMax, utilisant de manière originale les solveurs SAT pour énumérer efficacement tous les itemsets maximaux d’une base de données transactionnelle. L’évaluation expérimentale sur différents jeux de données montre l’efficacité de cette approche par rapport à quelques algorithmes spécialisés et déclaratifs de l’état de l’art. La dernière contribution de cette thèse porte sur l’énumération des motifs fréquents à partir des données incertaines. Nous étendons les approches déclaratives basées sur les contraintes. Nous montrons que la contrainte de support (expected support) donne lieu à une contrainte non linéaire. Nous introduisons par la suite une approche incrémentale en la taille des itemsets associée et une relaxation de la contrainte d’expected support exprimée par une contrainte linéaire permettant d’accélérer l’énumération.
Agence Bibliographique de l'Enseignement Supérieur
Title: Declarative Approaches for Mining Frequent Itemsets over Transactional Databases
Description:
Approches déclaratives pour l'extraction des itemsets fréquents à partir des bases de données transactionnelles La fouille de données est une étape primordiale du processus d’extraction de connaissances à partir des données.
Elle a pour but d’analyser de grandes quantités de données afin de découvrir des connaissances.
L’extraction des itemsets fréquents à partir d’une base de données transactionnelle est l’une des tâches principales de la fouille de données, qui consiste à identifier divers types de motifs afin de répondre aux besoins des utilisateurs ou des applications.
Différentes approches d’extraction des itemsets fréquents ont été introduites dans la littérature et peuvent être scindées en deux catégories: spécialisées et déclaratives.
Les travaux de cette thèse se situent dans la seconde catégorie d’approches.
Les approches déclaratives basées sur SAT pour l’extraction des itemsets fréquents se distinguent par leurs flexibilités et permettent d’extraire divers types de motifs particuliers par ajout de contraintes.
Toutefois, ces approches sont inefficaces pour traiter les grandes bases de données transactionnellesdû principalement à la taille des encodages et au nombre élevé des itemsets à extraire.
Dans notre première contribution, nous montrons les limites des approches d’énumération de modèles à base des solveurs CDCL pour ces encodages et proposons une solution alternative de type DPLL plus appropriée.
Dans la deuxième contribution, et pour pallier le problème de la taille del’encodage, nous proposons d’utiliser une technique de partitionnement.
Cela permet de ramener l’énumération de tous les modèles en l’énumération de modèles de sous-problèmes de taille réduite.
Cette approche permet un passage à l’échelle et se montre plus performante que les approches basées sur la programmation par contraintes.
Nous étendons également ce cadre pour considérer la résolution en parallèle des sous-problèmes générés.
Notre troisième contribution est une nouvelle approche d’extraction des motifs fréquents maximaux, appelé SATMax, utilisant de manière originale les solveurs SAT pour énumérer efficacement tous les itemsets maximaux d’une base de données transactionnelle.
L’évaluation expérimentale sur différents jeux de données montre l’efficacité de cette approche par rapport à quelques algorithmes spécialisés et déclaratifs de l’état de l’art.
La dernière contribution de cette thèse porte sur l’énumération des motifs fréquents à partir des données incertaines.
Nous étendons les approches déclaratives basées sur les contraintes.
Nous montrons que la contrainte de support (expected support) donne lieu à une contrainte non linéaire.
Nous introduisons par la suite une approche incrémentale en la taille des itemsets associée et une relaxation de la contrainte d’expected support exprimée par une contrainte linéaire permettant d’accélérer l’énumération.

Related Results

An algebraic semigroup method for discovering maximal frequent itemsets
An algebraic semigroup method for discovering maximal frequent itemsets
Abstract Discovering maximal frequent itemsets is an important issue and key technique in many data mining problems such as association rule mining. In the literatur...
Fouille de représentations concises des motifs fréquents à travers les espaces de recherche conjonctif et disjonctif
Fouille de représentations concises des motifs fréquents à travers les espaces de recherche conjonctif et disjonctif
Durant ces dernières années, les quantités de données collectées, dans divers domaines d'application de l'informatique, deviennent de plus en plus importantes. Cela suscite le beso...
An HIV prevention intervention helps immigrants open up about transactional sex. The Makasi study
An HIV prevention intervention helps immigrants open up about transactional sex. The Makasi study
Abstract Background Transactional sex is known to be an exposure factor for HIV acquisition among immigrants in France. We analy...
Light at the End of the Tunnel: Mining Justice and Health
Light at the End of the Tunnel: Mining Justice and Health
The mining industry provides valuable mined commodities and financial support for communities worldwide. Mining has become safer for workers. Significant injustices, however, are c...
Distributed frequent hierarchical pattern mining for robust and efficient large-scale association discovery
Distributed frequent hierarchical pattern mining for robust and efficient large-scale association discovery
Frequent pattern mining is a classic data mining technique, generally applicable to a wide range of application domains, and a mature area of research. The fundamental challenge ar...
Cross-Entropy Assisted Optimization Technique for High Utility Itemset Mining from the Transactional Database
Cross-Entropy Assisted Optimization Technique for High Utility Itemset Mining from the Transactional Database
High Utility Itemset Mining (HUIM) is the process of discovering profitable itemsets in a transactional database with a high utility or profit range. This technique is mainly used ...
Transactional sex among women in Sub-Saharan Africa: A systematic review and meta-analysis
Transactional sex among women in Sub-Saharan Africa: A systematic review and meta-analysis
Introduction Transactional sex is casual sex between two people to receive material incentives in exchange for sexual favors. Transactional sex is associated with negative conseque...
Impact of Mining on Socioeconomic Status in Puno, Peru
Impact of Mining on Socioeconomic Status in Puno, Peru
This study examines the direct and indirect effects of mining activities on key socioeconomic indicators such as per capita income, the Human Development Index (HDI), and education...

Back to Top