Javascript must be enabled to continue!

Development of clustering algorithms for categorical data and applications in Health

Dévelopement de nouveaux algorithmes de classification non-supervisée pour des données catégorielles et applications en santé La classification non supervisée est une méthode d'apprentissage automatique populaire qui consiste à regrouper des objets de données similaires dans le même groupe et des objets dissemblables dans différents groupes. Parmi les méthodes de classification, on peut distinguer les méthodes basées sur des partitions qui produisent des partitions d'objets de données. Selon la théorie utilisée, les partitions obtenues peuvent être de différents types. En utilisant la théorie des ensembles (durs), les partitions produite sont dites dures. Les théories d'imprécision et d'incertitude telles que la théorie des ensembles flous et la théorie des fonctions de croyances de Dempster-Shafer peuvent être utilisées pour obtenir des partitions floues.Dans cette thèse, une extension de la méthode de classification des k-modes flous appelée c-moyennes floues catégorielles avec entropie est proposée dans un premier temps. La nouvelle méthode utilise la théorie des ensembles flous pour modéliser l'imprécision des affectations d'objets aux classes et la représentations des centres des classes en associant des poids à chaque catégorie d'attributs qui indiquent leur importance. Par la suite, une deuxième nouvelle méthode appelée c-moyennes évidentielles catégorielles est proposée comme une version catégorielle de l'algorithme des c-moyennes évidentielles. Cette dernière méthode utilise la théorie des fonctions de croyance Dempster-Shafer afin de modéliser l'incertitude de la classification des objets.Plusieurs expériences sur différentes données ont été menées pour illustrer les points forts des nouvelles méthodes et pour comparer ces dernières avec des méthodes de classification numériques et catégorielles existantes. En outre, les deux méthodes ont été utilisées pour étudier la réplication de nouvelles découvertes en sciences du développement sur l'influence des facteurs liés au mode de vie sur la santé cognitive. Les résultats de ces expériences ont montré que les méthodes proposées ont de bonnes performances et peuvent gérer des données imparfaites. Enfin, des orientations de recherche sont données pour étendre les deux méthodes afin de capturer les relations non linéaires entre les variables des données d'entrée et pour des données de temporelles.

Agence Bibliographique de l'Enseignement Supérieur

Abdoul Jalil Djiberou Mahamadou

2026

Title: Development of clustering algorithms for categorical data and applications in Health

Description:

Parmi les méthodes de classification, on peut distinguer les méthodes basées sur des partitions qui produisent des partitions d'objets de données.

Selon la théorie utilisée, les partitions obtenues peuvent être de différents types.

En utilisant la théorie des ensembles (durs), les partitions produite sont dites dures.

Les théories d'imprécision et d'incertitude telles que la théorie des ensembles flous et la théorie des fonctions de croyances de Dempster-Shafer peuvent être utilisées pour obtenir des partitions floues.

Dans cette thèse, une extension de la méthode de classification des k-modes flous appelée c-moyennes floues catégorielles avec entropie est proposée dans un premier temps.

La nouvelle méthode utilise la théorie des ensembles flous pour modéliser l'imprécision des affectations d'objets aux classes et la représentations des centres des classes en associant des poids à chaque catégorie d'attributs qui indiquent leur importance.

Par la suite, une deuxième nouvelle méthode appelée c-moyennes évidentielles catégorielles est proposée comme une version catégorielle de l'algorithme des c-moyennes évidentielles.

Cette dernière méthode utilise la théorie des fonctions de croyance Dempster-Shafer afin de modéliser l'incertitude de la classification des objets.

Plusieurs expériences sur différentes données ont été menées pour illustrer les points forts des nouvelles méthodes et pour comparer ces dernières avec des méthodes de classification numériques et catégorielles existantes.

En outre, les deux méthodes ont été utilisées pour étudier la réplication de nouvelles découvertes en sciences du développement sur l'influence des facteurs liés au mode de vie sur la santé cognitive.

Les résultats de ces expériences ont montré que les méthodes proposées ont de bonnes performances et peuvent gérer des données imparfaites.

Enfin, des orientations de recherche sont données pour étendre les deux méthodes afin de capturer les relations non linéaires entre les variables des données d'entrée et pour des données de temporelles.

Back

Related Results

ACKNOWLEDGMENTS

The UP Manila Health Policy Development Hub recognizes the invaluable contribution of the participants in theseries of roundtable discussions listed below: RTD: Beyond Hospit...

The Kernel Rough K-Means Algorithm

Background: Clustering is one of the most important data mining methods. The k-means (c-means ) and its derivative methods are the hotspot in the field of clustering research in re...

How suitable are clustering methods for functional annotation of proteins?

Abstract The advent of affordable high-throughput genome sequencing has drastically expanded protein sequence databases, necessitating the development of computatio...

Clustering Analysis of Data with High Dimensionality

Clustering analysis has been widely applied in diverse fields such as data mining, access structures, knowledge discovery, software engineering, organization of information systems...

An Ensemble Clustering Method Based on Several Different Clustering Methods

Abstract As an unsupervised learning method, clustering is done to find natural groupings of patterns, points, or objects. In clustering algorithms, an important problem is...

A COMPARATIVE ANALYSIS OF K-MEANS AND HIERARCHICAL CLUSTERING

Clustering is the process of arranging comparable data elements into groups. One of the most frequent data mining analytical techniques is clustering analysis; the clustering algor...

A Proposed Clustering Algorithm for Efficient Clustering of High-Dimensional Data

To partition transaction data values, clustering algorithms are used. To analyse the relationships between transactions, similarity measures are utilized. Similarity models based o...

Image clustering using exponential discriminant analysis

Local learning based image clustering models are usually employed to deal with images sampled from the non‐linear manifold. Recently, linear discriminant analysis (LDA) based vario...

Email:
Password:

Email: