Javascript must be enabled to continue!

Représentation et fouille de données volumineuses

Le stockage n'étant plus soumis à des contraintes de coût importantes, les systèmes d'information collectent une quantité croissante de données, souvent via des processus d'acquisition automatique. En parallèle, les objets d'intérêt sont devenus plus complexes. C'est le cas, par exemple, des images, du texte ou encore des puces à ADN. Pour leur analyse, les méthodes d'apprentissage doivent alors prendre en compte l'augmentation massive et conjointe du nombre d'exemples et d'attributs qui en résultent. Or, les outils classiques de l'apprentissage automatique ne sont pas toujours adaptés à ce changement de volumétrie tant au niveau de leur complexité algorithmique que pour appréhender la structure des données. Dans ce contexte de données volumineuses en apprentissage supervisé, nous nous sommes intéressés à l'extraction de deux catégories de connaissances, conjointement à la prédiction, la première relative à l'organisation des exemples entre eux et la seconde relative aux interactions qui existent entre les attributs. Pour nous intéresser aux relations entre les exemples, nous définissons le concept de représentation en apprentissage supervisé comme une modélisation et une visualisation des données à la fois du point de vue de la proximité entre les exemples et du lien entre la position des exemples et leur étiquette. Parmi les différents algorithmes recensés qui conduisent à l'obtention d'une telle représentation, nous retenons les cartes auto-organisatrices qui présentent la plus faible complexité algorithmique, ce qui les rend adaptées aux données volumineuses. L'algorithme des cartes auto-organisatrices étant nonsupervis é, nous proposons une adaptation à l'apprentissage supervisé par le biais des cartes étiquetées (Prudhomme et Lallich, 2005b). Nous montrons également qu'il est possible de valider statistiquement la qualité de la représentation obtenue par une telle carte (Prudhomme et Lallich, 2005a). Les statistiques que nous proposons sont corrélées avec le taux d'erreur en généralisation, ce qui permet de juger a priori de la qualité de la prédiction qui résulte de la carte. Néanmoins, la prédiction des cartes auto-organisatrices n'est pas toujours satisfaisante face à des données en grandes dimensions. Dans ce cas, nous avons recours aux méthodes ensemblistes. Ces méthodes agrègent la prédiction de plusieurs classifieurs simples. En créant une certaine diversité entre les prédictions de ces classifieurs, les méthodes ensemblistes améliorent la prédiction qui aurait été obtenue par un seul classifieur. Pour créer cette diversité, nous apprenons chaque classifieur simple (dans notre cas, des cartes auto-organisatrices) sur un sous-espace de l'espace d'apprentissage. La diversité est ainsi l'occasion de diminuer la dimensionnalité du problème. Afin de choisir au mieux les sous-espaces, nous nous sommes inspirés des connaissances théoriques disponibles sur la répartition de l'erreur en généralisation d'un ensemble. Nous avons alors proposé deux heuristiques. La première heuristique est non-supervisée. Elle repose sur l'interprétation des corrélations entre attributs pour déterminer les sous-espaces à apprendre (Prudhomme et Lallich, 2007). La seconde heuristique, au contraire, est supervisée. Elle optimise par un algorithme génétique une mesure de l'erreur d'un ensemble en fonction de l'erreur des classifieurs qui le composent (Prudhomme et Lallich, 2008b). Ces deux heuristiques conduisent à des ensembles de cartes (ou des comités de cartes) dont l'erreur en généralisation est plus faible que celle d'une carte seule apprise sur la totalité des attributs. Néanmoins, ils conduisent également à une multitude de représentations. Pour proposer une seule représentation à l'issue de l'apprentissage, nous introduisons la notion de stacking géographique. (...)

Agence Bibliographique de l'Enseignement Supérieur

Elie Prudhomme

2026

Title: Représentation et fouille de données volumineuses

Description:

En parallèle, les objets d'intérêt sont devenus plus complexes.

C'est le cas, par exemple, des images, du texte ou encore des puces à ADN.

Pour leur analyse, les méthodes d'apprentissage doivent alors prendre en compte l'augmentation massive et conjointe du nombre d'exemples et d'attributs qui en résultent.

Or, les outils classiques de l'apprentissage automatique ne sont pas toujours adaptés à ce changement de volumétrie tant au niveau de leur complexité algorithmique que pour appréhender la structure des données.

Dans ce contexte de données volumineuses en apprentissage supervisé, nous nous sommes intéressés à l'extraction de deux catégories de connaissances, conjointement à la prédiction, la première relative à l'organisation des exemples entre eux et la seconde relative aux interactions qui existent entre les attributs.

Pour nous intéresser aux relations entre les exemples, nous définissons le concept de représentation en apprentissage supervisé comme une modélisation et une visualisation des données à la fois du point de vue de la proximité entre les exemples et du lien entre la position des exemples et leur étiquette.

Parmi les différents algorithmes recensés qui conduisent à l'obtention d'une telle représentation, nous retenons les cartes auto-organisatrices qui présentent la plus faible complexité algorithmique, ce qui les rend adaptées aux données volumineuses.

L'algorithme des cartes auto-organisatrices étant nonsupervis é, nous proposons une adaptation à l'apprentissage supervisé par le biais des cartes étiquetées (Prudhomme et Lallich, 2005b).

Nous montrons également qu'il est possible de valider statistiquement la qualité de la représentation obtenue par une telle carte (Prudhomme et Lallich, 2005a).

Les statistiques que nous proposons sont corrélées avec le taux d'erreur en généralisation, ce qui permet de juger a priori de la qualité de la prédiction qui résulte de la carte.

Néanmoins, la prédiction des cartes auto-organisatrices n'est pas toujours satisfaisante face à des données en grandes dimensions.

Dans ce cas, nous avons recours aux méthodes ensemblistes.

Ces méthodes agrègent la prédiction de plusieurs classifieurs simples.

En créant une certaine diversité entre les prédictions de ces classifieurs, les méthodes ensemblistes améliorent la prédiction qui aurait été obtenue par un seul classifieur.

Pour créer cette diversité, nous apprenons chaque classifieur simple (dans notre cas, des cartes auto-organisatrices) sur un sous-espace de l'espace d'apprentissage.

La diversité est ainsi l'occasion de diminuer la dimensionnalité du problème.

Afin de choisir au mieux les sous-espaces, nous nous sommes inspirés des connaissances théoriques disponibles sur la répartition de l'erreur en généralisation d'un ensemble.

Nous avons alors proposé deux heuristiques.

La première heuristique est non-supervisée.

Elle repose sur l'interprétation des corrélations entre attributs pour déterminer les sous-espaces à apprendre (Prudhomme et Lallich, 2007).

La seconde heuristique, au contraire, est supervisée.

Elle optimise par un algorithme génétique une mesure de l'erreur d'un ensemble en fonction de l'erreur des classifieurs qui le composent (Prudhomme et Lallich, 2008b).

Ces deux heuristiques conduisent à des ensembles de cartes (ou des comités de cartes) dont l'erreur en généralisation est plus faible que celle d'une carte seule apprise sur la totalité des attributs.

Néanmoins, ils conduisent également à une multitude de représentations.

Pour proposer une seule représentation à l'issue de l'apprentissage, nous introduisons la notion de stacking géographique.

Back

Le présent travail a été initié dans le cadre d'un mandat donné à l'INRS-ETE par la Commission géologique du Canada (CGC) et le Ministère du Développement durable, de l'Environneme...

REGULAR ARTICLES

L. Cowen and C. J. Schwarz 657Les Radio‐tags, en raison de leur détectabilitéélevée, ...

Privacy preserving top-k query processing over outsourced data

Préservation de la confidentialité des données externalisées dans le traitement des requêtes top-k L’externalisation de données d’entreprise ou individuelles chez u...

Deep learning for time series classification

Apprentissage profond pour la classification des séries temporelles La science des données s’intéresse aux théories et aux algorithmes permettant d’extraire des con...

Co-evolution pattern mining in dynamic attributed graphs

Fouille de motifs de co-evolution dans des graphes dynamiques attribués Cette thèse s'est déroulée dans le cadre du projet ANR FOSTER, "FOuille de données Spatio-Te...

Contributions à la recherche de sous-groupes : définition, optimisation et exploitabilité

La Science des Données est un domaine qui s'intéresse à chaque étape de l'exploitation des données. En effet, ce domaine regroupe aussi bien les méthodes d'extraction de connaissan...

Fouille visuelle de données temporelles avec DataTube2

Nous nous intéressons dans cet article à la fouille visuelle de données temporelles, où les données ont été mises sous la forme de n attributs dont les valeurs sont enregistrées pe...

Scheduling in cloud data center powered by renewable energy only with mixed phases-based workload

Ordonnancement dans un centre de calculs alimenté par des sources d'énergie renouvelables sans connexion au réseau avec une charge de travail mixte basée sur des phases ...

Email:
Password:

Email:

Représentation et fouille de données volumineuses

Related Results