Javascript must be enabled to continue!

Improving MapReduce Performance on Clusters

Amélioration des performances de MapReduce sur grappe de calcul Beaucoup de disciplines scientifiques s'appuient désormais sur l'analyse et la fouille de masses gigantesques de données pour produire de nouveaux résultats. Ces données brutes sont produites à des débits toujours plus élevés par divers types d'instruments tels que les séquenceurs d'ADN en biologie, le Large Hadron Collider (LHC) qui produisait en 2012, 25 pétaoctets par an, ou les grands télescopes tels que le Large Synoptic Survey Telescope (LSST) qui devrait produire 30 pétaoctets par nuit. Les scanners haute résolution en imagerie médicale et l'analyse de réseaux sociaux produisent également d'énormes volumes de données. Ce déluge de données soulève de nombreux défis en termes de stockage et de traitement informatique. L'entreprise Google a proposé en 2004 d'utiliser le modèle de calcul MapReduce afin de distribuer les calculs sur de nombreuses machines.Cette thèse s'intéresse essentiellement à améliorer les performances d'un environnement MapReduce. Pour cela, une conception modulaire et adaptable d'un environnement MapReduce est nécessaire afin de remplacer aisément les briques logicielles nécessaires à l'amélioration des performances. C'est pourquoi une approche à base de composants est étudiée pour concevoir un tel environnement de programmation. Afin d'étudier les performances d'une application MapReduce, il est nécessaire de modéliser la plate-forme, l'application et leurs performances. Ces modèles doivent être à la fois suffisamment précis pour que les algorithmes les utilisant produisent des résultats pertinents, mais aussi suffisamment simple pour être analysés. Un état de l'art des modèles existants est effectué et un nouveau modèle correspondant aux besoins d'optimisation est défini. De manière à optimiser un environnement MapReduce la première approche étudiée est une approche d'optimisation globale qui aboutit à une amélioration du temps de calcul jusqu'à 47 %. La deuxième approche se concentre sur la phase de shuffle de MapReduce où tous les nœuds envoient potentiellement des données à tous les autres nœuds. Différents algorithmes sont définis et étudiés dans le cas où le réseau est un goulet d'étranglement pour les transferts de données. Ces algorithmes sont mis à l'épreuve sur la plate-forme expérimentale Grid'5000 et montrent souvent un comportement proche de la borne inférieure alors que l'approche naïve en est éloignée.

Agence Bibliographique de l'Enseignement Supérieur

Sylvain Gault

2026

Title: Improving MapReduce Performance on Clusters

Description:

Ces données brutes sont produites à des débits toujours plus élevés par divers types d'instruments tels que les séquenceurs d'ADN en biologie, le Large Hadron Collider (LHC) qui produisait en 2012, 25 pétaoctets par an, ou les grands télescopes tels que le Large Synoptic Survey Telescope (LSST) qui devrait produire 30 pétaoctets par nuit.

Les scanners haute résolution en imagerie médicale et l'analyse de réseaux sociaux produisent également d'énormes volumes de données.

Ce déluge de données soulève de nombreux défis en termes de stockage et de traitement informatique.

L'entreprise Google a proposé en 2004 d'utiliser le modèle de calcul MapReduce afin de distribuer les calculs sur de nombreuses machines.

Cette thèse s'intéresse essentiellement à améliorer les performances d'un environnement MapReduce.

Pour cela, une conception modulaire et adaptable d'un environnement MapReduce est nécessaire afin de remplacer aisément les briques logicielles nécessaires à l'amélioration des performances.

C'est pourquoi une approche à base de composants est étudiée pour concevoir un tel environnement de programmation.

Afin d'étudier les performances d'une application MapReduce, il est nécessaire de modéliser la plate-forme, l'application et leurs performances.

Ces modèles doivent être à la fois suffisamment précis pour que les algorithmes les utilisant produisent des résultats pertinents, mais aussi suffisamment simple pour être analysés.

Un état de l'art des modèles existants est effectué et un nouveau modèle correspondant aux besoins d'optimisation est défini.

De manière à optimiser un environnement MapReduce la première approche étudiée est une approche d'optimisation globale qui aboutit à une amélioration du temps de calcul jusqu'à 47 %.

La deuxième approche se concentre sur la phase de shuffle de MapReduce où tous les nœuds envoient potentiellement des données à tous les autres nœuds.

Différents algorithmes sont définis et étudiés dans le cas où le réseau est un goulet d'étranglement pour les transferts de données.

Ces algorithmes sont mis à l'épreuve sur la plate-forme expérimentale Grid'5000 et montrent souvent un comportement proche de la borne inférieure alors que l'approche naïve en est éloignée.

Back

In recent years there has been an extraordinary growth of large-scale data processing and related technologies in both, industry and academic communities. This trend is mostly driv...

Optimizing data management for MapReduce applications on large-scale distributed infrastructures

Optimisation de la gestion des données pour les applications MapReduce sur des infrastructures distribuées à grande échelle Les applications data-intensive sont lar...

Efficient parallel implementation of the SHRiMP sequence alignment tool using MapReduce

With the advent of ultra high-throughput DNA sequencing technologies used in Next-Generation Sequencing (NGS) machines, we are facing a daunting new era in petabyte scale bioinform...

OPTIMIZATION OF WORK LOAD USING MAP REDUCE FRAMEWORK: Review Study

The term Optimize is “to make perfect”. It’s means choosing the best element from some set of available alternatives. Within the past few years, organizations in diverse industries...

Cooperative Co-Evolution and MapReduce

Real-word large-scale optimisation problems often result in local optima due to their large search space and complex objective function. Hence, traditional evolutionary algorithms ...

Embedded Clusters in Molecular Clouds

▪ Abstract Stellar clusters are born embedded within giant molecular clouds (GMCs) and during their formation and early evolution are often only visible at infrared wavelengths, b...

Elaboration of a structural, petrophysical and mechanical model of faults in porous sandstones : implication for migration and fluid entrapment

Élaboration d'un modèle structural, pétrophysique et mécanique de failles dans les grès poreux : implication pour la migration et le piégeage des fluides La catacla...

Syntaxin clusters and cholesterol affect the mobility of Syntaxin1a

ABSTRACT Syntaxin1a (Syx1a) is essential for stimulated exocytosis in neuroendocrine cells. The vesicle docking process involves the formation of...

Email:
Password:

Email:

Improving MapReduce Performance on Clusters

Related Results