Search engine for discovering works of Art, research articles, and books related to Art and Culture
ShareThis
Javascript must be enabled to continue!

Improving MapReduce Performance on Clusters

View through CrossRef
Amélioration des performances de MapReduce sur grappe de calcul Beaucoup de disciplines scientifiques s'appuient désormais sur l'analyse et la fouille de masses gigantesques de données pour produire de nouveaux résultats. Ces données brutes sont produites à des débits toujours plus élevés par divers types d'instruments tels que les séquenceurs d'ADN en biologie, le Large Hadron Collider (LHC) qui produisait en 2012, 25 pétaoctets par an, ou les grands télescopes tels que le Large Synoptic Survey Telescope (LSST) qui devrait produire 30 pétaoctets par nuit. Les scanners haute résolution en imagerie médicale et l'analyse de réseaux sociaux produisent également d'énormes volumes de données. Ce déluge de données soulève de nombreux défis en termes de stockage et de traitement informatique. L'entreprise Google a proposé en 2004 d'utiliser le modèle de calcul MapReduce afin de distribuer les calculs sur de nombreuses machines.Cette thèse s'intéresse essentiellement à améliorer les performances d'un environnement MapReduce. Pour cela, une conception modulaire et adaptable d'un environnement MapReduce est nécessaire afin de remplacer aisément les briques logicielles nécessaires à l'amélioration des performances. C'est pourquoi une approche à base de composants est étudiée pour concevoir un tel environnement de programmation. Afin d'étudier les performances d'une application MapReduce, il est nécessaire de modéliser la plate-forme, l'application et leurs performances. Ces modèles doivent être à la fois suffisamment précis pour que les algorithmes les utilisant produisent des résultats pertinents, mais aussi suffisamment simple pour être analysés. Un état de l'art des modèles existants est effectué et un nouveau modèle correspondant aux besoins d'optimisation est défini. De manière à optimiser un environnement MapReduce la première approche étudiée est une approche d'optimisation globale qui aboutit à une amélioration du temps de calcul jusqu'à 47 %. La deuxième approche se concentre sur la phase de shuffle de MapReduce où tous les nœuds envoient potentiellement des données à tous les autres nœuds. Différents algorithmes sont définis et étudiés dans le cas où le réseau est un goulet d'étranglement pour les transferts de données. Ces algorithmes sont mis à l'épreuve sur la plate-forme expérimentale Grid'5000 et montrent souvent un comportement proche de la borne inférieure alors que l'approche naïve en est éloignée.
Agence Bibliographique de l'Enseignement Supérieur
Title: Improving MapReduce Performance on Clusters
Description:
Amélioration des performances de MapReduce sur grappe de calcul Beaucoup de disciplines scientifiques s'appuient désormais sur l'analyse et la fouille de masses gigantesques de données pour produire de nouveaux résultats.
Ces données brutes sont produites à des débits toujours plus élevés par divers types d'instruments tels que les séquenceurs d'ADN en biologie, le Large Hadron Collider (LHC) qui produisait en 2012, 25 pétaoctets par an, ou les grands télescopes tels que le Large Synoptic Survey Telescope (LSST) qui devrait produire 30 pétaoctets par nuit.
Les scanners haute résolution en imagerie médicale et l'analyse de réseaux sociaux produisent également d'énormes volumes de données.
Ce déluge de données soulève de nombreux défis en termes de stockage et de traitement informatique.
L'entreprise Google a proposé en 2004 d'utiliser le modèle de calcul MapReduce afin de distribuer les calculs sur de nombreuses machines.
Cette thèse s'intéresse essentiellement à améliorer les performances d'un environnement MapReduce.
Pour cela, une conception modulaire et adaptable d'un environnement MapReduce est nécessaire afin de remplacer aisément les briques logicielles nécessaires à l'amélioration des performances.
C'est pourquoi une approche à base de composants est étudiée pour concevoir un tel environnement de programmation.
Afin d'étudier les performances d'une application MapReduce, il est nécessaire de modéliser la plate-forme, l'application et leurs performances.
Ces modèles doivent être à la fois suffisamment précis pour que les algorithmes les utilisant produisent des résultats pertinents, mais aussi suffisamment simple pour être analysés.
Un état de l'art des modèles existants est effectué et un nouveau modèle correspondant aux besoins d'optimisation est défini.
De manière à optimiser un environnement MapReduce la première approche étudiée est une approche d'optimisation globale qui aboutit à une amélioration du temps de calcul jusqu'à 47 %.
La deuxième approche se concentre sur la phase de shuffle de MapReduce où tous les nœuds envoient potentiellement des données à tous les autres nœuds.
Différents algorithmes sont définis et étudiés dans le cas où le réseau est un goulet d'étranglement pour les transferts de données.
Ces algorithmes sont mis à l'épreuve sur la plate-forme expérimentale Grid'5000 et montrent souvent un comportement proche de la borne inférieure alors que l'approche naïve en est éloignée.

Related Results

Multi-constraint scheduling of MapReduce workloads
Multi-constraint scheduling of MapReduce workloads
In recent years there has been an extraordinary growth of large-scale data processing and related technologies in both, industry and academic communities. This trend is mostly driv...
Optimizing data management for MapReduce applications on large-scale distributed infrastructures
Optimizing data management for MapReduce applications on large-scale distributed infrastructures
Optimisation de la gestion des données pour les applications MapReduce sur des infrastructures distribuées à grande échelle Les applications data-intensive sont lar...
Efficient parallel implementation of the SHRiMP sequence alignment tool using MapReduce
Efficient parallel implementation of the SHRiMP sequence alignment tool using MapReduce
With the advent of ultra high-throughput DNA sequencing technologies used in Next-Generation Sequencing (NGS) machines, we are facing a daunting new era in petabyte scale bioinform...
OPTIMIZATION OF WORK LOAD USING MAP REDUCE FRAMEWORK: Review Study
OPTIMIZATION OF WORK LOAD USING MAP REDUCE FRAMEWORK: Review Study
The term Optimize is “to make perfect”. It’s means choosing the best element from some set of available alternatives. Within the past few years, organizations in diverse industries...
Cooperative Co-Evolution and MapReduce
Cooperative Co-Evolution and MapReduce
Real-word large-scale optimisation problems often result in local optima due to their large search space and complex objective function. Hence, traditional evolutionary algorithms ...
Embedded Clusters in Molecular Clouds
Embedded Clusters in Molecular Clouds
▪ Abstract  Stellar clusters are born embedded within giant molecular clouds (GMCs) and during their formation and early evolution are often only visible at infrared wavelengths, b...
Syntaxin clusters and cholesterol affect the mobility of Syntaxin1a
Syntaxin clusters and cholesterol affect the mobility of Syntaxin1a
ABSTRACT Syntaxin1a (Syx1a) is essential for stimulated exocytosis in neuroendocrine cells. The vesicle docking process involves the formation of...

Back to Top