Javascript must be enabled to continue!
Optimizing data management for MapReduce applications on large-scale distributed infrastructures
View through CrossRef
Optimisation de la gestion des données pour les applications MapReduce sur des infrastructures distribuées à grande échelle
Les applications data-intensive sont largement utilisées au sein de domaines diverses dans le but d'extraire et de traiter des informations, de concevoir des systèmes complexes, d'effectuer des simulations de modèles réels, etc. Ces applications posent des défis complexes tant en termes de stockage que de calcul. Dans le contexte des applications data-intensive, nous nous concentrons sur le paradigme MapReduce et ses mises en oeuvre. Introduite par Google, l'abstraction MapReduce a révolutionné la communauté intensif de données et s'est rapidement étendue à diverses domaines de recherche et de production. Une implémentation domaine publique de l'abstraction mise en avant par Google, a été fournie par Yahoo à travers du project Hadoop. Le framework Hadoop est considéré l'implémentation de référence de MapReduce et est actuellement largement utilisé à des fins diverses et sur plusieurs infrastructures. Nous proposons un système de fichiers distribué, optimisé pour des accès hautement concurrents, qui puisse servir comme couche de stockage pour des applications MapReduce. Nous avons conçu le BlobSeer File System (BSFS), basé sur BlobSeer, un service de stockage distribué, hautement efficace, facilitant le partage de données à grande échelle. Nous étudions également plusieurs aspects liés à la gestion des données intermédiaires dans des environnements MapReduce. Nous explorons les contraintes des données intermédiaires MapReduce à deux niveaux: dans le même job MapReduce et pendant l'exécution des pipelines d'applications MapReduce. Enfin, nous proposons des extensions de Hadoop, un environnement MapReduce populaire et open-source, comme par example le support de l'opération append. Ce travail inclut également l'évaluation et les résultats obtenus sur des infrastructures à grande échelle: grilles informatiques et clouds.
Title: Optimizing data management for MapReduce applications on large-scale distributed infrastructures
Description:
Optimisation de la gestion des données pour les applications MapReduce sur des infrastructures distribuées à grande échelle
Les applications data-intensive sont largement utilisées au sein de domaines diverses dans le but d'extraire et de traiter des informations, de concevoir des systèmes complexes, d'effectuer des simulations de modèles réels, etc.
Ces applications posent des défis complexes tant en termes de stockage que de calcul.
Dans le contexte des applications data-intensive, nous nous concentrons sur le paradigme MapReduce et ses mises en oeuvre.
Introduite par Google, l'abstraction MapReduce a révolutionné la communauté intensif de données et s'est rapidement étendue à diverses domaines de recherche et de production.
Une implémentation domaine publique de l'abstraction mise en avant par Google, a été fournie par Yahoo à travers du project Hadoop.
Le framework Hadoop est considéré l'implémentation de référence de MapReduce et est actuellement largement utilisé à des fins diverses et sur plusieurs infrastructures.
Nous proposons un système de fichiers distribué, optimisé pour des accès hautement concurrents, qui puisse servir comme couche de stockage pour des applications MapReduce.
Nous avons conçu le BlobSeer File System (BSFS), basé sur BlobSeer, un service de stockage distribué, hautement efficace, facilitant le partage de données à grande échelle.
Nous étudions également plusieurs aspects liés à la gestion des données intermédiaires dans des environnements MapReduce.
Nous explorons les contraintes des données intermédiaires MapReduce à deux niveaux: dans le même job MapReduce et pendant l'exécution des pipelines d'applications MapReduce.
Enfin, nous proposons des extensions de Hadoop, un environnement MapReduce populaire et open-source, comme par example le support de l'opération append.
Ce travail inclut également l'évaluation et les résultats obtenus sur des infrastructures à grande échelle: grilles informatiques et clouds.
Related Results
Multi-constraint scheduling of MapReduce workloads
Multi-constraint scheduling of MapReduce workloads
In recent years there has been an extraordinary growth of large-scale data processing and related technologies in both, industry and academic communities. This trend is mostly driv...
Improving MapReduce Performance on Clusters
Improving MapReduce Performance on Clusters
Amélioration des performances de MapReduce sur grappe de calcul
Beaucoup de disciplines scientifiques s'appuient désormais sur l'analyse et la fouille de masses gig...
Cooperative Co-Evolution and MapReduce
Cooperative Co-Evolution and MapReduce
Real-word large-scale optimisation problems often result in local optima due to their large search space and complex objective function. Hence, traditional evolutionary algorithms ...
Efficient parallel implementation of the SHRiMP sequence alignment tool using MapReduce
Efficient parallel implementation of the SHRiMP sequence alignment tool using MapReduce
With the advent of ultra high-throughput DNA sequencing technologies used in Next-Generation Sequencing (NGS) machines, we are facing a daunting new era in petabyte scale bioinform...
Information Infrastructures in India
Information Infrastructures in India
Abstract
Infrastructure has defined India. The British had introduced India to the infrastructures of modernity including railways, roads, the telegraph, and cities....
MR-AT: Map Reduce based Apriori Technique for Sequential Pattern Mining using Big Data in Hadoop
MR-AT: Map Reduce based Apriori Technique for Sequential Pattern Mining using Big Data in Hadoop
One of the most well-known and widely implemented data mining methods is Apriori algorithm which is responsible for mining frequent item sets. The effectiveness of the Apriori algo...
OPTIMIZATION OF WORK LOAD USING MAP REDUCE FRAMEWORK: Review Study
OPTIMIZATION OF WORK LOAD USING MAP REDUCE FRAMEWORK: Review Study
The term Optimize is “to make perfect”. It’s means choosing the best element from some set of available alternatives. Within the past few years, organizations in diverse industries...
Simplified Mapreduce Mechanism for Large Scale Data Processing
Simplified Mapreduce Mechanism for Large Scale Data Processing
MapReduce has become a popular programming model for processing and running large-scale data sets with a parallel, distributed paradigm on a cluster. Hadoop MapReduce is needed esp...

