Introduction au traitement de gros volumes de données avec Hadoop et MapReduce

Introduction au traitement de gros volumes de données avec Hadoop et MapReduce

Par Olivier Grisel (‎ogrisel‎)
Date : vendredi 2 octobre 2009 11h45
Durée : 40 minutes
Langue : Français
Tags : bigdata cloud hadoop hive java mapreduce perl pig python ruby

Vous pouvez trouver plus d'information sur le site du présentateur :


Je vous propose de faire une introduction à l'infrastructure MapReduce pour paralléliser les traitements de gros volumes de données (indexation, analyse de logs, machine learning) sur des clusters de milliers de machines, potentiellement dans les nuages.

Après une présentation des considérations théoriques et pragmatiques qui ont poussé Google, Yahoo, Facebook et d'autres à adopter cette architecture nous nous intéresserons à l'implémentation Open Source du projet Apache Hadoop et de projets connexes comme Pig (langage de script haut niveau pour Hadoop), Hive (shell type SQL pour Hadoop) et Mahout (machine learning avec Hadoop MapReduce).

Enfin nous verrons comment scripter des traitements avec Perl, Python ou Ruby sur un cluster Hadoop MapReduce.


Présentation suivie par: Julien Blanchard, Arnaud Berthomier (‎oz‎), Franck Cuny, Jose Kahan, Viktor Horvath, Smylers, Laurent Jourdren, Pierre Bourdon, Jérôme Fenal, Stéphane Payrard (‎cognominal‎), Camille Maussang (‎cmaussan‎), Nils Grunwald, Frédéric Marand (‎OSInet‎), Grégoire Baron (‎baronchon‎), Philippe Bruhat (‎BooK‎),