Introduction au traitement de gros volumes de données avec Hadoop et MapReduce
Introduction au traitement de gros volumes de données avec Hadoop et MapReduce
By Olivier Grisel (ogrisel)
Date: Friday, 2 October 2009 11:45
Duration: 40 minutes
Language: Français
Tags: bigdata cloud hadoop hive java mapreduce perl pig python ruby
You can find more information on the speaker's site:
Je vous propose de faire une introduction à l'infrastructure MapReduce pour paralléliser les traitements de gros volumes de données (indexation, analyse de logs, machine learning) sur des clusters de milliers de machines, potentiellement dans les nuages.
Après une présentation des considérations théoriques et pragmatiques qui ont poussé Google, Yahoo, Facebook et d'autres à adopter cette architecture nous nous intéresserons à l'implémentation Open Source du projet Apache Hadoop et de projets connexes comme Pig (langage de script haut niveau pour Hadoop), Hive (shell type SQL pour Hadoop) et Mahout (machine learning avec Hadoop MapReduce).
Enfin nous verrons comment scripter des traitements avec Perl, Python ou Ruby sur un cluster Hadoop MapReduce.
Attended by: Julien Blanchard, Arnaud Berthomier (oz), Franck Cuny, Jose Kahan, Viktor Horvath, Smylers, Laurent Jourdren, Pierre Bourdon, Jérôme Fenal, Stéphane Payrard (cognominal), Camille Maussang (cmaussan), Nils Grunwald, Frédéric Marand (OSInet), Grégoire Baron (baronchon), Philippe Bruhat (BooK),