Hadoop : développement avec MapReduce - DB014

Objectifs

Chefs de projets, développeurs, et toute personne souhaitant comprendre les techniques de développement avec MapReduce dans l'environnement Hadoop.

Programme

1. Introduction
Les fonctionnalités du framework Hadoop
Le projet et les modules :
Hadoop Common, HDFS, YARN, MapReduce
Utilisation de yarn pour piloter les jobs mapreduce.

2. MapReduce
Principe et objectifs du modèle de programmation MapReduce.
Fonctions map() et reduce().
Couples (clés, valeurs).
Implémentation par le framework Hadoop.
Etude de la collection d’exemples.
Rédaction d’un premier programme et exécution avec Hadoop.

3. Programmation
Configuration des jobs, notion de configuration.
Les interfaces principales : mapper, reducer,
La chaîne de production : entrées, input splits, mapper, combiner, shuffle/sort, reducer, sortie.
partitioner, outputcollector, codecs, compresseurs…
Format des entrées et sorties d’un job MapReduce :
InputFormat et OutputFormat.
Type personnalisés : création d’un writable spécifique. Utilisation. Contraintes.

4. Outils complémentaires
Mise en oeuvre du cache distribué.
Paramétrage d’un job : ToolRunner, transmission de propriétés.
Accès à des systèmes externes : S3, hdfs, har, …
Répartition du job sur la ferme au travers de yarn.

5. Streaming
Définition du streaming map/reduce.
Création d’un job map/reduce en python. Répartition sur la ferme.
Avantage et inconvénients. Liaisons avec des systèmes externes. Introduction au pont HadoopR
Suivi d’un job en streaming.

6. Pig
Pattern et best practices Map/reduce. Introduction à Pig.
Installation/lancement. Le langage : latin. Ecriture d’un script pig.
Les fonctions de bases.
Ajouts de fonctions personnalisées. Les UDF. Mise en oeuvre.

7. Hive
Simplification du requêtage. Syntaxe de base.
Création de tables. Ecriture de requêtes.
Comparaison pig/hive.

8. Securité
Configuration des ACLs.
Gestion de l’authentification.

Recherches

Tout le site Le catalogue

Liens directs