BigData : Architecture et technologies - BD001

Objectifs

Comprendre les concepts du BigData et savoir quelles sont les technologies implémentées.

Programme

Module 1 : Introduction
– Le besoin : volumes importants de données, traitements optimisés de flux de données au fil de l’eau, liés aux nouvelles technologies et aux nouveaux usages.
– Domaines concernés : recherche scientifique, médical, e-commerce, sécurité…
– Développement des techniques sur différents aspects : stockage, indexation/recherche, calcul.
– Définition ETL : Extract Transform Load.
– Les acteurs.

Module 2 : Stockage
– Caractéristiques NoSQL :
– Structure de données proches des utilisateurs, développeurs
– Données structurées et non structurées, documents, images,fichiers XML, JSON, CSV, …
– Les différents modes et formats de stockage.
– Stockage réparti : réplication, sharping, gossip protocl, hachage,
– Systèmes de fichiers distribués : GFS, HDFS, BigTable, …
– Les bases de données.
– Quelques exemples de produits et leurs caractéritiques : cassandra, MongoDB, CouchDB,DynamoDB.

Module 3 : Indexation et recherche
– Moteurs de recherche.
– Principe de fonctionnement.
– Méthodes d’indexation.
– Exemple de Lucene, et mise en oeuvre avec solr.
– Recherche dans les bases de volumes importants :
– Exemples de produits et comparaison : dremel, drill, elasticsearch, MapReduce,

Module 4 : Calcul et restitution, intégration
– Différentes solutions : calculs en mode batch, ou en temps réel, sur des flux de données ou des données statiques.
– Les produits : langage de calculs statistiques, R Statistics Language
– Outils de calcul sur des volumes importants : storm en temps réel, hadoop en mode batch.
– Zoom sur Hadoop : complémentarité de HDMS et MapReduce.
– Evolutions
– Les offres Saas BigData comme Google BigQuery.
– Les limites. Les nouveautés annoncées

Recherches

Tout le site Le catalogue

Liens directs