Accueil / Introduction à Hadoop – Ecosystème et architecture

Introduction à Hadoop – Ecosystème et architecture

Durée : 1 jour
Tarif Inter : 800 €
Tarif sur mesure : Nous consulter
Référence : 4BHA

  • Partagez sur
  • Téléchargez en
  • Inscrivez vous
Programme Public & Pré-requis Organisation

Présentation

Cette formation vous montrera comment utiliser les principales technologies Open Source afin de tirer une valeur significative d’ensembles de données extrêmement volumineux.

Vous verrez comment relever les défis de la gestion et de l’analyse des données volumineuses à l’aide d’Apache Hadoop et des outils constituant son écosystème.

Objectifs

  • Connaître les différents éléments de l’écosystème Hadoop et leurs rôles respectifs.
  • Comprendre l’architecture des applicatifs Hadoop.
  • Comprendre les apports et cas d’usage des solutions Hadoop.

Programme

  1. Architecture Hadoop

    • Histoire de Hadoop – Facebook, Dynamo, Yahoo, Google
    • Le noyau Hadoop
    • Architecture YARN, Hadoop 2.0
  2. Système de fichiers distribués Hadoop (HDFS)

    • Clusters HDFS – NameNodes, DataNodes et clients
    • Métadonnées
    • Administration en ligne
  3. MapReduce

    • Traitement et génération de grands ensembles de données
    • Fonctions Map
    • Programmation de MapReduce à l’aide de SQL / Bash / Python
    • Traitement parallèle
    • Failover
  4. Entreposage de données avec Hive

    • Synthétisation des données
    • Requêtes ad-hoc
    • Analyser de grands ensembles de données
    • HiveQL (langage de requête de type SQL)
    • Intégration avec les bases de données SQL
    • Analyse des n-grammes
  5. Traitement parallèle avec Pig

    • Évaluation parallèle
    • Interface du langage de requête
    • Algèbre relationnelle
  6. Extraction de données avec Mahout

    • Regroupement ou Clustering
    • Classification
    • Filtrage collaboratif par lots
  7. Recherche avec Elastic Search

    • Concepts de recherche Elastic
    • Installation, importation des données
    • Démonstration de l’API, exemples de requêtes
  8. Stockage de données structurées avec HBase

    • Big Data : échelle de taille d’un grand ensemble de données.
    • Optimiser l’accès en lecture/écriture en temps réel
  9. Base de données multi-master Cassandra

    • Le modèle de données de Cassandra
    • Cohérence éventuelle
    • Quand utiliser Cassandra
  10. Redis

    • Modèle de données Redis
    • Quand utiliser Redis
  11. MongoDB

    • Modèle de données MongoDB
    • Installation de MongoDB
    • Quand utiliser MongoDB
  12. Kafka

    • L’architecture de Kafka
    • Installation
    • Exemple d’utilisation
    • Quand utiliser Kafka
  13. Architecture Lambda

    • Concept
    • Hadoop + Intégration du traitement des flux
    • Exemples d’architecture
  14. Big Data dans le Cloud

    (Si le temps le permet)

    • Amazon Web Services
    • Concepts : modèle de paiement à l’utilisation
    • Amazone S3, EC2, EMR
    • Plateforme Google Cloud
    • Google Big Query
Formations à distance
En inter et en intra entreprise

Contactez-nous :
training@softeam.fr
+33 (0)6 07 78 24 18
Prochaines dates

Demande de renseignement