Accueil / Architecture et urbanisation en Big Data

Architecture et urbanisation en Big Data

Présentation

Cette formation vous présente l’architecture et l’infrastructure sous-jacente d’un projet Big Data. Elle commence par définir le cadre des projets Big Data puis explique en quoi la nature des données manipulées et leur volume impactent l’architecture, que ce soit au niveau du stockage ou du traitement. Concrètement, quels sont les changements par rapport aux standards (serveur, SGBD, système de fichiers, etc.) et qu’apportent concrètement des solutions NoSQL ou des produits comme Hadoop.

Objectifs

  • Exploiter les architectures Big Data et mettre en place des socles techniques complets pour des projets Big Data.

Prérequis

  • Avoir une connaissance pratique du Shell Linux, des bases du réseau, des bases de données relationnelles et des architectures réparties.

Public

  • Administrateurs systèmes, développeurs, architectes et chefs de projets techniques, consultants Business Intelligence.

Moyens pédagogiques

  • Vous apprenez à installer un cluster Hadoop à plusieurs nœuds, à le paramétrer, à le sécuriser, le surveiller (monitoring), et donc, au final, à proposer une infrastructure de qualité aux développeurs et aux analystes.

Programme

  1. Définition et contexte spécifique des projets Big Data

    • Les origines du Big Data
    • Les données au cœur des enjeux : Explosion du nombre de données, Liens entre Big Data et IoT (internet des objets), données structurées, semi-structurées, non structurées
    • Les limites des architectures actuelles
    • Définition d’un système Big Data
    • Principes de fonctionnement
    • Les différentes offres des marchés
  2. Propriété de la donnée, environnement juridique du traitement, sécurité

    • Sécurité éthique et enjeux juridiques
    • Les données personnelles
    • Les informations sensibles, interdites de collecte
    • La CNIL régule les données numériques
    • Les accords intra-pays
  3. Impact des choix technologiques en matière d’infrastructure et d’architecture Big Data

    • Les architectures décisionnelles « traditionnelles » (datastore, datawarehouse, datamart…)
    • Philosophie des bases NoSQL : column family, orienté document, clé-valeur, graphe
    • Quelques acteurs (MongoDB, Cassandra…)
    • Big Table/ Big Query
    • Les database machine (Exadata)
    • Les bases de données vectorielles (Sybase IQ)
    • Hadoop un système totalement autonome ?
    • Conséquences techniques et financières selon les architectures
  4.  Mise en œuvre et élaboration d’une stratégie dédiée au Big Data :

    • Définir les besoins en matière de Big Data
    • Atteindre les objectifs grâce à la pertinence des données
    • Évaluer les différents outils du marché dédiés au Big Data
    • Répondre aux attentes du personnel de l’entreprise
  5. Architectures distribuées

    • Problématiques et enjeux d’une architecture distribuée
    • Des données cohérentes, disponibles et tolérantes aux pannes ?
    • Les architectures massivement parallèles
    • L’ouverture aux traitements complexes (datamining, machine learning, etc.)
    • Paradigmes de calculs distribués
    • Les bases NoSQL et le calcul distribué (exemple avec MongoDB)
  6. Qualité des données (dataquality)

    • Liens entre infrastructure et qualité des données (exemples de problèmes)
    • Pas de qualité pas d’analyse
    • Les 4 V
    • Base à chaud, base à froid
    • Les apports d’un outil de Dataquality
    • Pourquoi utiliser un ETL ?
    • Illustration via Talend Data Integration
    • Analyser les données en les fusionnant avec les données internes
    • Le Master Data Management (MDM) : phase indispensable de la réconciliation des données Big Data avec les données décisionnelles ?
  7. Préparation et configuration du cluster Hadoop

    • Principes de fonctionnement de Hadoop Distributed File System (HDFS)
    • Principes de fonctionnement de MapReduce
    • Design « type » du cluster
    • Critères de choix du matériel
  8. Installation d’une plateforme Hadoop

    • Type de déploiement
    • Installation d’Hadoop
    • Installation d’autres composants (Hive, Pig, HBase, Flume…)
    • Quelques différences entre les distributions Cloudera, Hortonworks et MapR
  9. Gestion d’un cluster Hadoop

    • Gestion des nœuds du cluster Hadoop
    • Les TaskTracker, JobTracker pour MapReduce
    • Gestion des tâches via les schedulers
    • Gestion des logs
    • Utiliser un manager
  10. Gestion des données dans HDFS

    • Import de données externes (fichiers, bases de données relationnelles) vers HDFS
      Manipulation des fichiers HDFS
  11. Configuration avancée

    • Gestion des autorisations et de la sécurité
    • Reprise sur échec d’un name node (MRV1)
    • NameNode high availability (MRV2/YARN)
  12. Monitoring et optimisation Tuning

    • Monitoring (Ambari, Ganglia…)
    • Benchmarking/profiling d’un cluster
    • Les outils Apache GridMix, Vaaidya
    • Choisir la taille des blocs
    • Autres options de tuning (utilisation de la compression, configuration mémoire…)
  13. Architecture Hadoop avec Spark

    • La philosophie de Spark par rapport à Hadoop
    • Les différentes associations Hadoop/Spark
    • Comparaison des performances
    • Différences concernant la reprise après incident
  14. MapReduce Spark

    • Maîtriser le fonctionnement de MapReduce Spark
    • Configuration d’un nœud Hadoop pour le calcul MapReduce Spark
    • Introduction à Hadoop Streaming pour le prototypage rapide de MapReduce Spark
    • Écriture de MapReduce Spark pour la résolution de problèmes concrets
    • Import de données externes (fichiers, bases de données relationnelles) vers HDFS
    • Manipulation des fichiers HDFS

Nombre de jours

4

Dates

Paris

Du 09 au 12 mars 2020
Du 11 au 14 mai 2020

Rennes

Du 09 au 12 mars 2020
Du 11 au 14 mai 2020

Nantes

Du 09 au 12 mars 2020
Du 11 au 14 mai 2020

Sophia Antipolis

Du 09 au 12 mars 2020
Du 11 au 14 mai 2020

Aix en Provence

Du 09 au 12 mars 2020
Du 11 au 14 mai 2020

Tarif inter

2020 € HT

Tarif sur mesure

Réf.

6AUB

Demande de renseignement

FORMATIONS ASSOCIÉES