• Data Analyst , analyse de données en environnement HADOOP

Accueil / Data Analyst , analyse de données en environnement HADOOP

Data Analyst , analyse de données en environnement HADOOP

Durée : 3 jours
Tarif Inter : 1500 €
Tarif sur mesure : Nous consulter
Référence : 4VAD

  • Partagez sur
  • Téléchargez en
  • Inscrivez vous
Programme Public & Pré-requis Organisation

Présentation

Cette formation vous permettra de connaître les outils spécifiques au métier de Data Analyst. Comprendre les besoins métier pour livrer aux décideurs des indicateurs fiables et pertinents, tel est le rôle des Data Analysts. Précisément conçu pour leur apprendre à mettre en œuvre une solution de Big Data en environnement HADOOP, solution émergente pour les traitements Big Data, ce programme reprend le cheminement logique d’un projet d’analyse de données.

De la mise en place d’une solution de stockage HDFS permettant d’organiser un très grand volume d’information, à la réalisation de programmes Pig et Hive qui, convertis en tâches MapReduce, permettent d’agréger et de filtrer les données, tous les aspects seront abordés.

Objectifs

  • Comprendre ce que sont HADOOP et YARN
  • Connaître les différents outils et les Framework dans un environnement HADOOP 2.0
  • Découvrir comment HDFS Fédération fonctionne dans HADOOP 2.0
  • Appréhender MapReduce
  • Savoir utiliser Sqoop pour transférer les données entre HADOOP et une base de données relationnelle
  • Comprendre comment exécuter une tâche de MapReduce sur YARN
  • Savoir écrire des requêtes HiveSQL pour manipuler des données
  • Comprendre comment utiliser le HCatalog avec Pig et Hive

Programme

  1. Comprendre Hadoop 2.0

    • Le Hadoop Distributed File System (HDFS)
    • Introduction aux données dans HDFS
    • MapReduce Framework et YARN
  2. Utilisation de Pig

    • Introduction à Pig
    • Programmation Pig avancée
    • Troubleshooting et optimisation avec Pig
    • Résolution des problèmes avec Pig
    • Journalisation
    • Utiliser l’UI Web Hadoop
    • Démonstration optionnelle : résolution d’un « Failed Job » avec l’UI Web
    • Échantillonnage de données et débogage
    • Vue d’ensemble des performances
    • Comprendre le plan d’exécution
    • Astuces pour améliorer la performance de votre « Pig Jobs »
  3. Programmation Hive

    • Utilisation de HCatalog
    • Programmation de Hive avancée
    • Étendre Hive
    • Transformation de données avec des scripts personnalisés
    • Fonctions définies par l’utilisateur
    • Paramétrer les requêtes
    • Exercices « Hands-On » : transformation de données avec Hive
    • Programmation Hive avancée
    • Analyse de données et statistiques
    • Définition workflow avec Oozie
Formations à distance
En inter et en intra entreprise

Contactez-nous :
training@softeam.fr
+33 (0)6 07 78 24 18
Prochaines dates

Paris

Rennes

Nantes

Sophia Antipolis

Aix en Provence

Demande de renseignement