• Développement avec Spark

Accueil / Développement avec Spark

Développement avec Spark

Durée : 3 jours
Tarif Inter : 1600 €
Tarif sur mesure : Nous consulter
Référence : 4DSP

  • Partagez sur
  • Téléchargez en
  • Inscrivez vous
Programme Public & Pré-requis Organisation

Présentation

Cette formation vous permettra de maîtriser les concepts fondamentaux de Spark.

Objectifs

  • Comprendre les fondamentaux de Spark
  • Découvrir les différents modules de Spark
  • Analyser des données en temps réel avec Spark Streaming
  • Manipuler des données avec Spark SQL
  • Manipuler des graphes avec GraphX
  • Découvrir le Machine Learning avec MLLib

Programme

  1. Présentation d’Apache Spark

    • Introduction et historique
    • Les langages de programmation supportés par Spark (Scala, Python et Java)
    • Comparaison avec l’environnement Apache Hadoop
    • Les modules de Spark (Spark SQL, Spark Streaming, MLlib, GraphX )
  2. Resilient Distributed Dataset (RDD)

    • C’est quoi un RDD ?
    • Créer, manipuler et réutiliser des RDD
    • Accumulateurs et variables broadcastées
    • Utiliser des partitions
  3. Manipuler des données structurées avec Spark SQL

    • SQL, DataFrames et Datasets
    • Les différents types de sources de données
    • Interopérabilité avec les RDD
    • Performance de Spark SQL
    • JDBC/ODBC server et Spark SQL CLI
  4. Spark sur un cluster

    • Les différents types d’architectures : Standalone, Apache Mesos ou Hadoop YARN
    • Configurer un cluster en mode Standalone
    • Packager une application avec ses dépendances
    • Déployer des applications avec Spark-submit
    • Dimensionner un cluster
  5. Spark streaming et l’analyse en temps réel des données

    • C’est quoi Spark streaming ?
    • C’est quoi Discretized Streams (DStreams)?
    • Les différents types de sources
    • Manipulation de l’API
    • Comparaison avec Apache Storm
  6. Manipuler des graphes avec GraphX

    • C’est quoi GraphX ?
    • Création de graphes
    • Opérations sur les graphes
    • Vertex and Edge RDD
    • Différents algorithmes
  7. Machine Learning avec Spark

    • Introduction au Machine Learning
    • Présentation de SparkML et MLlib
    • Les algorithmes d’apprentissages disponibles
    • Implémentations de ces différents algorithmes
Formations à distance
En inter et en intra entreprise

Contactez-nous :
training@softeam.fr
+33 (0)6 07 78 24 18
Prochaines dates

Paris

Rennes

Nantes

Sophia Antipolis

Aix en Provence

Demande de renseignement