• Développement avec Spark

Accueil / Développement avec Spark

Développement avec Spark

Durée : 3 jours
Tarif Inter : 1600 €
Tarif sur mesure : Nous consulter
Référence : 4DSP

  • Partagez sur
  • Téléchargez en
  • Inscrivez vous
Programme Public & Pré-requis Organisation

Présentation

Cette formation vous permettra de maîtriser les concepts fondamentaux de Spark.

Objectifs

  • Comprendre les fondamentaux de Spark
  • Découvrir les différents modules de Spark
  • Analyser des données en temps réel avec Spark Streaming
  • Manipuler des données avec Spark SQL
  • Manipuler des graphes avec GraphX
  • Découvrir le Machine Learning avec MLLib

Programme

  1. Présentation d’Apache Spark

    • Introduction et historique
    • Les langages de programmation supportés par Spark (Scala, Python et Java)
    • Comparaison avec l’environnement Apache Hadoop
    • Les modules de Spark (Spark SQL, Spark Streaming, MLlib, GraphX )
  2. Resilient Distributed Dataset (RDD)

    • C’est quoi un RDD ?
    • Créer, manipuler et réutiliser des RDD
    • Accumulateurs et variables broadcastées
    • Utiliser des partitions
  3. Manipuler des données structurées avec Spark SQL

    • SQL, DataFrames et Datasets
    • Les différents types de sources de données
    • Interopérabilité avec les RDD
    • Performance de Spark SQL
    • JDBC/ODBC server et Spark SQL CLI
  4. Spark sur un cluster

    • Les différents types d’architectures : Standalone, Apache Mesos ou Hadoop YARN
    • Configurer un cluster en mode Standalone
    • Packager une application avec ses dépendances
    • Déployer des applications avec Spark-submit
    • Dimensionner un cluster
  5. Spark streaming et l’analyse en temps réel des données

    • C’est quoi Spark streaming ?
    • C’est quoi Discretized Streams (DStreams)?
    • Les différents types de sources
    • Manipulation de l’API
    • Comparaison avec Apache Storm
  6. Manipuler des graphes avec GraphX

    • C’est quoi GraphX ?
    • Création de graphes
    • Opérations sur les graphes
    • Vertex and Edge RDD
    • Différents algorithmes
  7. Machine Learning avec Spark

    • Introduction au Machine Learning
    • Présentation de SparkML et MLlib
    • Les algorithmes d’apprentissages disponibles
    • Implémentations de ces différents algorithmes
Formations à distance
En inter et en intra entreprise

Contactez-nous :
training@softeam.fr
+33 (0)6 07 78 24 18
Prochaines dates

A distance

Du 01 au 03 février 2021
Du 08 au 10 mars 2021
Du 12 au 14 avril 2021
Du 25 au 27 mai 2021
Du 07 au 09 juin 2021
Du 05 au 07 juillet 2021
Du 23 au 25 août 2021

Demande de renseignement