Accueil / Traitez vos données avec Spark et Scala

Traitez vos données avec Spark et Scala

Durée : 3 jours
Tarif Inter : 1800 €
Tarif sur mesure : Nous consulter
Référence : 4ISS

  • Partagez sur
  • Téléchargez en
  • Inscrivez vous
Programme Public & Pré-requis Organisation

Présentation

Cette formation vous fournira une solide introduction technique à l’architecture Spark et au fonctionnement de Spark. Vous apprendrez les éléments de base de Spark, notamment les RDD et le moteur de calcul distribué, ainsi que les constructions de niveau supérieur, qui fournissent une interface plus simple et plus performante, notamment Spark SQL et DataFrames.

 

Vous verrez également des capacités plus avancées telles que l’utilisation de Spark Streaming pour traiter les données en continu, et aurez un aperçu du traitement graphique Spark (GraphX et GraphFrames) et du Machine Learning Spark (SparkML Pipelines).

Enfin, vous explorerez les éventuels problèmes de performance, le dépannage, les techniques de déploiement de grappes et les stratégies d’optimisation.

Objectifs

  • Comprendre la nécessité de Spark dans le traitement des données
  • Comprendre l’architecture Spark et la distribution des calculs aux nœuds de cluster.
  • Se familiariser avec l’installation de base / la configuration / l’agencement de Spark
  • Utiliser Spark pour des opérations interactives et ad hoc
  • Utiliser Dataset/DataFrame/Spark SQL pour traiter efficacement les données structurées
  • Comprendre les bases des RDD (Resilient Distributed Datasets), ainsi que le partitionnement, la circulation dans les pipelines et le calcul des données
  • Comprendre la mise en cache des données de Spark et son utilisation
  • Comprendre les implications et les optimisations des performances lors de l’utilisation de Spark
  • Se familiariser avec le traitement graphique et l’apprentissage machine SparkML

Programme

  1. La montée en puissance de Scala

    • Introduction à Scala, variables, types de données, flux de contrôle
    • L’interpréteur Scala
    • Collections et méthodes standard (par exemple map())
    • Fonctions, méthodes, fonctions littérales
    • Classe, objet, trait
  2. Introduction à Spark

    • Vue d’ensemble, motivations, systèmes Spark
    • Ecosystème de Spark
    • Spark vs. Hadoop
    • Environnements typiques de déploiement et d’utilisation de Spark
  3. Les RDD et l’architecture Spark

    • Concepts de RDD, partitions, cycle de vie, évaluation paresseuse
    • Travailler avec les RDD – Créer et transformer (carte, filtre, etc.)
    • Mise en cache – Concepts, type de stockage, directives
  4. DataSets/DataFrames et Spark SQL

    • Introduction et utilisation
    • Création et utilisation d’un ensemble de données
    • Travailler avec JSON
    • Utilisation du DataSet DSL
    • Utiliser SQL avec Spark
    • Formats de données
    • Optimisations : Catalyst et Tungsten
    • DataSets vs. DataFrames vs. RDD
  5. Créer des applications Spark

    • Aperçu, code de pilote simple, SparkConf
    • Création et utilisation d’un contexte SparkContext/SparkSession
    • Création et fonctionnement des applications
    • Cycle de vie des applications
    • Gestionnaires de clusters
    • Logging et débogage
  6. Spark Streaming

    • Vue d’ensemble et principes de base de la diffusion en continu
    • Streaming structuré
    • DStreams (Discretized Steams),
    • Architecture, Stateless, Stateful, et Windowed Transformations
    • API de diffusion en continu (Spark Streaming)
    • Programmation et transformations
  7. Caractéristiques et optimisation des performances

    • UI Spark
    • Dépendances étroites vs. larges
    • Réduire au minimum le traitement et le brassage des données
    • Mise en cache – Concepts, type de stockage, lignes directrices
    • Utilisation de la mise en cache
    • Utilisation des variables de diffusion et des accumulateurs
  8. Aperçu de Spark GraphX

    • Introduction
    • Construire des graphiques simples
    • API GraphX
    • Exemple de chemin le plus court
  9. Aperçu de MLLib

    • Introduction
    • Vecteurs caractéristiques
    • Regroupement / Groupement, K-Means
    • Recommandations
    • Classifications
  10. Conclusion

Formations à distance
En inter et en intra entreprise

Contactez-nous :
training@softeam.fr
+33 (0)6 07 78 24 18
Prochaines dates

Demande de renseignement