• Machine Learning avec Spark

Accueil / Machine Learning avec Spark

Machine Learning avec Spark

Durée : 3 jours
Tarif Inter : 2000 €
Tarif sur mesure : Nous consulter
Référence : 4VSP

  • Partagez sur
  • Téléchargez en
  • Inscrivez vous
Programme Public & Pré-requis Organisation

Présentation

Cette formation vous permettra de maîtriser l’analyse traditionnelle des données basée sur Spark SQL et Spark ML

Objectifs

  • Notions fondamentales de Spark et son fonctionnement sur Hadoop
  • Comment charger, explorer et analyser des données provenant de diverses sources avec les DataFrames de Spark SQL
  • Comment préparer et transformer des données puis utiliser des algorithmes de Machine Learning avec Spark ML

Programme

  1. Spark Dataframes

    • Introduction de Spark sur Hadoop
      • RDD (Resilient Distributed Datasets)
      • Interagir avec HDFS
      • Soumettre une requête Python
    • Pratique avec dataframe
      • L’API de base
      • Chargement de données structurées
      • Manipulations basiques
      • Types de données
      • Opérations et statistiques
    • Manipulations avancées des dataframes
      • Agrégations
      • Jointures
      • Agrégations de fenêtre
      • Chargement et sauvegarde pour différents formats
      • SQL sur Spark
    • Bonnes pratiques et performances
      • Format des données et compression
      • Fonctionnement de Catalyst
      • Découverte des partitions
      • Python, R ou Scala pour Spark, que choisir ?
  2. Machine Learning Spark ML

    • Mlib
      • Structure de l’API & Concepts clés
      • Données d’entrée
      • Exemple supervisé et non supervisé
      • Limites de l’API
    • Utilisation de Spark Ml
      • Structure de l’API & Concepts clés
      • Transformer / Estimator
      • Paramètres
      • Évaluation de modèles (classification, régression)
    • Ingénierie de fonctionnalité
      • Indexation
      • Encodage
      • Traitement du texte
      • Scaling
    • L’optimisation hyperparamétrique
      • Echantillonnage et jeu d’apprentissage
      • Validation croisée
      • Recherche par grille
    • Hands-on : pipeline
      • Construction de Pipeline de Machine Learning
    • Autres applications
      • Réduction de Dimension
      • Clustering
      • Systèmes de Recommandation
Formations à distance
En inter et en intra entreprise

Contactez-nous :
training.institute@softeam.fr
Prochaines dates

A distance

Du 26 au 28 avril 2021
Du 10 au 12 mai 2021
Du 01 au 03 juin 2021
Du 05 au 07 juillet 2021
Du 09 au 11 août 2021

Demande de renseignement