• Machine Learning avec Spark

Accueil / Machine Learning avec Spark

Machine Learning avec Spark

Durée : 3 jours
Tarif Inter : 2000 €
Tarif sur mesure : Nous consulter
Référence : 4VSP

  • Partagez sur
  • Téléchargez en
  • Inscrivez vous
Programme Public & Pré-requis Organisation

Présentation

Cette formation vous permettra de maîtriser l’analyse traditionnelle des données basée sur Spark SQL et Spark ML

Objectifs

  • Notions fondamentales de Spark et son fonctionnement sur Hadoop
  • Comment charger, explorer et analyser des données provenant de diverses sources avec les DataFrames de Spark SQL
  • Comment préparer et transformer des données puis utiliser des algorithmes de Machine Learning avec Spark ML

Programme

  1. Spark Dataframes

    • Introduction de Spark sur Hadoop
      • RDD (Resilient Distributed Datasets)
      • Interagir avec HDFS
      • Soumettre une requête Python
    • Pratique avec dataframe
      • L’API de base
      • Chargement de données structurées
      • Manipulations basiques
      • Types de données
      • Opérations et statistiques
    • Manipulations avancées des dataframes
      • Agrégations
      • Jointures
      • Agrégations de fenêtre
      • Chargement et sauvegarde pour différents formats
      • SQL sur Spark
    • Bonnes pratiques et performances
      • Format des données et compression
      • Fonctionnement de Catalyst
      • Découverte des partitions
      • Python, R ou Scala pour Spark, que choisir ?
  2. Machine Learning Spark ML

    • Mlib
      • Structure de l’API & Concepts clés
      • Données d’entrée
      • Exemple supervisé et non supervisé
      • Limites de l’API
    • Utilisation de Spark Ml
      • Structure de l’API & Concepts clés
      • Transformer / Estimator
      • Paramètres
      • Évaluation de modèles (classification, régression)
    • Ingénierie de fonctionnalité
      • Indexation
      • Encodage
      • Traitement du texte
      • Scaling
    • L’optimisation hyperparamétrique
      • Echantillonnage et jeu d’apprentissage
      • Validation croisée
      • Recherche par grille
    • Hands-on : pipeline
      • Construction de Pipeline de Machine Learning
    • Autres applications
      • Réduction de Dimension
      • Clustering
      • Systèmes de Recommandation
Formations à distance
En inter et en intra entreprise

Contactez-nous :
training@softeam.fr
+33 (0)6 07 78 24 18
Prochaines dates

Paris

Rennes

Nantes

Sophia Antipolis

Aix en Provence

Demande de renseignement