Accueil / Machine Learning avec Spark
Machine Learning avec Spark
Durée : 3 jours
Tarif Inter : 2000 €
Tarif sur mesure : Nous consulter
Référence : 4VSP
Programme
Public & Pré-requis
Organisation
Présentation
Cette formation vous permettra de maîtriser l’analyse traditionnelle des données basée sur Spark SQL et Spark ML
Objectifs
- Notions fondamentales de Spark et son fonctionnement sur Hadoop
- Comment charger, explorer et analyser des données provenant de diverses sources avec les DataFrames de Spark SQL
- Comment préparer et transformer des données puis utiliser des algorithmes de Machine Learning avec Spark ML
Programme
-
Spark Dataframes
- Introduction de Spark sur Hadoop
- RDD (Resilient Distributed Datasets)
- Interagir avec HDFS
- Soumettre une requête Python
- Pratique avec dataframe
- L’API de base
- Chargement de données structurées
- Manipulations basiques
- Types de données
- Opérations et statistiques
- Manipulations avancées des dataframes
- Agrégations
- Jointures
- Agrégations de fenêtre
- Chargement et sauvegarde pour différents formats
- SQL sur Spark
- Bonnes pratiques et performances
- Format des données et compression
- Fonctionnement de Catalyst
- Découverte des partitions
- Python, R ou Scala pour Spark, que choisir ?
- Introduction de Spark sur Hadoop
-
Machine Learning Spark ML
- Mlib
- Structure de l’API & Concepts clés
- Données d’entrée
- Exemple supervisé et non supervisé
- Limites de l’API
- Utilisation de Spark Ml
- Structure de l’API & Concepts clés
- Transformer / Estimator
- Paramètres
- Évaluation de modèles (classification, régression)
- Ingénierie de fonctionnalité
- Indexation
- Encodage
- Traitement du texte
- Scaling
- L’optimisation hyperparamétrique
- Echantillonnage et jeu d’apprentissage
- Validation croisée
- Recherche par grille
- Hands-on : pipeline
- Construction de Pipeline de Machine Learning
- Autres applications
- Réduction de Dimension
- Clustering
- Systèmes de Recommandation
- Mlib