Accueil / Machine Learning : bonnes pratiques

Machine Learning : bonnes pratiques

Présentation

Cette formation vous permettra de maîtriser les bonnes pratiques du Machine Learning.

Objectifs

  • Comprendre la nature des problèmes traités par les techniques d’apprentissage automatique utilisées dans le Big Data
  • Comprendre les problématiques sous-jacentes et les solutions apportées pour résoudre certains types de problèmes

Prérequis

  • Des connaissances solides en statistiques et en algorithmes sont exigées

Public

  • Ingénieurs et techniciens ayant besoin de méthodes d’apprentissage pour automatiser des tâches (prédiction, décision, etc.) de manière performante
  • Chefs de projets qui souhaitent mieux identifier les tâches que le machine learning permettrait d’automatiser
  • Toute personne ayant déjà été sensibilisée par le Data Mining (voir formation  : Le Big Data et la fouille de données  – Data Mining) et intéressée par les méthodes d’apprentissage

Moyens pédagogiques

  • 70/30 : théorique / pratique
  • Les participants auront une explication théorique de chaque concept puis une session plus pratique sous forme d’atelier. Des exercices sont mis en place pour valider la bonne compréhension de chaque partie du cours

Programme

  1. Introduction et Historique :

    • Processus complet d’élaboration d’un modèle prédictif
    • prétraitement des données (données manquantes, aberrantes , sélection de variables pertinentes … )
    • Introduction à l’apprentissage supervisé et non supervisé
    • Introduction à la classification et la régression
    • Le principe du partitionnement des données en données d’apprentissage et données de test
    • Évaluation de l’apprentissage, matrice de confusion et métriques
  2. Arbres de décision :

    • L’apprentissage par partitionnement
    • Construction d’un arbre de décision sur un jeu de données synthétique
    • Principaux points à considérer lors de l’induction d’un arbre de décision à partir de données
    • CHAID, C4.5 et CART : Les trois principales méthodes d’induction d’arbres proposés dans les logiciels
    • Les différences et les points communs
  3. Arbres de régression :

    • La régression par arbres
    • Une méthode non-linéaire de régression
    • Rapprochement avec les arbres de décision
  4. Analyse discriminante prédictive:

    • Un modèle paramétrique de discrimination
    • Analyse discriminante de Fisher
    • Evaluation globale du modèle
    • Evaluation individuelle des variables
  5. Régression logistique :

    • Le modèle LOGIT
    • Estimation, évaluation globale et évaluation individuelle des variables
    • Régression logistique polytomique
    • Régression logistique lorsque la variable dépendante Y prend plus de 2 valeurs
    • Régression logistique multinomiale lorsque Y est nominale
    • Régression logistique polytomique ordinale lorsque Y est ordinale (odds adjacents, odds cumulatifs proportionnels)
  6. Classifieur Bayesien Naïf (Le modèle d’indépendance conditionnelle) Naive Bayes Classifier :

    • Principe de l’indépendance conditionnelle
    • Cas des prédicteurs continus
    • Cas des prédicteurs discrets
    • Construction d’un modèle explicite linéaire
    • Sélection de variables
  7. Bagging, Random Forest, Boosting :

    • Méthodes ensemblistes basées sur des apprentissages répétés
    • Boosting : principe et variantes
    • principe du Bagging
    • Random Forst : principe et variantes
    • Mesures d’importance des variables – Impact sur le biais et la variance des classifieurs
  8. Gradient boosting:

    • Généralisation du boosting avec l’introduction explicite de fonctions de coûts
    • Importance du paramétrage
  9. Support Vector Machine (SVM):

    • Principe de Machines à vecteurs de support ou  Séparateur à Vaste Marge
    • Principe de la maximisation de la marge
    • Marge souple (soft margin)
    • Classifieurs linéaires et classifieurs non-linéaires avec l’astuce du noyau (kernel trick)
    • Fonction Noyau
  10. Réseaux de neurones – Perceptron simple et multi-couches:

    • Introduction aux réseaux de neurones artificiels pour l’apprentissage supervisé
    • La Perceptron
    • Passage du modèle linéaire au modèle non-linéaire : le perceptron multi-couches
  11. Apprentissage non supervisé:

    • principe du clustering (K moyennes ou k means)
    • principe de la Classification Ascendante Hiérarchique (CAH)
    • Règles d’association
  12. Discrétisation des variables quantitatives:

    • Découpage en classe d’une variable quantitative
    • Méthodes non-supervisées et supervisées (chi-merge, mdlpc)
  13. Filtrage des variables :

    • Approche FILTRE préalable à l’apprentissage supervisé
    • Techniques de ranking
    • Techniques de sélection basées sur la corrélation
    • Information mutuelle, entropie de Shannon, rapport de corrélation, lambda de Wilks
  14. Induction de règles prédictives:

    • Construction de bases de règles en analyse prédictive
    • Conversion des arbres en règles et algorithmes génétiques pour l’induction de règles
  15. Scoring – Le ciblage marketing:

    • Le ciblage clientèle
    • Construction et lecture de la courbe LIFT (GAIN CHART)
  16. Analyse RFM (Récence – Fréquence – Montant):

    • Segmentation RFM (récence-fréquence-montant)
    • Finalité, démarche, usage, variantes, limites
  17. Grille de score:

    • Elaboration de la grille de score à partir des résultats de la régression logistique
    • Méthode Disqual et scoring
  18. Intégration des coûts de mauvais classement en apprentissage supervisé:

    • Prise en compte des coûts pour l’évaluation et la construction des modèles prédictifs
    • Correction des règles d’affectation, techniques intégrées, bagging, la méthode MetaCost
    • Courbe ROC
    • Évaluation d’un classifieur à l’aide de la courbe ROC
    • Le critère AUC
  19. Quelques méthodes non-paramétriques de discrimination:

    • Deux méthodes non-paramétriques de classement dérivés du schéma bayesien la méthode des K-plus proches voisins et le modèle d’indépendance conditionnelle
  20. Tirage rétrospectif et redressement des résultats échantillonnage non-représentatif:

    • Modification du seuil d’affectation basé sur le score
    • Utilisation de la courbe ROC à cet effet
  21. Normalisation des scores:

    • Rendre comparable des scores fournis par des méthodes différentes
    • Ramener dans l’intervalle [0 ; 1] et harmonisation des distributions
    • Diagramme de fiabilité
  22. Méthodes de ré-échantillonnage pour l’évaluation des performances:

    • Inadéquation de l’évaluation en resubstitution
    • Le schéma apprentissage-test
    • Les techniques de ré-échantillonnage : validation croisée, leave-one-out, bootstrap
    • Comparaison des performances des techniques supervisées
    • Diagramme de fiabilité

Nombre de jours

2

Dates

Paris

Rennes

Nantes

Sophia Antipolis

Aix en Provence

Tarif inter

1500 € HT

Tarif sur mesure

Réf.

6VML

Demande de renseignement

FORMATIONS ASSOCIÉES