• Machine Learning : bonnes pratiques

Accueil / Machine Learning : bonnes pratiques

Machine Learning : bonnes pratiques

Durée : 2 jours
Tarif Inter : 1500 €
Tarif sur mesure : Nous consulter
Référence : 4VML

  • Partagez sur
  • Téléchargez en
  • Inscrivez vous
Programme Public & Pré-requis Organisation

Présentation

Cette formation vous permettra de maîtriser les bonnes pratiques du Machine Learning.

Objectifs

  • Comprendre la nature des problèmes traités par les techniques d’apprentissage automatique utilisées dans le Big Data
  • Comprendre les problématiques sous-jacentes et les solutions apportées pour résoudre certains types de problèmes

Programme

  1. Introduction et historique

    • Processus complet d’élaboration d’un modèle prédictif
    • Prétraitement des données (données manquantes, aberrantes, sélection de variables pertinentes…)
    • Introduction à l’apprentissage supervisé et non supervisé
    • Introduction à la classification et la régression
    • Le principe du partitionnement des données en données d’apprentissage et données de test
    • Évaluation de l’apprentissage, matrice de confusion et métriques
  2. Arbres de décision

    • L’apprentissage par partitionnement
    • Construction d’un arbre de décision sur un jeu de données synthétique
    • Principaux points à considérer lors de l’induction d’un arbre de décision à partir de données
    • CHAID, C4.5 et CART : Les trois principales méthodes d’induction d’arbres proposés dans les logiciels
    • Les différences et les points communs
  3. Arbres de régression

    • La régression par arbres
    • Une méthode non-linéaire de régression
    • Rapprochement avec les arbres de décision
  4. Analyse discriminante prédictive

    • Un modèle paramétrique de discrimination
    • Analyse discriminante de Fisher
    • Évaluation globale du modèle
    • Évaluation individuelle des variables
  5. Régression logistique

    • Le modèle LOGIT
    • Estimation, évaluation globale et évaluation individuelle des variables
    • Régression logistique polytomique
    • Régression logistique lorsque la variable dépendante Y prend plus de 2 valeurs
    • Régression logistique multinomiale lorsque Y est nominale
    • Régression logistique polytomique ordinale lorsque Y est ordinale (odds adjacents, odds cumulatifs proportionnels)
  6. Classifieur bayesien naïf (modèle d’indépendance conditionnelle)

    • Principe de l’indépendance conditionnelle
    • Cas des prédicteurs continus
    • Cas des prédicteurs discrets
    • Construction d’un modèle explicite linéaire
    • Sélection de variables
  7. Bagging, random forest, boosting

    • Méthodes ensemblistes basées sur des apprentissages répétés
    • Boosting : principe et variantes
    • Principe du Bagging
    • Random Forst : principe et variantes
    • Mesures d’importance des variables – Impact sur le biais et la variance des classifieurs
  8. Gradient boosting

    • Généralisation du boosting avec l’introduction explicite de fonctions de coûts
    • Importance du paramétrage
  9. Support Vector Machine (SVM)

    • Principe de Machines à vecteurs de support ou Séparateur à Vaste Marge
    • Principe de la maximisation de la marge
    • Marge souple (soft margin)
    • Classifieurs linéaires et classifieurs non-linéaires avec l’astuce du noyau (kernel trick)
    • Fonction Noyau
  10. Réseaux de neurones – perceptron simple et multi-couches

    • Introduction aux réseaux de neurones artificiels pour l’apprentissage supervisé
    • La Perceptron
    • Passage du modèle linéaire au modèle non-linéaire : le perceptron multicouches
  11. Apprentissage non supervisé

    • Principe du clustering (K moyennes ou k means)
    • Principe de la Classification Ascendante Hiérarchique (CAH)
    • Règles d’association
  12. Discrétisation des variables quantitatives

    • Découpage en classe d’une variable quantitative
    • Méthodes non-supervisées et supervisées (chi-merge, mdlpc)
  13. Filtrage des variables

    • Approche FILTRE préalable à l’apprentissage supervisé
    • Techniques de classement (ranking)
    • Techniques de sélection basées sur la corrélation
    • Information mutuelle, entropie de Shannon, rapport de corrélation, lambda de Wilks
  14. Induction de règles prédictives

    • Construction de bases de règles en analyse prédictive
    • Conversion des arbres en règles et algorithmes génétiques pour l’induction de règles
  15. Scoring – le ciblage marketing

    • Le ciblage clientèle
    • Construction et lecture de la courbe LIFT (GAIN CHART)
  16. Analyse RFM (récence – fréquence – montant)

    • Segmentation RFM (récence-fréquence-montant)
    • Finalité, démarche, usage, variantes, limites
  17. Grille de score

    • Élaboration de la grille de score à partir des résultats de la régression logistique
    • Méthode Disqual et scoring
  18. Intégration des coûts de mauvais classement en apprentissage supervisé

    • Prise en compte des coûts pour l’évaluation et la construction des modèles prédictifs
    • Correction des règles d’affectation, techniques intégrées, bagging, la méthode MetaCost
    • Courbe ROC
    • Évaluation d’un classifieur à l’aide de la courbe ROC
    • Le critère AUC
  19. Quelques méthodes non-paramétriques de discrimination

    • Deux méthodes non-paramétriques de classement dérivés du schéma Bayesien la méthode des K-plus proches voisins et le modèle d’indépendance conditionnelle
  20. Tirage rétrospectif et redressement des résultats échantillonnage non-représentatif

    • Modification du seuil d’affectation basé sur le score
    • Utilisation de la courbe ROC à cet effet
  21. Normalisation des scores

    • Rendre comparable des scores fournis par des méthodes différentes
    • Ramener dans l’intervalle [0 ; 1] et harmonisation des distributions
    • Diagramme de fiabilité
  22. Méthodes de ré-échantillonnage pour l’évaluation des performances

    • Inadéquation de l’évaluation en re-substitution
    • Le schéma apprentissage-test
    • Les techniques de ré-échantillonnage : validation croisée, leave-one-out, bootstrap
    • Comparaison des performances des techniques supervisées
    • Diagramme de fiabilité
Formations à distance
En inter et en intra entreprise

Contactez-nous :
training@softeam.fr
+33 (0)6 07 78 24 18
Prochaines dates

Paris

Rennes

Nantes

Sophia Antipolis

Aix en Provence

Demande de renseignement