• Machine Learning : bonnes pratiques

Accueil / Machine Learning : bonnes pratiques

Machine Learning : bonnes pratiques

Durée : 2 jours
Tarif Inter : 1500 €
Tarif sur mesure : Nous consulter
Référence : 4VML

  • Partagez sur
  • Téléchargez en
  • Inscrivez vous
Programme Public & Pré-requis Organisation

Présentation

Cette formation vous permettra de maîtriser les bonnes pratiques du Machine Learning.

Objectifs

  • Comprendre la nature des problèmes traités par les techniques d’apprentissage automatique utilisées dans le Big Data
  • Comprendre les problématiques sous-jacentes et les solutions apportées pour résoudre certains types de problèmes

Programme

  1. Introduction et historique

    • Processus complet d’élaboration d’un modèle prédictif
    • Prétraitement des données (données manquantes, aberrantes, sélection de variables pertinentes…)
    • Introduction à l’apprentissage supervisé et non supervisé
    • Introduction à la classification et la régression
    • Le principe du partitionnement des données en données d’apprentissage et données de test
    • Évaluation de l’apprentissage, matrice de confusion et métriques
  2. Arbres de décision

    • L’apprentissage par partitionnement
    • Construction d’un arbre de décision sur un jeu de données synthétique
    • Principaux points à considérer lors de l’induction d’un arbre de décision à partir de données
    • CHAID, C4.5 et CART : Les trois principales méthodes d’induction d’arbres proposés dans les logiciels
    • Les différences et les points communs
  3. Arbres de régression

    • La régression par arbres
    • Une méthode non-linéaire de régression
    • Rapprochement avec les arbres de décision
  4. Analyse discriminante prédictive

    • Un modèle paramétrique de discrimination
    • Analyse discriminante de Fisher
    • Évaluation globale du modèle
    • Évaluation individuelle des variables
  5. Régression logistique

    • Le modèle LOGIT
    • Estimation, évaluation globale et évaluation individuelle des variables
    • Régression logistique polytomique
    • Régression logistique lorsque la variable dépendante Y prend plus de 2 valeurs
    • Régression logistique multinomiale lorsque Y est nominale
    • Régression logistique polytomique ordinale lorsque Y est ordinale (odds adjacents, odds cumulatifs proportionnels)
  6. Classifieur bayesien naïf (modèle d’indépendance conditionnelle)

    • Principe de l’indépendance conditionnelle
    • Cas des prédicteurs continus
    • Cas des prédicteurs discrets
    • Construction d’un modèle explicite linéaire
    • Sélection de variables
  7. Bagging, random forest, boosting

    • Méthodes ensemblistes basées sur des apprentissages répétés
    • Boosting : principe et variantes
    • Principe du Bagging
    • Random Forst : principe et variantes
    • Mesures d’importance des variables – Impact sur le biais et la variance des classifieurs
  8. Gradient boosting

    • Généralisation du boosting avec l’introduction explicite de fonctions de coûts
    • Importance du paramétrage
  9. Support Vector Machine (SVM)

    • Principe de Machines à vecteurs de support ou Séparateur à Vaste Marge
    • Principe de la maximisation de la marge
    • Marge souple (soft margin)
    • Classifieurs linéaires et classifieurs non-linéaires avec l’astuce du noyau (kernel trick)
    • Fonction Noyau
  10. Réseaux de neurones – perceptron simple et multi-couches

    • Introduction aux réseaux de neurones artificiels pour l’apprentissage supervisé
    • La Perceptron
    • Passage du modèle linéaire au modèle non-linéaire : le perceptron multicouches
  11. Apprentissage non supervisé

    • Principe du clustering (K moyennes ou k means)
    • Principe de la Classification Ascendante Hiérarchique (CAH)
    • Règles d’association
  12. Discrétisation des variables quantitatives

    • Découpage en classe d’une variable quantitative
    • Méthodes non-supervisées et supervisées (chi-merge, mdlpc)
  13. Filtrage des variables

    • Approche FILTRE préalable à l’apprentissage supervisé
    • Techniques de classement (ranking)
    • Techniques de sélection basées sur la corrélation
    • Information mutuelle, entropie de Shannon, rapport de corrélation, lambda de Wilks
  14. Induction de règles prédictives

    • Construction de bases de règles en analyse prédictive
    • Conversion des arbres en règles et algorithmes génétiques pour l’induction de règles
  15. Scoring – le ciblage marketing

    • Le ciblage clientèle
    • Construction et lecture de la courbe LIFT (GAIN CHART)
  16. Analyse RFM (récence – fréquence – montant)

    • Segmentation RFM (récence-fréquence-montant)
    • Finalité, démarche, usage, variantes, limites
  17. Grille de score

    • Élaboration de la grille de score à partir des résultats de la régression logistique
    • Méthode Disqual et scoring
  18. Intégration des coûts de mauvais classement en apprentissage supervisé

    • Prise en compte des coûts pour l’évaluation et la construction des modèles prédictifs
    • Correction des règles d’affectation, techniques intégrées, bagging, la méthode MetaCost
    • Courbe ROC
    • Évaluation d’un classifieur à l’aide de la courbe ROC
    • Le critère AUC
  19. Quelques méthodes non-paramétriques de discrimination

    • Deux méthodes non-paramétriques de classement dérivés du schéma Bayesien la méthode des K-plus proches voisins et le modèle d’indépendance conditionnelle
  20. Tirage rétrospectif et redressement des résultats échantillonnage non-représentatif

    • Modification du seuil d’affectation basé sur le score
    • Utilisation de la courbe ROC à cet effet
  21. Normalisation des scores

    • Rendre comparable des scores fournis par des méthodes différentes
    • Ramener dans l’intervalle [0 ; 1] et harmonisation des distributions
    • Diagramme de fiabilité
  22. Méthodes de ré-échantillonnage pour l’évaluation des performances

    • Inadéquation de l’évaluation en re-substitution
    • Le schéma apprentissage-test
    • Les techniques de ré-échantillonnage : validation croisée, leave-one-out, bootstrap
    • Comparaison des performances des techniques supervisées
    • Diagramme de fiabilité
Formations à distance
En inter et en intra entreprise

Contactez-nous :
training.institute@softeam.fr
Prochaines dates

A distance

Du 26 au 27 avril 2021
Du 10 au 11 mai 2021
Du 14 au 15 juin 2021
Du 01 au 02 juillet 2021
Du 30 au 31 août 2021

Demande de renseignement