livres numériques

Régression avec Python

Pierre-André Cornillon. Auteur

426 pages. Temps de lecture estimé 5h19min.
Cet ouvrage expose de manière détaillée et exemples à l’appui, différentes façons de répondre à un des problèmes statistiques les plus courants : la régression.Cette nouvelle édition se décompose en 4 parties. La première donne les grands principes des régressions simple et multiple par moindres carrés. Les fondamentaux de la méthode tant au niveau des choix opérés que des hypothèses et leur utilité sont expliqués. La deuxième partie est consacrée à l’inférence et présente les outils permettant de vérifier les hypothèses mises en oeuvre. Les techniques d’analyse de la variance et de la covariance sont également présentées dans cette partie. Le cas de la grande dimension est ensuite abordé dans la troisième partie. Différentes méthodes de réduction de la dimension telles que la sélection de variables, les régressions sous contraintes (lasso, elastic-net ou ridge) et sur composantes (PLS ou PCR) sont notamment proposées. Un dernier chapitre propose des algorithmes, basés sur des méthodes de ré-échantillonnage comme l’apprentissage/validation ou la validation croisée, qui permettent d’établir une comparaison entre toutes ces méthodes. Enfin la quatrième et dernière partie se concentre sur les modèles linéaires généralisés et plus particulièrement sur les régressions logistiques et de Poisson avec ou sans technique de régularisation. Une section particulière est consacrée aux comparaisons de méthodes en classification supervisée. Elle introduit notamment des critères de performance pour « scorer » des individus comme les courbes ROC et lift et propose des stratégies de choix seuil (Youden, F1...) pour les classer. Ces notions sont ensuite mises en oeuvre sur des données réelles afin de sélectionner une méthode de prévision parmi plusieurs algorithmes basés sur des modèles logistiques (régularisés ou non). Une dernière section aborde le problème des données déséquilibrées qui est souvent rencontré en régression binaire.Remerciements viiAvant-Propos ixI Introduction au modèle linéaire 11 La régression linéaire simple 31.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.1.1 Un exemple : la pollution de l’air . . . . . . . . . . . . . . . 31.1.2 Un second exemple : la hauteur des arbres . . . . . . . . . . 51.2 Modélisation mathématique . . . . . . . . . . . . . . . . . . . . . 71.2.1 Choix du critère de qualité et distance à la droite . . . . . . 71.2.2 Choix des fonctions à utiliser . . . . . . . . . . . . . . . . . 91.3 Modélisation statistique . . . . . . . . . . . . . . . . . . . . . . . . 101.4 Estimateurs des moindres carrés . . . . . . . . . . . . . . . . . . . 111.4.1 Calcul des estimateurs de βj , quelques propriétés . . . . . . 111.4.2 Résidus et variance résiduelle . . . . . . . . . . . . . . . . . 151.4.3 Prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.5 Interprétations géométriques . . . . . . . . . . . . . . . . . . . . . 161.5.1 Représentation des individus . . . . . . . . . . . . . . . . . 161.5.2 Représentation des variables . . . . . . . . . . . . . . . . . . 171.6 Inférence statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 191.7 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221.8 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282 La régression linéaire multiple 312.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.2 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.3 Estimateurs des moindres carrés . . . . . . . . . . . . . . . . . . . 342.3.1 Calcul de ˆ β . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.3.2 Interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . 372.3.3 Quelques propriétés statistiques . . . . . . . . . . . . . . . . 382.3.4 Résidus et variance résiduelle . . . . . . . . . . . . . . . . . 402.3.5 Prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412.4 Interprétation géométrique . . . . . . . . . . . . . . . . . . . . . . 422.5 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463 Validation du modèle 513.1 Analyse des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.1.1 Les différents résidus . . . . . . . . . . . . . . . . . . . . . . 523.1.2 Ajustement individuel au modèle, valeur aberrante . . . . . 533.1.3 Analyse de la normalité . . . . . . . . . . . . . . . . . . . . 543.1.4 Analyse de l’homoscédasticité . . . . . . . . . . . . . . . . . 553.1.5 Analyse de la structure des résidus . . . . . . . . . . . . . . 563.2 Analyse de la matrice de projection . . . . . . . . . . . . . . . . . . 593.3 Autres mesures diagnostiques . . . . . . . . . . . . . . . . . . . . . 603.4 Effet d’une variable explicative . . . . . . . . . . . . . . . . . . . . 633.4.1 Ajustement au modèle . . . . . . . . . . . . . . . . . . . . . 633.4.2 Régression partielle : impact d’une variable . . . . . . . . . 643.4.3 Résidus partiels et résidus partiels augmentés . . . . . . . . 653.5 Exemple : la concentration en ozone . . . . . . . . . . . . . . . . . 673.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 714 Extensions : non-inversibilité et (ou) erreurs corrélées 734.1 Régression ridge . . . . . . . . . . . . . . . . . . . . . . . . . . . . 734.1.1 Une solution historique . . . . . . . . . . . . . . . . . . . . 744.1.2 Minimisation des MCO pénalisés . . . . . . . . . . . . . . . 754.1.3 Equivalence avec une contrainte sur la norme des coefficients 754.1.4 Propriétés statistiques de l’estimateur ridge ˆ βridge . . . . . . 764.2 Erreurs corrélées : moindres carrés généralisés . . . . . . . . . . . . . 784.2.1 Erreurs hétéroscédastiques . . . . . . . . . . . . . . . . . . . 794.2.2 Estimateur des moindres carrés généralisés . . . . . . . . . 814.2.3 Matrice Ω inconnue . . . . . . . . . . . . . . . . . . . . . . 844.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 855 Régression polynomiale et régression spline 875.1 Régression polynomiale . . . . . . . . . . . . . . . . . . . . . . . . 875.2 Régression spline . . . . . . . . . . . . . . . . . . . . . . . . . . . . 915.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 915.2.2 Spline de régression . . . . . . . . . . . . . . . . . . . . . . 925.3 Spline de lissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 965.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99II Inférence 1016 Inférence dans le modèle gaussien 1036.1 Estimateurs du maximum de vraisemblance . . . . . . . . . . . . . 103Table des matières xiii6.2 Nouvelles propriétés statistiques . . . . . . . . . . . . . . . . . . . 1046.3 Intervalles et régions de confiance . . . . . . . . . . . . . . . . . . . 1066.4 Prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1096.5 Les tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . 1106.5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 1106.5.2 Test entre modèles emboîtés . . . . . . . . . . . . . . . . . . 1116.6 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1146.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1186.8 Notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1216.8.1 Intervalle de confiance : bootstrap . . . . . . . . . . . . . . 1216.8.2 Test de Fisher pour une hypothèse linéaire quelconque . . . 1236.8.3 Propriétés asymptotiques . . . . . . . . . . . . . . . . . . . 1257 Variables qualitatives : ANCOVA et ANOVA 1297.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1297.2 Analyse de la covariance . . . . . . . . . . . . . . . . . . . . . . . . 1317.2.1 Introduction : exemple des eucalyptus . . . . . . . . . . . . 1317.2.2 Modélisation du problème . . . . . . . . . . . . . . . . . . . 1337.2.3 Hypothèse gaussienne . . . . . . . . . . . . . . . . . . . . . 1357.2.4 Exemple : la concentration en ozone . . . . . . . . . . . . . 1367.2.5 Exemple : la hauteur des eucalyptus . . . . . . . . . . . . . 1407.3 Analyse de la variance à 1 facteur . . . . . . . . . . . . . . . . . . . 1427.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 1427.3.2 Modélisation du problème . . . . . . . . . . . . . . . . . . . 1437.3.3 Interprétation des contraintes . . . . . . . . . . . . . . . . . 1457.3.4 Estimation des paramètres . . . . . . . . . . . . . . . . . . 1457.3.5 Hypothèse gaussienne et test d’influence du facteur . . . . . 1477.3.6 Exemple : la concentration en ozone . . . . . . . . . . . . . 1487.3.7 Une décomposition directe de la variance . . . . . . . . . . 1527.4 Analyse de la variance à 2 facteurs . . . . . . . . . . . . . . . . . . 1537.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 1537.4.2 Modélisation du problème . . . . . . . . . . . . . . . . . . . 1547.4.3 Estimation des paramètres . . . . . . . . . . . . . . . . . . 1567.4.4 Analyse graphique de l’interaction . . . . . . . . . . . . . . 1577.4.5 Hypothèse gaussienne et test de l’interaction . . . . . . . . 1587.4.6 Exemple : la concentration en ozone . . . . . . . . . . . . . 1617.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1627.6 Note : identifiabilité et contrastes . . . . . . . . . . . . . . . . . . . 165III Réduction de dimension 1678 Choix de variables 1698.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1698.2 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1718.3 Choix incorrect de variables : conséquences . . . . . . . . . . . . . 1728.3.1 Biais des estimateurs . . . . . . . . . . . . . . . . . . . . . 1728.3.2 Variance des estimateurs . . . . . . . . . . . . . . . . . . . . 1748.3.3 Erreur quadratique moyenne . . . . . . . . . . . . . . . . . 1758.3.4 Erreur quadratique moyenne de prévision . . . . . . . . . . 1778.4 Critères classiques de choix de modèles . . . . . . . . . . . . . . . 1798.4.1 Tests entre modèles emboîtés . . . . . . . . . . . . . . . . . 1808.4.2 Le R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1818.4.3 Le R2 ajusté . . . . . . . . . . . . . . . . . . . . . . . . . . 1828.4.4 Le Cp de Mallows . . . . . . . . . . . . . . . . . . . . . . . 1838.4.5 Vraisemblance et pénalisation . . . . . . . . . . . . . . . . . 1858.4.6 Liens entre les critères . . . . . . . . . . . . . . . . . . . . . 1878.5 Procédure de sélection . . . . . . . . . . . . . . . . . . . . . . . . . 1898.5.1 Recherche exhaustive . . . . . . . . . . . . . . . . . . . . . . 1898.5.2 Recherche pas à pas . . . . . . . . . . . . . . . . . . . . . . 1898.6 Exemple : la concentration en ozone . . . . . . . . . . . . . . . . . 1918.6.1 Variables explicatives quantitatives . . . . . . . . . . . . . . 1918.6.2 Intégration de variables qualitatives . . . . . . . . . . . . . 1928.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1938.8 Note : Cp et biais de sélection . . . . . . . . . . . . . . . . . . . . . 1959 Régularisation des moindres carrés : ridge, lasso et elastic-net 1999.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1999.2 Problème du centrage réduction des variables . . . . . . . . . . . . 2029.3 Propriétés des régressions ridge et lasso . . . . . . . . . . . . . . . 2039.3.1 Interprétation géométrique . . . . . . . . . . . . . . . . . . 2079.3.2 Simplification quand les X sont orthogonaux . . . . . . . . 2099.3.3 Choix de λ par validation croisée . . . . . . . . . . . . . . . 2119.4 Régularisation avec le module scikitlearn . . . . . . . . . . . . . . . 2149.4.1 Estimation des paramètres . . . . . . . . . . . . . . . . . . 2159.4.2 Chemin de régularisation . . . . . . . . . . . . . . . . . . . 2169.4.3 Choix du paramètre de régularisation α . . . . . . . . . . . 2179.4.4 Mise en pratique . . . . . . . . . . . . . . . . . . . . . . . . 2199.5 Intégration de variables qualitatives . . . . . . . . . . . . . . . . . 2199.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2229.7 Note : lars et lasso . . . . . . . . . . . . . . . . . . . . . . . . . . . 22610 Régression sur composantes : PCR et PLS 22910.1 Régression sur composantes principales (PCR) . . . . . . . . . . . 23010.1.1 Changement de base . . . . . . . . . . . . . . . . . . . . . . 23010.1.2 Estimateurs des MCO . . . . . . . . . . . . . . . . . . . . . 23110.1.3 Choix de composantes/variables . . . . . . . . . . . . . . . 23210.1.4 Retour aux données d’origine . . . . . . . . . . . . . . . . . 23410.1.5 La régression sur composantes en pratique . . . . . . . . . . 23510.2 Régression aux moindres carrés partiels (PLS) . . . . . . . . . . . . 23810.2.1 Algorithmes PLS . . . . . . . . . . . . . . . . . . . . . . . . 24010.2.2 Choix de composantes/variables . . . . . . . . . . . . . . . 24010.2.3 Retour aux données d’origine . . . . . . . . . . . . . . . . . 24110.2.4 La régression PLS en pratique . . . . . . . . . . . . . . . . 24310.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24410.4 Notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24610.4.1 ACP et changement de base . . . . . . . . . . . . . . . . . . 24610.4.2 Colinéarité parfaite : |X’X|=0 . . . . . . . . . . . . . . . . 24711 Comparaison des différentes méthodes, étude de cas réels 25111.1 Erreur de prévision et validation croisée . . . . . . . . . . . . . . . 25111.2 Analyse de l’ozone . . . . . . . . . . . . . . . . . . . . . . . . . . . 25511.2.1 Préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . 25511.2.2 Méthodes et comparaison . . . . . . . . . . . . . . . . . . . 25611.3 Modification de variables : feature engineering . . . . . . . . . . . . 25911.3.1 Modèle de prévision avec interactions . . . . . . . . . . . . 25911.3.2 Modèle de prévision avec des polynômes . . . . . . . . . . . 26011.3.3 Modèle de prévision avec des splines . . . . . . . . . . . . . 26011.3.4 Modèle de prévision avec interactions et splines . . . . . . . 26111.3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 262IV Le modèle linéaire généralisé 26312 Régression logistique 26512.1 Présentation du modèle . . . . . . . . . . . . . . . . . . . . . . . . 26512.1.1 Exemple introductif . . . . . . . . . . . . . . . . . . . . . . 26512.1.2 Modélisation statistique . . . . . . . . . . . . . . . . . . . . 26612.1.3 Variables explicatives qualitatives, interactions . . . . . . . 26912.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27112.2.1 La vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . 27112.2.2 Calcul des estimateurs : l’algorithme IRLS . . . . . . . . . . 27312.2.3 Propriétés asymptotiques de l’EMV . . . . . . . . . . . . . 27412.3 Intervalles de confiance et tests . . . . . . . . . . . . . . . . . . . . 27512.3.1 IC et tests sur les paramètres du modèle . . . . . . . . . . . 27612.3.2 Test sur un sous-ensemble de paramètres . . . . . . . . . . 27712.3.3 Prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28012.4 Adéquation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . 28212.4.1 Le modèle saturé . . . . . . . . . . . . . . . . . . . . . . . . 28312.4.2 Tests d’adéquation de la déviance et de Pearson . . . . . . 28512.4.3 Analyse des résidus . . . . . . . . . . . . . . . . . . . . . . . 28812.5 Choix de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 29212.5.1 Tests entre modèles emboîtés . . . . . . . . . . . . . . . . . 29212.5.2 Procédures automatiques . . . . . . . . . . . . . . . . . . . 29312.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29513 Régression de Poisson 30113.1 Le modèle linéaire généralisé (GLM) . . . . . . . . . . . . . . . . . 30113.2 Exemple : modélisation du nombre de visites . . . . . . . . . . . . 30413.3 Régression Log-linéaire . . . . . . . . . . . . . . . . . . . . . . . . . 30713.3.1 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30713.3.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . 30813.3.3 Tests et intervalles de confiance . . . . . . . . . . . . . . . . 30913.3.4 Choix de variables . . . . . . . . . . . . . . . . . . . . . . . 31313.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31414 Régularisation de la vraisemblance 31914.1 Régressions ridge, lasso et elastic-net . . . . . . . . . . . . . . . . . 31914.2 Choix du paramètre de régularisation λ . . . . . . . . . . . . . . . 32414.3 Group-lasso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32714.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32915 Comparaison en classification supervisée 33115.1 Prévision en classification supervisée . . . . . . . . . . . . . . . . . 33115.2 Performance d’une règle . . . . . . . . . . . . . . . . . . . . . . . . 33315.2.1 Erreur de classification et accuracy . . . . . . . . . . . . . . 33615.2.2 Sensibilité (recall) et taux de faux négatifs . . . . . . . . . . 33715.2.3 Spécificité et taux de faux positifs . . . . . . . . . . . . . . 33715.2.4 Mesure sur les tables de contingence . . . . . . . . . . . . . 33815.3 Performance d’un score . . . . . . . . . . . . . . . . . . . . . . . . 33915.3.1 Courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . 33915.3.2 Courbe lift . . . . . . . . . . . . . . . . . . . . . . . . . . . 34115.4 Choix du seuil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34215.4.1 Respect des proportions initiales . . . . . . . . . . . . . . . 34215.4.2 Maximisation d’indices ad hoc . . . . . . . . . . . . . . . . 34215.4.3 Maximisation d’un coût moyen . . . . . . . . . . . . . . . . 34315.5 Analyse des données chd . . . . . . . . . . . . . . . . . . . . . . . . 34415.5.1 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . 34415.5.2 Méthodes et comparaison . . . . . . . . . . . . . . . . . . . 34415.6Modification de variables : feature engineering . . . . . . . . . . . . 35115.6.1 Modèle de prévision avec interactions . . . . . . . . . . . . 35215.6.2 Modèle de prévision avec des polynômes . . . . . . . . . . . 35215.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35416 Données déséquilibrées 35716.1 Données déséquilibrées et modèle logistique . . . . . . . . . . . . . 35716.1.1 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . 35716.1.2 Rééquilibrage pour le modèle logistique . . . . . . . . . . . 35916.1.3 Exemples de schéma de rééquilibrage . . . . . . . . . . . . . 36016.2 Stratégies pour données déséquilibrées . . . . . . . . . . . . . . . . 36516.2.1 Quelques méthodes de rééquilibrage . . . . . . . . . . . . . 36516.2.2 Critères pour données déséquilibrées . . . . . . . . . . . . . 37016.3 Choisir un algorithme de rééquilibrage . . . . . . . . . . . . . . . . 37316.3.1 Rééquilibrage et validation croisée . . . . . . . . . . . . . . 37416.3.2 Application aux données d’images publicitaires . . . . . . . 37516.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379A Rappels 381A.1 Rappels d’algèbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381A.2 Rappels de probabilités . . . . . . . . . . . . . . . . . . . . . . . . 384A.3 Modules Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385Bibliographie 391Index 395Notations 403Fonctions et modules python 405

Consulter en ligne

Suggestions

Du même auteur

Régression avec R | Pierre-André Cornillon. Auteur

livres numériques

Régression avec R

Pierre-André Cornillon. Auteur

2023

Régression avec R - 2e édition | Pierre-André Cornillon. Auteur

livres numériques

Régression avec R - 2e édition

Pierre-André Cornillon. Auteur

2023

Régression : théorie et applications | Pierre-André Cornillon. Auteur

livres numériques

Régression : théorie et applications

Pierre-André Cornillon. Auteur

2024

Chargement des enrichissements...