livres numériques

Régression avec R

Pierre-André Cornillon. Auteur

451 pages. Temps de lecture estimé 5h38min.
Cet ouvrage expose de manière détaillée, exemples à l’appui, différentes façons de répondre à un des problèmes statistiques les plus courants : la régression. Cette nouvelle édition se décompose en cinq parties. La première donne les grands principes des régressions simple et multiple par moindres carrés. Les fondamentaux de la méthode, tant au niveau des choix opérés que des hypothèses et leur utilité, sont expliqués. La deuxième partie est consacrée à l’inférence et présente les outils permettant de vérifier les hypothèses mises en œuvre. Les techniques d’analyse de la variance et de la covariance sont également présentées dans cette partie. Le cas de la grande dimension est ensuite abordé dans la troisième partie. Différentes méthodes de réduction de la dimension telles que la sélection de variables, les régressions sous contraintes (lasso, elasticnet ou ridge) et sur composantes (PLS ou PCR) sont notamment proposées. Un dernier chapitre propose des algorithmes, basés sur des méthodes de rééchantillonnage comme l’apprentissage/validation ou la validation croisée, qui permettent d’établir une comparaison entre toutes ces méthodes. La quatrième partie se concentre sur les modèles linéaires généralisés et plus particulièrement sur les régressions logistique et de Poisson avec ou sans technique de régularisation. Une section particulière est consacrée aux comparaisons de méthodes en classification supervisée. Elle introduit notamment des critères de performance pour scorer des individus comme les courbes ROC et lift et propose des stratégies de choix seuil (Younden, macro F1...) pour les classer. Ces notions sont ensuite mises en œuvre sur des données réelles afin de sélectionner une méthode de prévision parmi plusieurs algorithmes basés sur des modèles logistiques (régularisés ou non). Une dernière section aborde le problème des données déséquilibrées qui est souvent rencontré en régression binaire. Enfin, la dernière partie présente l’approche non paramétrique à travers les splines, les estimateurs à noyau et des plus proches voisins. La présentation témoigne d’un réel souci pédagogique des auteurs qui bénéficient d’une expérience d’enseignement auprès de publics très variés. Les résultats exposés sont replacés dans la perspective de leur utilité pratique grâce à l’analyse d’exemples concrets. Les commandes permettant le traitement des exemples sous R figurent dans le corps du texte. Enfin, chaque chapitre est complété par une suite d’exercices corrigés. Les codes, les données et les corrections des exercices se trouvent sur le site https://regression-avec-r.github.io/ Cet ouvrage s’adresse principalement à des étudiants de Master et d’écoles d’ingénieurs ainsi qu’aux chercheurs travaillant dans les divers domaines des sciences appliquéesRemerciements viiAvant-Propos ixI Introduction au modèle linéaire11 La régression linéaire simple 31.1 Introduction............................... 31.1.1 Un exemple : la pollutionde l’air ............... 31.1.2 Un second exemple : lahauteur des arbres .......... 51.2 Modélisation mathématique..................... 71.2.1 Choix du critère de qualitéet distance à la droite ...... 71.2.2 Choix des fonctions àutiliser ................. 91.3 Modélisation statistique . .. . . . . . . . . . . . . . . . . . . . . . 101.4 Estimateurs des moindrescarrés . . . . . . . . . . . . . . . . . . . 111.4.1 Calcul des estimateurs deβj , quelques propriétés . . . . . . 111.4.2 Résidus et variancerésiduelle . . . . . . . . . . . . . . . . . 151.4.3 Prévision . . . . . . . . .. . . . . . . . . . . . . . . . . . . 151.5 Interprétations géométriques. . . . . . . . . . . . . . . . . . . . . 161.5.1 Représentation desindividus . . . . . . . . . . . . . . . . . 161.5.2 Représentation desvariables . . . . . . . . . . . . . . . . . . 171.6 Inférence statistique . . . .. . . . . . . . . . . . . . . . . . . . . . 191.7 Exemples . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 221.8 Exercices . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 292 La régression linéaire multiple312.1 Introduction . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 312.2 Modélisation . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 322.3 Estimateurs des moindrescarrés . . . . . . . . . . . . . . . . . . . 342.3.1 Calcul de βˆ . . . . . . .. . . . . . . . . . . . . . . . . . . . 352.3.2 Interprétation . . . . . .. . . . . . . . . . . . . . . . . . . . 372.3.3 Quelques propriétésstatistiques . . . . . . . . . . . . . . . . 382.3.4 Résidus et variancerésiduelle . . . . . . . . . . . . . . . . . 402.3.5 Prévision . . . . . . . . .. . . . . . . . . . . . . . . . . . . 412.4 Interprétation géométrique .. . . . . . . . . . . . . . . . . . . . . 422.5 Exemples . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 432.6 Exercices . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 473 Validation du modèle 513.1 Analyse des résidus . . . . .. . . . . . . . . . . . . . . . . . . . . . 523.1.1 Les différents résidus . .. . . . . . . . . . . . . . . . . . . . 523.1.2 Ajustement individuel aumodèle, valeur aberrante . . . . . 533.1.3 Analyse de la normalité . .. . . . . . . . . . . . . . . . . . 543.1.4 Analyse del’homoscédasticité . . . . . . . . . . . . . . . . . 553.1.5 Analyse de la structure desrésidus . . . . . . . . . . . . . . 563.2 Analyse de la matrice deprojection . . . . . . . . . . . . . . . . . . 593.3 Autres mesures diagnostiques. . . . . . . . . . . . . . . . . . . . . 603.4 Effet d’une variableexplicative . . . . . . . . . . . . . . . . . . . . 633.4.1 Ajustement au modèle . . .. . . . . . . . . . . . . . . . . . 633.4.2 Régression partielle :impact d’une variable . . . . . . . . . 643.4.3 Résidus partiels et résiduspartiels augmentés . . . . . . . . 653.5 Exemple : la concentration enozone . . . . . . . . . . . . . . . . . 673.6 Exercices . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 704 Extensions : non-inversibilitéet (ou) erreurs corrélées 734.1 Régression ridge . . . . . .. . . . . . . . . . . . . . . . . . . . . . 734.1.1 Une solution historique . .. . . . . . . . . . . . . . . . . . 744.1.2 Minimisation des MCOpénalisés . . . . . . . . . . . . . . . 754.1.3 Equivalence avec unecontrainte sur la norme des coefficients 754.1.4 Propriétés statistiques del’estimateur ridge βˆridge . . . . . . 764.2 Erreurs corrélées : moindrescarrés généralisés . . . . . . . . . . . . 784.2.1 Erreurs hétéroscédastiques. . . . . . . . . . . . . . . . . . . 794.2.2 Estimateur des moindrescarrés généralisés . . . . . . . . . 824.2.3 Matrice Ω inconnue . . . .. . . . . . . . . . . . . . . . . . 844.3 Exercices . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 85II Inférence 895 Inférence dans le modèlegaussien 915.1 Estimateurs du maximum devraisemblance . . . . . . . . . . . . . 915.2 Nouvelles propriétésstatistiques . . . . . . . . . . . . . . . . . . . 925.3 Intervalles et régions deconfiance . . . . . . . . . . . . . . . . . . . 945.4 Prévision . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 975.5 Les tests d’hypothèses . . .. . . . . . . . . . . . . . . . . . . . . . 985.5.1 Introduction . . . . . . .. . . . . . . . . . . . . . . . . . . 985.5.2 Test entre modèles emboîtés. . . . . . . . . . . . . . . . . . 985.6 Applications . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 1025.7 Exercices . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 1065.8 Notes . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 1095.8.1 Intervalle de confiance :bootstrap . . . . . . . . . . . . . . 1095.8.2 Test de Fisher pour unehypothèse linéaire quelconque . . . 1125.8.3 Propriétés asymptotiques .. . . . . . . . . . . . . . . . . . 1146 Variables qualitatives : ANCOVAet ANOVA 1176.1 Introduction . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 1176.2 Analyse de la covariance . .. . . . . . . . . . . . . . . . . . . . . . 1196.2.1 Introduction : exemple deseucalyptus . . . . . . . . . . . . 1196.2.2 Modélisation du problème .. . . . . . . . . . . . . . . . . . 1216.2.3 Hypothèse gaussienne . . .. . . . . . . . . . . . . . . . . . 1236.2.4 Exemple : la concentrationen ozone . . . . . . . . . . . . . 1246.2.5 Exemple : la hauteur deseucalyptus . . . . . . . . . . . . . 1296.3 Analyse de la variance à 1facteur . . . . . . . . . . . . . . . . . . . 1316.3.1 Introduction . . . . . . .. . . . . . . . . . . . . . . . . . . 1316.3.2 Modélisation du problème .. . . . . . . . . . . . . . . . . . 1326.3.3 Interprétation descontraintes . . . . . . . . . . . . . . . . . 1346.3.4 Estimation des paramètres .. . . . . . . . . . . . . . . . . 1346.3.5 Hypothèse gaussienne ettest d’influence du facteur . . . . . 1366.3.6 Exemple : la concentrationen ozone . . . . . . . . . . . . . 1376.3.7 Une décomposition directede la variance . . . . . . . . . . 1426.4 Analyse de la variance à 2facteurs . . . . . . . . . . . . . . . . . . 1426.4.1 Introduction . . . . . . .. . . . . . . . . . . . . . . . . . . 1426.4.2 Modélisation du problème .. . . . . . . . . . . . . . . . . . 1436.4.3 Estimation des paramètres .. . . . . . . . . . . . . . . . . 1456.4.4 Analyse graphique del’interaction . . . . . . . . . . . . . . 1466.4.5 Hypothèse gaussienne ettest de l’interaction . . . . . . . . 1486.4.6 Exemple : la concentrationen ozone . . . . . . . . . . . . . 1506.5 Exercices . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 1526.6 Note : identifiabilité etcontrastes . . . . . . . . . . . . . . . . . . . 155III Réduction de dimension 1577 Choix de variables 1597.1 Introduction . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 1597.2 Choix incorrect de variables: conséquences . . . . . . . . . . . . . 1617.2.1 Biais des estimateurs . . .. . . . . . . . . . . . . . . . . . 1617.2.2 Variance des estimateurs .. . . . . . . . . . . . . . . . . . . 1637.2.3 Erreur quadratique moyenne. . . . . . . . . . . . . . . . . 1637.2.4 Erreur quadratique moyennede prévision . . . . . . . . . . 1667.3 Critères classiques de choixde modèles . . . . . . . . . . . . . . . 1687.3.1 Tests entre modèlesemboîtés . . . . . . . . . . . . . . . . . 1697.3.2 Le R2 . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . 1707.3.3 Le R2 ajusté . . . . . . .. . . . . . . . . . . . . . . . . . . 1717.3.4 Le Cp de Mallows . . . . .. . . . . . . . . . . . . . . . . . 1727.3.5 Vraisemblance etpénalisation . . . . . . . . . . . . . . . . . 1747.3.6 Liens entre les critères .. . . . . . . . . . . . . . . . . . . . 1767.4 Procédure de sélection . . .. . . . . . . . . . . . . . . . . . . . . . 1787.4.1 Recherche exhaustive . . .. . . . . . . . . . . . . . . . . . . 1787.4.2 Recherche pas à pas . . . .. . . . . . . . . . . . . . . . . . 1787.5 Exemple : la concentration enozone . . . . . . . . . . . . . . . . . 1807.5.1 Variables explicativesquantitatives . . . . . . . . . . . . . . 1807.5.2 Intégration de variablesqualitatives . . . . . . . . . . . . . 1837.6 Exercices . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 1847.7 Note : Cp et biais desélection . . . . . . . . . . . . . . . . . . . . . 1878 Régularisation des moindrescarrés : Ridge, Lasso et elastic-net 1918.1 Introduction . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 1918.2 Problème ducentrage-réduction des variables . . . . . . . . . . . . 1948.3 Ridge, lasso et elastic-net .. . . . . . . . . . . . . . . . . . . . . . 1958.3.1 Régressions avec la packageglmnet . . . . . . . . . . . . . . 1998.3.2 Interprétation géométrique. . . . . . . . . . . . . . . . . . 2028.3.3 Simplification quand les Xsont orthogonaux . . . . . . . . 2038.3.4 Choix du paramètre de régularisationλ . . . . . . . . . . . 2068.4 Intégration de variablesqualitatives . . . . . . . . . . . . . . . . . 2088.5 Exercices . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 2108.6 Note : lars et lasso . . . .. . . . . . . . . . . . . . . . . . . . . . . 2139 Régression sur composantes :PCR et PLS 2179.1 Régression sur composantesprincipales (PCR) . . . . . . . . . . . 2189.1.1 Changement de base . . . .. . . . . . . . . . . . . . . . . . 2189.1.2 Estimateurs des MCO . . . .. . . . . . . . . . . . . . . . . 2199.1.3 Choix decomposantes/variables . . . . . . . . . . . . . . . 2209.1.4 Retour aux donnéesd’origine . . . . . . . . . . . . . . . . . 2229.1.5 La régression surcomposantes en pratique . . . . . . . . . . 2239.2 Régression aux moindrescarrés partiels (PLS) . . . . . . . . . . . . 2259.2.1 Algorithmes PLS . . . . . .. . . . . . . . . . . . . . . . . . 2279.2.2 Choix decomposantes/variables . . . . . . . . . . . . . . . 2289.2.3 Retour aux données d’origine. . . . . . . . . . . . . . . . . 2299.2.4 La régression PLS enpratique . . . . . . . . . . . . . . . . 2309.3 Exercices . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 2319.4 Notes . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 2339.4.1 ACP et changement de base .. . . . . . . . . . . . . . . . . 2339.4.2 Colinéarité parfaite : |X[1]X| = 0 . . . . . . . . . . . . .. . . 23510 Comparaison des différentesméthodes, étude de cas réels 23710.1 Erreur de prévision etvalidation croisée . . . . . . . . . . . . . . . 23710.2 Analyse de l’ozone . . . . .. . . . . . . . . . . . . . . . . . . . . . 24110.2.1 Préliminaires . . . . . .. . . . . . . . . . . . . . . . . . . . 24110.2.2 Méthodes et comparaison .. . . . . . . . . . . . . . . . . . 24110.2.3 Pour aller plus loin . . .. . . . . . . . . . . . . . . . . . . . 24510.2.4 Conclusion . . . . . . . .. . . . . . . . . . . . . . . . . . . 248IV Le modèle linéaire généralisé24911 Régression logistique 25111.1 Présentation du modèle . . .. . . . . . . . . . . . . . . . . . . . . 25111.1.1 Exemple introductif . . .. . . . . . . . . . . . . . . . . . . 25111.1.2 Modélisation statistique .. . . . . . . . . . . . . . . . . . . 25211.1.3 Variables explicativesqualitatives, interactions . . . . . . . 25511.2 Estimation . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 25711.2.1 La vraisemblance . . . . .. . . . . . . . . . . . . . . . . . . 25711.2.2 Calcul des estimateurs :l’algorithme IRLS . . . . . . . . . . 25911.2.3 Propriétés asymptotiquesde l’EMV . . . . . . . . . . . . . 26011.3 Intervalles de confiance ettests . . . . . . . . . . . . . . . . . . . . 26111.3.1 IC et tests sur lesparamètres du modèle . . . . . . . . . . . 26211.3.2 Test sur un sous-ensemblede paramètres . . . . . . . . . . 26411.3.3 Prévision . . . . . . . .. . . . . . . . . . . . . . . . . . . . 26711.4 Adéquation du modèle . . . .. . . . . . . . . . . . . . . . . . . . . 26911.4.1 Le modèle saturé . . . . .. . . . . . . . . . . . . . . . . . . 27011.4.2 Tests d’adéquation de ladéviance et de Pearson . . . . . . 27211.4.3 Analyse des résidus . . .. . . . . . . . . . . . . . . . . . . . 27511.5 Choix de variables . . . . .. . . . . . . . . . . . . . . . . . . . . . 27911.5.1 Tests entre modèlesemboîtés . . . . . . . . . . . . . . . . . 27911.5.2 Procédures automatiques .. . . . . . . . . . . . . . . . . . 28011.6 Exercices . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 28212 Régression de Poisson 28912.1 Le modèle linéairegénéralisé (GLM) . . . . . . . . . . . . . . . . . 28912.2 Exemple : modélisation dunombre de visites . . . . . . . . . . . . 29212.3 Régression Log-linéaire . .. . . . . . . . . . . . . . . . . . . . . . . 29512.3.1 Le modèle . . . . . . . .. . . . . . . . . . . . . . . . . . . . 29512.3.2 Estimation . . . . . . . .. . . . . . . . . . . . . . . . . . . 29612.3.3 Tests et intervalles deconfiance . . . . . . . . . . . . . . . . 29712.3.4 Choix de variables . . . .. . . . . . . . . . . . . . . . . . . 30212.4 Exercices . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 30313 Régularisation de lavraisemblance 30913.1 Régressions ridge, lasso etelastic-net . . . . . . . . . . . . . . . . . 30913.2 Choix du paramètre derégularisation λ . . . . . . . . . . . . . . . 31313.3 Group-lasso . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 31713.4 Exercices . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 31914 Comparaison en classificationsupervisée 32114.1 Prévision en classificationsupervisée . . . . . . . . . . . . . . . . . 32114.2 Performance d’une règle . .. . . . . . . . . . . . . . . . . . . . . . 32314.2.1 Erreur de classificationet accuracy . . . . . . . . . . . . . . 32614.2.2 Sensibilité (recall) ettaux de faux négatifs . . . . . . . . . . 32714.2.3 Spécificité et taux defaux positifs . . . . . . . . . . . . . . 32714.2.4 Mesure sur les tables decontingence . . . . . . . . . . . . . 32814.3 Performance d’un score . . .. . . . . . . . . . . . . . . . . . . . . 32914.3.1 Courbe ROC . . . . . . . .. . . . . . . . . . . . . . . . . . 32914.3.2 Courbe lift . . . . . . .. . . . . . . . . . . . . . . . . . . . 33114.4 Choix du seuil . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 33214.4.1 Respect des proportionsinitiales . . . . . . . . . . . . . . . 33214.4.2 Maximisation d’indices adhoc . . . . . . . . . . . . . . . . 33214.4.3 Maximisation d’un coûtmoyen . . . . . . . . . . . . . . . . 33314.5 Analyse des données chd . .. . . . . . . . . . . . . . . . . . . . . . 33414.5.1 Les données . . . . . . .. . . . . . . . . . . . . . . . . . . . 33414.5.2 Comparaison desalgorithmes . . . . . . . . . . . . . . . . . 33414.5.3 Pour aller plus loin . . .. . . . . . . . . . . . . . . . . . . . 34014.6 Application : détectiond’images publicitaires sur internet . . . . . 34614.6.1 Les données . . . . . . .. . . . . . . . . . . . . . . . . . . . 34614.6.2 Ajustement des modèles . .. . . . . . . . . . . . . . . . . . 34714.7 Exercices . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 35115 Données déséquilibrées 35315.1 Données déséquilibrées etmodèle logistique . . . . . . . . . . . . . 35315.1.1 Un exemple . . . . . . . .. . . . . . . . . . . . . . . . . . . 35315.1.2 Rééquilibrage pour lemodèle logistique . . . . . . . . . . . 35515.1.3 Exemples de schéma derééquilibrage . . . . . . . . . . . . . 35615.2 Stratégies pour donnéesdéséquilibrées . . . . . . . . . . . . . . . . 36115.2.1 Quelques méthodes derééquilibrage . . . . . . . . . . . . . 36115.2.2 Critères pour donnéesdéséquilibrées . . . . . . . . . . . . . 36615.3 Choisir un algorithme derééquilibrage . . . . . . . . . . . . . . . . 37015.3.1 Rééquilibrage etvalidation croisée . . . . . . . . . . . . . . 37015.3.2 Application aux donnéesd’images publicitaires . . . . . . . 37215.4 Exercices . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 376V Introduction à la régressionnon paramétrique 37916 Introduction à la régressionspline 38116.1 Introduction . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 38116.2 Régression spline . . . . .. . . . . . . . . . . . . . . . . . . . . . . 38516.2.1 Introduction . . . . . . .. . . . . . . . . . . . . . . . . . . 38516.2.2 Spline de régression . . .. . . . . . . . . . . . . . . . . . . 38616.3 Spline de lissage . . . . .. . . . . . . . . . . . . . . . . . . . . . . 39016.4 Exercices . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 39317 Estimateurs à noyau et k plusproches voisins 39517.1 Introduction . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 39517.2 Estimateurs par moyenneslocales . . . . . . . . . . . . . . . . . . . 39817.2.1 Estimateurs à noyau . . .. . . . . . . . . . . . . . . . . . . 39817.2.2 Les k plus proches voisins. . . . . . . . . . . . . . . . . . . 40217.3 Choix des paramètres delissage . . . . . . . . . . . . . . . . . . . . 40317.4 Ecriture multivariée etfléau de la dimension . . . . . . . . . . . . . 40617.4.1 Ecriture multivariée . . .. . . . . . . . . . . . . . . . . . . 40617.4.2 Biais et variance . . . .. . . . . . . . . . . . . . . . . . . . 40717.4.3 Fléau de la dimension . .. . . . . . . . . . . . . . . . . . . 40917.5 Exercices . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 411A Rappels 415A.1 Rappels d’algèbre . . . . . .. . . . . . . . . . . . . . . . . . . . . . 415A.2 Rappels de probabilités . . .. . . . . . . . . . . . . . . . . . . . . 418Bibliographie 419Index 423Notations 431Fonctions et packages R 433

Consulter en ligne

Suggestions

Du même auteur

livres numériques

Régression avec Python

Pierre-André Cornillon. Auteur

2025

livres numériques

Régression avec R - 2e édition

Pierre-André Cornillon. Auteur

2023

livres numériques

Régression : théorie et applications

Pierre-André Cornillon. Auteur

2024

Chargement des enrichissements...