On travaille à présent sur les suffrages exprimés et l’abstention.
Comprendre les variables
Enoncer les hypothèses possibles de la comparaison, attention variable explicative (X) et à expliquer (Y)
(cf moodle exercice Introduction =régression)
## [1] "X" "Code.du.département"
## [3] "Libellé.du.département" "Code.de.la.circonscription"
## [5] "Libellé.de.la.circonscription" "Code.de.la.commune"
## [7] "Libellé.de.la.commune" "Code.du.b.vote"
## [9] "Inscrits" "Abstentions"
## [11] "X..Abs.Ins" "Votants"
## [13] "X..Vot.Ins" "Blancs"
## [15] "X..Blancs.Ins" "X..Blancs.Vot"
## [17] "Nuls" "X..Nuls.Ins"
## [19] "X..Nuls.Vot" "Exprimés"
## [21] "X..Exp.Ins" "X..Exp.Vot"
## [23] "N.Panneau" "Sexe"
## [25] "Nom" "Prénom"
## [27] "Voix" "X..Voix.Ins"
## [29] "X..Voix.Exp" "N.Panneau.1"
## [31] "Sexe.1" "Nom.1"
## [33] "Prénom.1" "Voix.1"
## [35] "X..Voix.Ins.1" "X..Voix.Exp.1"
## [37] "N.Panneau.2" "Sexe.2"
## [39] "Nom.2" "Prénom.2"
## [41] "Voix.2" "X..Voix.Ins.2"
## [43] "X..Voix.Exp.2" "N.Panneau.3"
## [45] "Sexe.3" "Nom.3"
## [47] "Prénom.3" "Voix.3"
## [49] "X..Voix.Ins.3" "X..Voix.Exp.3"
## [51] "N.Panneau.4" "Sexe.4"
## [53] "Nom.4" "Prénom.4"
## [55] "Voix.4" "X..Voix.Ins.4"
## [57] "X..Voix.Exp.4" "N.Panneau.5"
## [59] "Sexe.5" "Nom.5"
## [61] "Prénom.5" "Voix.5"
## [63] "X..Voix.Ins.5" "X..Voix.Exp.5"
## [65] "N.Panneau.6" "Sexe.6"
## [67] "Nom.6" "Prénom.6"
## [69] "Voix.6" "X..Voix.Ins.6"
## [71] "X..Voix.Exp.6" "N.Panneau.7"
## [73] "Sexe.7" "Nom.7"
## [75] "Prénom.7" "Voix.7"
## [77] "X..Voix.Ins.7" "X..Voix.Exp.7"
## [79] "N.Panneau.8" "Sexe.8"
## [81] "Nom.8" "Prénom.8"
## [83] "Voix.8" "X..Voix.Ins.8"
## [85] "X..Voix.Exp.8" "N.Panneau.9"
## [87] "Sexe.9" "Nom.9"
## [89] "Prénom.9" "Voix.9"
## [91] "X..Voix.Ins.9" "X..Voix.Exp.9"
## [93] "N.Panneau.10" "Sexe.10"
## [95] "Nom.10" "Prénom.10"
## [97] "Voix.10" "X..Voix.Ins.10"
## [99] "X..Voix.Exp.10" "N.Panneau.11"
## [101] "Sexe.11" "Nom.11"
## [103] "Prénom.11" "Voix.11"
## [105] "X..Voix.Ins.11" "X..Voix.Exp.11"
variable explicative et expliquée.
sélectionner uniquement les 2 colonnes de données
types de diagramme ; xy - dispersion
intervertir x et y (onglet série de données)
Retour sur les distributions pour enlever les valeurs aberrantes
On recherche des bornes permettant d’avoir un nuage de points “cohérent”. Avec le tableur, on fait le graphique puis on ajuste avec le filtre.
Le graphique se met automatiquement à jour
Désormais, on travaille sur la sélection et la totalité de la série pour vérifier que la restriction des bornes est utile.
La droite de régression minimise la somme des carrés des distances verticales entre chacun des points du nuage et la droite recherchée.
Pour une droite aX+b
a (la pente) = covariance / variance X
b (ordonnée de l’origine) = moyenne de Y - a * moyenne de X
La distance MP doit être minimale d’où le terme droite des moindres carrées
Dans calc, cliquer sur les points et insérer courbe de tendance (on peut également afficher l’équation de la droite.)
Visuellement, on voit bien qu’il existe un lien entre les deux variables, mais il y a beaucoup de points éparses (les résidus)
Il s’agit maintenant de mesurer précisemment l’intensité du lien à l’aide de calculs.
Savoir-faire tableur : utiliser les noms pour les colonnes
On rajoute des colonnes pour chaque variable :
écart à la moyenne
carré ( = distance plutôt que différence)
et pour les deux variables
Dans un nouveau tableau, pour chaque variable
moyenne
carré de la somme des écarts à la moyenne
Variance
Ecart type
puis covariance (produit des écarts / nb de valeurs)
et coeff (cov / produit des écarts types)
Le coefficient évolue de -1 à +1
Si r = 0, les variables ne sont pas corrélées.
Dans les autres cas, les variables sont corrélées négativement ou positivement.
plus la variable est proche de 1, plus l’intensité de la relation entre les deux variables est forte.
Dans notre exemple, lien faible
## Abstentions ZEMMOUR
## Abstentions 1.0000000 -0.3017822
## ZEMMOUR -0.3017822 1.0000000
## Abstentions ZEMMOUR
## Abstentions 1.0000000 -0.4384041
## ZEMMOUR -0.4384041 1.0000000
Le coefficient augmente mais il reste faible même en ayant supprimé 13 observations.
C’est le carré du coefficient de corrélation linéaire
## Abstentions ZEMMOUR
## Abstentions 1.0000000 0.1921981
## ZEMMOUR 0.1921981 1.0000000
L’abstention explique 19 % du vote pour Zemmour dans le meilleur des cas. Cela reste très peu.
Les 81 % restant sont liés à d’autres facteurs.
Identifiez graphiquement 2 points éloignés de la droite de régression.
Il peut s’agit par exemple des valeurs minimum et maximum des vote pour Zemmour.
Le bureau 5 apparaît une nouvelle fois confirmant son originalité. Le petit nombre de voix pour Zemmour n’implique pas une grande abstention.
Pour le bureau 2, l’abstention déja importante est à mettre en parallèle avec le nombre maximum de voix pour Zemmour dans le cadre de ce bureau.
L5GEABIM Analyses bivariées et multivariées