Comprendre la différence entre l’histogramme et le graphique à barres, c’est distinguer entre les deux types de variables.
bondy2002 <- read.csv2("data/bondy_2002.csv", fileEncoding = "UTF-8")
chirac <- bondy2002 [bondy2002$nom == "CHIRAC", c("bv", "nb")]
rownames(chirac) <- chirac$bv
par(mfrow = c(2,1))
hist(chirac$nb, main = "fréquence absolue", xlab = "classes", ylab="effectif" )
barplot(chirac$nb, names.arg= chirac$bv,main = "distribution", xlab = "bv", ylab = "nb votes")
Classe / catégorie -> Khi2
Continu -> Régression Correlation
Continu et classe / catégorie -> Analyse de variance
Pour chaque exemple, justifier le traitement qu’il faudra utiliser et l’hypothèse de départ qu’il faudra mettre en doute.
hypothèse : groupe d’étudiants et réussite à l’examen (oui / non).
hypothèse : nombre de questions en cours et notes à l’examen
hypothèse : groupe d’éudiants et notes finales
## Warning in read.table("data/exKHI2.csv", sep = ",", row.names = 1, col.names =
## c("oui", : l'entête et 'col.names' sont de longueurs différentes
oui | non | |
---|---|---|
groupe1 | 15 | 15 |
groupe2 | 27 | 3 |
groupe3 | 5 | 25 |
##
## Pearson's Chi-squared test
##
## data: data
## X-squared = 32.42, df = 2, p-value = 9.124e-08
Il existe un lien entre groupe et résultat, puisque p-value est toute petite.
Certes… mais comment ?
L5GEABIM Analyses bivariées et multivariées