Je me base sur les données de dates, températures et nombre de personnes croisées durant ma balade consignées dans mon journal du 18 au 24 Mars (monjournal.csv).
Je pense que je vais utiliser des tests non paramétriques car mes données ne sont sûrement pas normales, mais on peut tester quand même :
monjournal<-read.csv("monjournal.csv", header=T, dec=".", sep=";")
attach(monjournal)
shapiro.test(Temperature)
##
## Shapiro-Wilk normality test
##
## data: Temperature
## W = 0.93967, p-value = 0.6357
shapiro.test(Nbr)
##
## Shapiro-Wilk normality test
##
## data: Nbr
## W = 0.97198, p-value = 0.9124
Mes effectifs sont faibles mais bon … Shapiro me dis que mes deux distributions suivent la loi normale, je vais le croire et utiliser un test de corrélation de Pearson pour voir sqi il y a un lien entre mes deux variables.
cor(Temperature,Nbr, method="pearson")
## [1] 0.805413
Bon, il semble qu’il y ait une bonne corrélation entre le nombre de personnes que je croise et la température extérieure.
Avec une représentation graphique simple
library(ggplot2)
ggplot(monjournal, aes(x=Temperature, y=Nbr)) +
labs(x="Temperature", y="Nombre de personnes croisées durant ma balade")+
geom_point(size=2)+
theme_classic()+
geom_smooth(method=lm, se=FALSE)
## `geom_smooth()` using formula 'y ~ x'
Avec le peu de données que j’ai, on ne peut pas en déduire grand chose, mais il semble qu’il y ait quand même plus de personnes dehors lorsqu’il fait plus chaud en extérieur. Cette découverte va faire l’effet d’une bombe dans le monde scientifique.