diff --git a/module3/exo3/exercice_fr.Rmd b/module3/exo3/exercice_fr.Rmd index 7eece5e296bb586e88166aa8a263ca75b44c2b9e..867ee0b67319bf9083d9b481c40915b2e3be023e 100644 --- a/module3/exo3/exercice_fr.Rmd +++ b/module3/exo3/exercice_fr.Rmd @@ -1,7 +1,7 @@ --- -title: "Votre titre" -author: "Votre nom" -date: "La date du jour" +title: "Autour du SARS-CoV-2 (Covid-19)" +author: "Pauline" +date: "21/07/2021" output: html_document --- @@ -10,24 +10,109 @@ output: html_document knitr::opts_chunk$set(echo = TRUE) ``` -## Quelques explications +## Préparation des données -Ceci est un document R markdown que vous pouvez aisément exporter au format HTML, PDF, et MS Word. Pour plus de détails sur R Markdown consultez . +Les données que nous utiliserons dans un premier temps sont compilées par le Johns Hopkins University Center for Systems Science and Engineering (JHU CSSE). L'URL est: +```{r} +data_url = read.csv("https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv", sep=",",check.names = FALSE) +``` + +### Téléchargement et sélection des données + +Le jeu de données est le suivant : + +```{r} +data<-data_url +head(data) +tail(data) +``` +Y a-t-il des points manquants dans nos données ? + +```{r} +na_records = apply(data, 1, function (x) any(is.na(x))) +data[na_records,] +``` + +Les pays qui nous intéressent sont la Belgique (Belgium), la Chine - toute les provinces sauf Honk-Kong (China), Hong Kong (China, Hong-Kong), la France métropolitaine (France), l’Allemagne (Germany), l’Iran (Iran), l’Italie (Italy), le Japon (Japan), la Corée du Sud (Korea, South), la Hollande sans les colonies (Netherlands), le Portugal (Portugal), l’Espagne (Spain), le Royaume-Unis sans les colonies (United Kingdom), les États-Unis (US). + +```{r} +names(data)[match("Country/Region",names(data))] <- "Country.Region" +names(data)[match("Province/State",names(data))] <- "Province.State" + +data1<-subset(data, c(Country.Region == "Belgium" | Country.Region == "Japan"| Country.Region == "Korea, South"| Country.Region == "Iran"| Country.Region == "Portugal"| Country.Region == "Spain"| Country.Region == "Germany"| Country.Region == "US")) +data2<-subset(data[c(59:70,72:92),]) +data3<-subset(data[71,]) +data4<-subset(data[131,]) +data5<-subset(data[270,]) +data6<-subset(data[198,]) +data7<-rbind(data1, data2) +data8<-rbind(data7, data3) +data9<-rbind(data8, data4) +data10<-rbind(data9, data5) +data.CR<-rbind(data10, data6) + +data.CR$Country.Region[data.CR$Province.State == "Hong Kong" & data.CR$Country.Region == "China"] <- "Chine, Hong Kong" +data.CR$Country.Region[data.CR$Province.State != "Hong Kong" & data.CR$Country.Region == "China"] <- "Chine (sans Hong Kong)" + +``` + +### Transformation + +À la suite de la précédente manipulation, nous supprimons la variable Province.State qui ne nous est plus utile pour la suite de l'analyse : + +```{r} +data.CR<-data.CR[,-c(1)] + +``` + +Les variables sur les latitudes et les longitudes ne nous intéressent pas pour la suite du traitement des données. + +```{r} +data.CR<-data.CR[,-c(2,3)] +``` + +Pour faciliter le traitement suivant, nous agrégeons les provinces de la Chine (hors Hong Kong) ensemble : + +```{r} +data.CR<-aggregate(. ~ Country.Region, data.CR, sum, na.rm = T) +``` + +### Inspection + +Nous regardons notre nouveau jeu de données : + +```{r} +head(data.CR) +View(data.CR) +``` + +Nous vérifions la nature de nos variables : + +```{r} +str(data.CR) +``` + +### Transformation -Lorsque vous cliquerez sur le bouton **Knit** ce document sera compilé afin de ré-exécuter le code R et d'inclure les résultats dans un document final. Comme nous vous l'avons montré dans la vidéo, on inclue du code R de la façon suivante: +Pour réaliser un graphique, nous allons devoirs mettre les colonnes en lignes successives de la manière suivante : -```{r cars} -summary(cars) +```{r} +library(tidyr) +data.CR2<-data.CR %>% pivot_longer(-Country.Region) ``` -Et on peut aussi aisément inclure des figures. Par exemple: +Par la suite, nous allons définir le format de date de notre variable renommée name : -```{r pressure, echo=FALSE} -plot(pressure) +```{r} +data.CR2$name<-as.POSIXct(data.CR2$name, format = "%m/%d/%Y") +View(data.CR2) ``` -Vous remarquerez le paramètre `echo = FALSE` qui indique que le code ne doit pas apparaître dans la version finale du document. Nous vous recommandons dans le cadre de ce MOOC de ne pas utiliser ce paramètre car l'objectif est que vos analyses de données soient parfaitement transparentes pour être reproductibles. +### Graphique -Comme les résultats ne sont pas stockés dans les fichiers Rmd, pour faciliter la relecture de vos analyses par d'autres personnes, vous aurez donc intérêt à générer un HTML ou un PDF et à le commiter. +Il est maintenant possible d'établir un graphique démontrant le nombre de personnes contaminés dans chaque pays étudié depuis le début de la pandémie. -Maintenant, à vous de jouer! Vous pouvez effacer toutes ces informations et les remplacer par votre document computationnel. +```{r} +library(ggplot2) +ggplot(data.CR2, aes(name, value, color= Country.Region)) + geom_line() +``` \ No newline at end of file