From e06cbce19e5170f0e3fbf17c3ad7461d7d8321e5 Mon Sep 17 00:00:00 2001 From: 1977ce9728f0d955d1b91ea649eba954 <1977ce9728f0d955d1b91ea649eba954@app-learninglab.inria.fr> Date: Sat, 21 Aug 2021 09:44:04 +0000 Subject: [PATCH] Update exercice_fr.Rmd --- module3/exo3/exercice_fr.Rmd | 44 +++++++++++++++++------------------- 1 file changed, 21 insertions(+), 23 deletions(-) diff --git a/module3/exo3/exercice_fr.Rmd b/module3/exo3/exercice_fr.Rmd index 10a4eeb..f7da94e 100644 --- a/module3/exo3/exercice_fr.Rmd +++ b/module3/exo3/exercice_fr.Rmd @@ -1,15 +1,12 @@ --- title: "Autour du SARS-CoV-2 (Covid-19)" author: "Pauline" -date: "21/07/2021" -output: - pdf_document: default - html_document: default +output: pdf_document --- - ```{r setup, include=FALSE} knitr::opts_chunk$set(echo = TRUE) + ``` ## Préparation des données @@ -19,18 +16,21 @@ Les données que nous utiliserons dans un premier temps sont compilées par le J data_url = read.csv("https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv", sep=",",check.names = FALSE) ``` -### Téléchargement et sélection des données +## Téléchargement et sélection des données -Le jeu de données est le suivant : +Le jeu de données prend la forme suivante : ```{r} data<-data_url -head(data) -tail(data) +head(data[,1:6]) +tail(data[,1:6]) ``` -Y a-t-il des points manquants dans nos données ? -```{r} +```{r message=FALSE, include=FALSE} +message("Y a-t-il des points manquants dans nos données ?") +``` + +```{r include=FALSE} na_records = apply(data, 1, function (x) any(is.na(x))) data[na_records,] ``` @@ -55,16 +55,14 @@ data.CR<-rbind(data10, data6) data.CR$Country.Region[data.CR$Province.State == "Hong Kong" & data.CR$Country.Region == "China"] <- "Chine, Hong Kong" data.CR$Country.Region[data.CR$Province.State != "Hong Kong" & data.CR$Country.Region == "China"] <- "Chine (sans Hong Kong)" - ``` -### Transformation +## Transformation À la suite de la précédente manipulation, nous supprimons la variable Province.State qui ne nous est plus utile pour la suite de l'analyse : ```{r} data.CR<-data.CR[,-c(1)] - ``` Les variables sur les latitudes et les longitudes ne nous intéressent pas pour la suite du traitement des données. @@ -79,22 +77,21 @@ Pour faciliter le traitement suivant, nous agrégeons les provinces de la Chine data.CR<-aggregate(. ~ Country.Region, data.CR, sum, na.rm = T) ``` -### Inspection +## Inspection Nous regardons notre nouveau jeu de données : ```{r} -head(data.CR) -View(data.CR) +head(data.CR[,1:6]) ``` Nous vérifions la nature de nos variables : ```{r} -str(data.CR) +str(data.CR[,1:6]) ``` -### Transformation +## Transformation Pour réaliser un graphique, nous allons devoirs mettre les colonnes en lignes successives de la manière suivante : @@ -110,11 +107,12 @@ data.CR2$name<-as.POSIXct(data.CR2$name, format = "%m/%d/%Y") View(data.CR2) ``` -### Graphique +## Graphique Il est maintenant possible d'établir un graphique démontrant le nombre de personnes contaminés dans chaque pays étudié depuis le début de la pandémie. -```{r} +```{r echo=TRUE} library(ggplot2) -ggplot(data.CR2, aes(name, value, color= Country.Region)) + geom_line() -``` \ No newline at end of file +ggplot(data.CR2, aes(name, value, color= Country.Region)) + geom_line() + labs(x="Date (YYYY-MM)", y="Nombre de personnes contaminées", color="Pays") +``` + -- 2.18.1