Update exercice_fr.Rmd

parent 1777b910
---
title: "Autour du SARS-CoV-2 (Covid-19)"
author: "Pauline"
date: "21/07/2021"
output:
pdf_document: default
html_document: default
output: pdf_document
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
## Préparation des données
......@@ -19,18 +16,21 @@ Les données que nous utiliserons dans un premier temps sont compilées par le J
data_url = read.csv("https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv", sep=",",check.names = FALSE)
```
### Téléchargement et sélection des données
## Téléchargement et sélection des données
Le jeu de données est le suivant :
Le jeu de données prend la forme suivante :
```{r}
data<-data_url
head(data)
tail(data)
head(data[,1:6])
tail(data[,1:6])
```
Y a-t-il des points manquants dans nos données ?
```{r}
```{r message=FALSE, include=FALSE}
message("Y a-t-il des points manquants dans nos données ?")
```
```{r include=FALSE}
na_records = apply(data, 1, function (x) any(is.na(x)))
data[na_records,]
```
......@@ -55,16 +55,14 @@ data.CR<-rbind(data10, data6)
data.CR$Country.Region[data.CR$Province.State == "Hong Kong" & data.CR$Country.Region == "China"] <- "Chine, Hong Kong"
data.CR$Country.Region[data.CR$Province.State != "Hong Kong" & data.CR$Country.Region == "China"] <- "Chine (sans Hong Kong)"
```
### Transformation
## Transformation
À la suite de la précédente manipulation, nous supprimons la variable Province.State qui ne nous est plus utile pour la suite de l'analyse :
```{r}
data.CR<-data.CR[,-c(1)]
```
Les variables sur les latitudes et les longitudes ne nous intéressent pas pour la suite du traitement des données.
......@@ -79,22 +77,21 @@ Pour faciliter le traitement suivant, nous agrégeons les provinces de la Chine
data.CR<-aggregate(. ~ Country.Region, data.CR, sum, na.rm = T)
```
### Inspection
## Inspection
Nous regardons notre nouveau jeu de données :
```{r}
head(data.CR)
View(data.CR)
head(data.CR[,1:6])
```
Nous vérifions la nature de nos variables :
```{r}
str(data.CR)
str(data.CR[,1:6])
```
### Transformation
## Transformation
Pour réaliser un graphique, nous allons devoirs mettre les colonnes en lignes successives de la manière suivante :
......@@ -110,11 +107,12 @@ data.CR2$name<-as.POSIXct(data.CR2$name, format = "%m/%d/%Y")
View(data.CR2)
```
### Graphique
## Graphique
Il est maintenant possible d'établir un graphique démontrant le nombre de personnes contaminés dans chaque pays étudié depuis le début de la pandémie.
```{r}
```{r echo=TRUE}
library(ggplot2)
ggplot(data.CR2, aes(name, value, color= Country.Region)) + geom_line()
ggplot(data.CR2, aes(name, value, color= Country.Region)) + geom_line() + labs(x="Date (YYYY-MM)", y="Nombre de personnes contaminées", color="Pays")
```
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment