---
title: "Autour du SARS-CoV-2 (Covid-19)"
author: "Pauline"
output: pdf_document
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)

```

## Préparation des données

Les données que nous utiliserons dans un premier temps sont compilées par le Johns Hopkins University Center for Systems Science and Engineering (JHU CSSE). L'URL est:
```{r}
data_url = read.csv("https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv", sep=",",check.names = FALSE)
```

## Téléchargement et sélection des données

Le jeu de données prend la forme suivante :

```{r}
data<-data_url
head(data[,1:6])
tail(data[,1:6])
```

```{r message=FALSE, include=FALSE}
message("Y a-t-il des points manquants dans nos données ?")
```

```{r include=FALSE}
na_records = apply(data, 1, function (x) any(is.na(x)))
data[na_records,]
```

Les pays qui nous intéressent sont la Belgique (Belgium), la Chine - toute les provinces sauf Honk-Kong (China), Hong Kong (China, Hong-Kong), la France métropolitaine (France), l’Allemagne (Germany), l’Iran (Iran), l’Italie (Italy), le Japon (Japan), la Corée du Sud (Korea, South), la Hollande sans les colonies (Netherlands), le Portugal (Portugal), l’Espagne (Spain), le Royaume-Unis sans les colonies (United Kingdom), les États-Unis (US).

```{r}
names(data)[match("Country/Region",names(data))] <- "Country.Region"
names(data)[match("Province/State",names(data))] <- "Province.State"

data1<-subset(data, c(Country.Region == "Belgium" | Country.Region == "Japan"| Country.Region == "Korea, South"| Country.Region == "Iran"| Country.Region == "Portugal"| Country.Region == "Spain"| Country.Region == "Germany"| Country.Region == "US"))
data2<-subset(data[c(59:70,72:92),])
data3<-subset(data[71,])
data4<-subset(data[131,])
data5<-subset(data[270,])
data6<-subset(data[198,])
data7<-rbind(data1, data2)
data8<-rbind(data7, data3)
data9<-rbind(data8, data4)
data10<-rbind(data9, data5)
data.CR<-rbind(data10, data6)

data.CR$Country.Region[data.CR$Province.State == "Hong Kong" & data.CR$Country.Region == "China"] <- "Chine, Hong Kong"
data.CR$Country.Region[data.CR$Province.State != "Hong Kong" & data.CR$Country.Region == "China"] <- "Chine (sans Hong Kong)"
```

## Transformation

À la suite de la précédente manipulation, nous supprimons la variable Province.State qui ne nous est plus utile pour la suite de l'analyse :

```{r}
data.CR<-data.CR[,-c(1)]
```

Les variables sur les latitudes et les longitudes ne nous intéressent pas pour la suite du traitement des données.

```{r}
data.CR<-data.CR[,-c(2,3)]
```

Pour faciliter le traitement suivant, nous agrégeons les provinces de la Chine (hors Hong Kong) ensemble :

```{r}
data.CR<-aggregate(. ~ Country.Region, data.CR, sum, na.rm = T)
```

## Inspection

Nous regardons notre nouveau jeu de données :

```{r}
head(data.CR[,1:6])
```

Nous vérifions la nature de nos variables :

```{r}
str(data.CR[,1:6])
```

## Transformation

Pour réaliser un graphique, nous allons devoirs mettre les colonnes en lignes successives de la manière suivante :

```{r}
library(tidyr)
data.CR2<-data.CR %>% pivot_longer(-Country.Region)
```

Par la suite, nous allons définir le format de date de notre variable renommée name :

```{r}
data.CR2$name<-as.POSIXct(data.CR2$name, format = "%m/%d/%Y")
View(data.CR2)
```

## Graphique

Il est maintenant possible d'établir un graphique démontrant le nombre de personnes contaminés dans chaque pays étudié depuis le début de la pandémie.

```{r echo=TRUE}
library(ggplot2)
ggplot(data.CR2, aes(name, value, color= Country.Region)) + geom_line() + labs(x="Date (YYYY-MM)", y="Nombre de personnes contaminées", color="Pays")
```