- anomalie dans le jeu de données ? ex: absence de données pour la semaine 19 de l'année 1989 (198919)
- dans notre cas, peu d'importance car ce n'est qu'une semaine sur une suite de longues années --> point à supprimer
- ATTENTION pour la suppression de ce point : ne pas le supprimer directement sur les raw data du jeu de données car PAS REPLICABLE
### A RETENIR
- Aucune modification des données ne doit être faîtes "à la main" car sinon aucune trace visible de l'intervention
- Tout doit se faire dans du code
### NB
Le site Web du Réseau Sentinelles que nous utilisons dans ce module a subi des modifications importantes après le tournage des vidéos.
L'accès aux données ne se passe plus comme montré. Il faut passer par les menus "Surveillance continue" - "Base de données" - "Accès aux données" et cliquer sur l'onglet "Télécharger",
puis choisir les données au format *CSV* pour la France Métropolitaine.
Le format des données téléchargées a aussi légèrement changé, il faut adapter le traitement des données manquantes. Le code que nous montrons dans les vidéos ne fonctionne plus avec
les données d'aujourd'hui. Une version mise à jour est disponible [ici](https://www.fun-mooc.fr/courses/course-v1:inria+41016+self-paced/courseware/5b932aa591d245d48d8943385cb3120a/bd37d027f9e54180b7657296967d3ef9/1?activate_block_id=block-v1%3Ainria%2B41016%2Bself-paced%2Btype%40vertical%2Bblock%4002a68b059f844a61ac3998729b78678d).
## 3. Crééer un document computationnel et importer les données (parcours 3B.)
### 3.1. Choix initiaux
- Environnement RStudio
- Langage R
- Bibliothèque *parsedate* pour la gestion des dates en format *iso*
### 3.2. Créer un document computationnel
- Créer un nouveau document du type *RMarkdown* nommé "Analyse de l'incidence du syndrome grippal"
### 3.3. Importer des données
- Télécharger les données (il faut connaître l'url du téléchargement) via le code `data_url = ""` accessible dans les téléchargements
- ici url est : https://www.sentiweb.fr/datasets/incidence-PAY-3.csv
- lire les données `data = read.csv (data_url, skip=1)`
- afficher le début des données `head(data)` : ordre chronologique inverse (1ère ligne = dernier point du jeu de données)
- afficher la fin du jeu de données `tail(data)`
### 3.4. Données manquantes et comment les gérer
- Dans quelles lignes il y a des données manquantes (analyse R ligne par ligne, on regarde pour une ligne i dans chaque colonne s'il y a une na) ?
-`lignes_na = apply(data, 1, function(x)any(is.na(x)))` puis *afficher le contenu des lignes*`data[lignes_na,]`
- un dernier test à effectuer pour s'assurer que tous s'est bien passé : *inspecter les types de données*`class(data$week)` et `class(data$inc)`, incidence (inc) est de type factor car du aux données manquantes
- pour corriger le type factor, `data = read.csv(data_url, skip=1, na.strings = '-')` considérer le "-" comme une donnée manquante; puis `class(data$inc)` --> integer
## 4. Vérification et inspection (parcours 3B.)
--> préparer les données pour l'analyse
Bibliothèque supplémentaire utilisée pour lire la date format iso = *parsedate*`library(parsedate)`
### Comment réaliser la conversation de la date sous format iso?
1. convertir l'entier (yyyyww) sous forme d'une chaîne de caractère