diff --git a/journal/Readme.md b/journal/Readme.md index 03c89a64c00cd42ff9126b75c8fb895a8a957841..d64643bf62330473e91a90f466e8d3be40958429 100644 --- a/journal/Readme.md +++ b/journal/Readme.md @@ -55,3 +55,24 @@ adapté dans le cas ou on souhaite analyser des données (notamment pour le fait C'est aussi parce que Rstudio me semble plus adapté pour l'utilisation que j'en aurais surement pour mon stage (benchmark d'un algo et ensuite mettre ces résultats dans une version journal d'un papier). +## Notes pour le module 3 + +### Séquence 3 +Points clés : +- Lecture des données directement de la source +- Attention aux données manquantes (argument "na.strings" de read.csv pour déclarer des caractères comme indicateurs de données manquantes) + +### Séquence 4 +Points clés : +- Pré-traitement des données (Changement du format de la date) + - Adapter aux conventions des logiciels + - Faciliter l'analyse +- Vérifier autant que possible (Par exemple, que les dates soient bien éloignés de 7 jours comme elles sont censé être des lundis) + - Inspection visuelle + - Code de validation + +### Séquence 5 +Points clés: +- Analyse réplicable doit contenir toutes les étapes du traitement sous forme exécutable +- Expliquer tous les choix influencant les résultants (par exemple, le fait de considérer une année comme commencant au 1er Août pour le nombre de cas annuel) +- Exposer beaucoup de détails techniques pour voir les erreurs