diff --git a/journal/notes_module_1.md b/journal/notes_module_1.md index a2e0dee54aceedd60e1c741b57ee22b7c5648c65..23a4980bb694d2fe60500e7e7e83c7e35c1f0167 100644 --- a/journal/notes_module_1.md +++ b/journal/notes_module_1.md @@ -145,6 +145,9 @@ Voir aussi :TinyTex “Yihui Xie, auteur du remarquable package R "bookdown", a mis au point une version allégée de LaTeX, TinyTex ("[A lightweight, cross-platform, portable, and easy-to-maintain LaTeX distribution based on TeX Live](https://yihui.name/tinytex/)").” +\[Voir surtout [blog.insileco.io](https://blog.insileco.io/2023/04/02/academic-writing-with-markdown-visual-studio-code-and-zotero/#visual-studio-code) +qui devrait m'aiguiller sur un usage local de latex, vu que j'arrivais pas à installer mactex.\] + #### **Text Encoding Initiative (osef)** Question de la pérennité de l'information scientifique. (de péremption, aussi, non ?) diff --git a/journal/notes_module_2.md b/journal/notes_module_2.md index 62d65898744d0f2a34cf2c8b2e8df24dfe5b4076..2f21fbff27715c311f845eb3b90c0c546db62401 100644 --- a/journal/notes_module_2.md +++ b/journal/notes_module_2.md @@ -249,5 +249,14 @@ Ces concurrents utilisent des formats plus lisibles. South Africa 0.631 ) +### quelques exercices + +J'ai rien à analyser, là... j'ai juste fait quelques stats sémantiques sur mes +documents textes, mais osef. + +Pour l'histoire de Challenger, leur calcul m'a semblé bizarre à la fin, mais +le truc, c'est que je néglige trop les intervalles de confiance : +je ne saurais même pas l'afficher avec une régression logistique python... +Bref. diff --git a/journal/notes_module_3.md b/journal/notes_module_3.md new file mode 100644 index 0000000000000000000000000000000000000000..2f134c88ae1f5c4619e36ea8fbbced728263faa7 --- /dev/null +++ b/journal/notes_module_3.md @@ -0,0 +1,74 @@ +# Module 3 : TP analyse réplicable + +## C coi 1 analiz réplicab +Anciennement, on se concentrait sur le résultat, avec un résumé méthodologique, +avant de passer à la discussion. + +En réplicable, on remplaace ce vil résumé par l'intégralité du code, accompagné +d'une explication détaillée des choix faits à chaque étape. + +C'est plus dur à faire... +Mais c'est plus facile à refaire si les données changent, plus facile à modifier, +plus facile à inspecter et vérifier. + +Note : on pourrait se dire que la valeur ajoutée est dans l'explication des +choix techniques... mais c'est bien l'accessibilité qui est d'abord en jeu. +Pense à l'effort que ça t'a pris de vérifier qu'on pourrait faire tourner ton +expé depuis un autre ordinateur... sans même avoir de test "fiable" pour +s'assurer que le comportement applicatif reste le même d'une machine à l'autre. + +## Étude de cas : la grippe + +réseau Sentinelles (méd généralistes) +tableaux de données disponibles ! +Une donnée manquante sur une semaine, dont il ne s'émeut point. +=> ne pas supprimer la ligne à la main !! +Du code pour tout ! + +(Note de réplicabilité : ils tiennent à jour ! +le format pour récupérer les données a changé, et ils ont dû aussi +modifier leur code.) + +Utilisent un format ISO des numéros de semaines, c'est dans l'esprit :geek: + +## import des données, Jupyter + +lib : pandas, matplotlib et isoweek + +[Pour l'instant, je suis assez déçu par ma version de jupyter lab, +qui est moins belle.] + +Il préfère que je mette le lien directement dans le code, sans faire référence +à mon import dans mon dossier... certes. +Le jour où je suis lu. + +## vérification et inspection des données + +On parle de "pré-traitement" des données, ici en particulier de conversion +(dans des formats plus catholiques), en vue de pouvoir afficher. +"La" vérification ici, c'est la validation des écarts de semaine +(+l'inspection visuelle). + +## passer les données à la question + +Si on veut analyser par année, on a un pb con : +les années ne contiennent pas un nombre entier de semaine ^^ + +1. pour chaque année, trouver la semaine qui contient le 1er août +2. sommer les incidences à partir de cette semaine, afin de construire notre repr° annuelle + +(vu qu'il y a moins d'incidence en été, ça minimise le biais) + +Au fait, la première question qu'on se pose, c'est : quelles sont les plus +grandes années d'épidémie ? + +Bref. +Voir leur version finale pour se galvaniser. +(Version qui me rassure sur le "bug" de l'an 1984. +Ils le résolvent aussi.) + +Morale : il faut présenter toutes les étapes de traitement sous forme éxécutable, +expliquer ses choix (donc exposer du détail technique) car c'est à ce niveau +qu'on fait le plus d'erreurs. + +