Commit af079634 authored by d0e6f90fc91537e71d96befd9f7f0f02's avatar d0e6f90fc91537e71d96befd9f7f0f02
parents 4e892435 4f0c16e1
......@@ -145,6 +145,9 @@ Voir aussi :TinyTex “Yihui Xie, auteur du remarquable package R "bookdown",
a mis au point une version allégée de LaTeX, TinyTex
("[A lightweight, cross-platform, portable, and easy-to-maintain LaTeX distribution based on TeX Live](https://yihui.name/tinytex/)").”
\[Voir surtout [blog.insileco.io](https://blog.insileco.io/2023/04/02/academic-writing-with-markdown-visual-studio-code-and-zotero/#visual-studio-code)
qui devrait m'aiguiller sur un usage local de latex, vu que j'arrivais pas à installer mactex.\]
#### **Text Encoding Initiative (osef)**
Question de la pérennité de l'information scientifique. (de péremption, aussi, non ?)
......
......@@ -249,5 +249,14 @@ Ces concurrents utilisent des formats plus lisibles.
<tr><td>South Africa <td> 0.631
</table>)
### quelques exercices
J'ai rien à analyser, là... j'ai juste fait quelques stats sémantiques sur mes
documents textes, mais osef.
Pour l'histoire de Challenger, leur calcul m'a semblé bizarre à la fin, mais
le truc, c'est que je néglige trop les intervalles de confiance :
je ne saurais même pas l'afficher avec une régression logistique python...
Bref.
# Module 3 : TP analyse réplicable
## C coi 1 analiz réplicab
Anciennement, on se concentrait sur le résultat, avec un résumé méthodologique,
avant de passer à la discussion.
En réplicable, on remplaace ce vil résumé par l'intégralité du code, accompagné
d'une explication détaillée des choix faits à chaque étape.
C'est plus dur à faire...
Mais c'est plus facile à refaire si les données changent, plus facile à modifier,
plus facile à inspecter et vérifier.
Note : on pourrait se dire que la valeur ajoutée est dans l'explication des
choix techniques... mais c'est bien l'accessibilité qui est d'abord en jeu.
Pense à l'effort que ça t'a pris de vérifier qu'on pourrait faire tourner ton
expé depuis un autre ordinateur... sans même avoir de test "fiable" pour
s'assurer que le comportement applicatif reste le même d'une machine à l'autre.
## Étude de cas : la grippe
réseau Sentinelles (méd généralistes)
tableaux de données disponibles !
Une donnée manquante sur une semaine, dont il ne s'émeut point.
=> ne pas supprimer la ligne à la main !!
Du code pour tout !
(Note de réplicabilité : ils tiennent à jour !
le format pour récupérer les données a changé, et ils ont dû aussi
modifier leur code.)
Utilisent un format ISO des numéros de semaines, c'est dans l'esprit :geek:
## import des données, Jupyter
lib : pandas, matplotlib et isoweek
[Pour l'instant, je suis assez déçu par ma version de jupyter lab,
qui est moins belle.]
Il préfère que je mette le lien directement dans le code, sans faire référence
à mon import dans mon dossier... certes.
Le jour où je suis lu.
## vérification et inspection des données
On parle de "pré-traitement" des données, ici en particulier de conversion
(dans des formats plus catholiques), en vue de pouvoir afficher.
"La" vérification ici, c'est la validation des écarts de semaine
(+l'inspection visuelle).
## passer les données à la question
Si on veut analyser par année, on a un pb con :
les années ne contiennent pas un nombre entier de semaine ^^
1. pour chaque année, trouver la semaine qui contient le 1er août
2. sommer les incidences à partir de cette semaine, afin de construire notre repr° annuelle
(vu qu'il y a moins d'incidence en été, ça minimise le biais)
Au fait, la première question qu'on se pose, c'est : quelles sont les plus
grandes années d'épidémie ?
Bref.
Voir leur version finale pour se galvaniser.
(Version qui me rassure sur le "bug" de l'an 1984.
Ils le résolvent aussi.)
Morale : il faut présenter toutes les étapes de traitement sous forme éxécutable,
expliquer ses choix (donc exposer du détail technique) car c'est à ce niveau
qu'on fait le plus d'erreurs.
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment