diff --git a/module3/exo2/annual-inc-hist.png b/module3/exo2/annual-inc-hist.png new file mode 100644 index 0000000000000000000000000000000000000000..5e48aaffe73fec88f593849aae2b0f7c8318378f Binary files /dev/null and b/module3/exo2/annual-inc-hist.png differ diff --git a/module3/exo2/annual-inc-plot.png b/module3/exo2/annual-inc-plot.png new file mode 100644 index 0000000000000000000000000000000000000000..3a4f94f9c8905d21bb95fba7894514e109683da1 Binary files /dev/null and b/module3/exo2/annual-inc-plot.png differ diff --git a/module3/exo2/exercice_python_fr.org b/module3/exo2/exercice_python_fr.org index c7157ba42216cf2e1d291112bb351ce48811115c..ca582f36d2aa01d3c25ad93bf004a6fb4679646e 100644 --- a/module3/exo2/exercice_python_fr.org +++ b/module3/exo2/exercice_python_fr.org @@ -1,9 +1,8 @@ -#+TITLE: Votre titre -#+AUTHOR: Votre nom -#+DATE: La date du jour +#+TITLE: Incidence du syndrôme grippal #+LANGUAGE: fr -# #+PROPERTY: header-args :eval never-export +#+OPTIONS: *:nil num:1 toc:t +# #+HTML_HEAD: #+HTML_HEAD: #+HTML_HEAD: #+HTML_HEAD: @@ -11,83 +10,314 @@ #+HTML_HEAD: #+HTML_HEAD: -* Quelques explications - -Ceci est un document org-mode avec quelques exemples de code -python. Une fois ouvert dans emacs, ce document peut aisément être -exporté au format HTML, PDF, et Office. Pour plus de détails sur -org-mode vous pouvez consulter https://orgmode.org/guide/. - -Lorsque vous utiliserez le raccourci =C-c C-e h o=, ce document sera -compilé en html. Tout le code contenu sera ré-exécuté, les résultats -récupérés et inclus dans un document final. Si vous ne souhaitez pas -ré-exécuter tout le code à chaque fois, il vous suffit de supprimer -le # et l'espace qui sont devant le ~#+PROPERTY:~ au début de ce -document. - -Comme nous vous l'avons montré dans la vidéo, on inclue du code -python de la façon suivante (et on l'exécute en faisant ~C-c C-c~): - -#+begin_src python :results output :exports both -print("Hello world!") -#+end_src - -#+RESULTS: -: Hello world! - -Voici la même chose, mais avec une session python, donc une -persistance d'un bloc à l'autre (et on l'exécute toujours en faisant -~C-c C-c~). -#+begin_src python :results output :session :exports both -import numpy -x=numpy.linspace(-15,15) -print(x) -#+end_src - -#+RESULTS: -#+begin_example -[-15. -14.3877551 -13.7755102 -13.16326531 -12.55102041 - -11.93877551 -11.32653061 -10.71428571 -10.10204082 -9.48979592 - -8.87755102 -8.26530612 -7.65306122 -7.04081633 -6.42857143 - -5.81632653 -5.20408163 -4.59183673 -3.97959184 -3.36734694 - -2.75510204 -2.14285714 -1.53061224 -0.91836735 -0.30612245 - 0.30612245 0.91836735 1.53061224 2.14285714 2.75510204 - 3.36734694 3.97959184 4.59183673 5.20408163 5.81632653 - 6.42857143 7.04081633 7.65306122 8.26530612 8.87755102 - 9.48979592 10.10204082 10.71428571 11.32653061 11.93877551 - 12.55102041 13.16326531 13.7755102 14.3877551 15. ] -#+end_example - -Et enfin, voici un exemple de sortie graphique: -#+begin_src python :results output file :session :var matplot_lib_filename="./cosxsx.png" :exports results -import matplotlib.pyplot as plt - -plt.figure(figsize=(10,5)) -plt.plot(x,numpy.cos(x)/x) -plt.tight_layout() - -plt.savefig(matplot_lib_filename) -print(matplot_lib_filename) -#+end_src - -#+RESULTS: -[[file:./cosxsx.png]] - -Vous remarquerez le paramètre ~:exports results~ qui indique que le code -ne doit pas apparaître dans la version finale du document. Nous vous -recommandons dans le cadre de ce MOOC de ne pas changer ce paramètre -(indiquer ~both~) car l'objectif est que vos analyses de données soient -parfaitement transparentes pour être reproductibles. - -Attention, la figure ainsi générée n'est pas stockée dans le document -org. C'est un fichier ordinaire, ici nommé ~cosxsx.png~. N'oubliez pas -de le committer si vous voulez que votre analyse soit lisible et -compréhensible sur GitLab. - -Enfin, n'oubliez pas que nous vous fournissons dans les ressources de -ce MOOC une configuration avec un certain nombre de raccourcis -claviers permettant de créer rapidement les blocs de code python (en -faisant ~ R +Nous passons au langage R pour inspecter nos données, parce que l'analyse et la préparation de graphiques sont plus concises en R, sans nécessiter aucune bibliothèque supplémentaire. + +Nous utilisons le mécanisme d'échange de données proposé par org-mode, ce qui nécessite un peu de code Python pour transformer les données dans le bon format. +#+NAME: data-for-R +#+BEGIN_SRC python :results silent +[('date', 'inc'), None] + [(str(date), inc) for date, inc in converted_data] +#+END_SRC + +En R, les données arrivent sous forme d'un data frame, mais il faut encore convertir les dates, qui arrivent comme chaînes de caractères. +#+BEGIN_SRC R :results output :var data=data-for-R +data$date <- as.Date(data$date) +summary(data) +#+END_SRC + +#+RESULTS: +: +: date inc +: Min. :1990-12-03 Min. : 161 +: 1st Qu.:1998-06-23 1st Qu.: 7231 +: Median :2006-01-12 Median :12536 +: Mean :2006-01-12 Mean :12569 +: 3rd Qu.:2013-08-03 3rd Qu.:17138 +: Max. :2021-02-22 Max. :36298 + +** Inspection +Regardons enfin à quoi ressemblent nos données ! +#+BEGIN_SRC R :results output graphic :file inc-plot.png +plot(data, type="l", xlab="Date", ylab="Incidence hebdomadaire") +#+END_SRC + +#+RESULTS: + +Un zoom sur les dernières années montre mieux la situation des pics en hiver. Le creux des incidences se trouve en été. +#+BEGIN_SRC R :results output graphic :file inc-plot-zoom.png +plot(tail(data, 200), type="l", xlab="Date", ylab="Incidence hebdomadaire") +#+END_SRC + +#+RESULTS: + +* Étude de l'incidence annuelle + +** Calcul de l'incidence annuelle +Étant donné que le pic de l'épidémie se situe en hiver, à cheval entre deux années civiles, nous définissons la période de référence entre deux minima de l'incidence, du 1er août de l'année /N/ au 1er août de l'année /N+1/. Nous mettons l'année /N+1/ comme étiquette sur cette année décalée, car le pic de l'épidémie est toujours au début de l'année /N+1/. Comme l'incidence du syndrome grippal est très faible en été, cette modification ne risque pas de fausser nos conclusions. + +Voici une fonction qui calcule l'incidence annuelle en appliquant ces conventions. +#+BEGIN_SRC R :results silent +pic_annuel = function(annee) { + debut = paste0(annee-1,"-09-01") + fin = paste0(annee,"-09-01") + semaines = data$date > debut & data$date <= fin + sum(data$inc[semaines], na.rm=TRUE) + } +#+END_SRC + +Nous devons aussi faire attention aux premières et dernières années de notre jeux de données. Les données commencent en octobre 1984, ce qui ne permet pas de quantifier complètement le pic attribué à l'année 1985. Nous le supprimons donc de notre analyse. Pour la même raison, nous arrêtons en 2018. Nous devons attendre les données pour juillet 2019 avant d'augmenter la dernière année à 2019. +#+BEGIN_SRC R :results silent +annees <- 1991:2018 +#+END_SRC + +#+BEGIN_SRC R :results value +inc_annuelle = data.frame(annee = annees, + incidence = sapply(annees, pic_annuel)) +head(inc_annuelle) +#+END_SRC + +#+RESULTS: +| 1991 | 553895 | +| 1992 | 834935 | +| 1993 | 642921 | +| 1994 | 662750 | +| 1995 | 651333 | +| 1996 | 564994 | + +** Inspection +Voici les incidences annuelles en graphique. +#+BEGIN_SRC R :results output graphic :file annual-inc-plot.png +plot(inc_annuelle, type="p", xlab="Année", ylab="Incidence annuelle") +#+END_SRC + +#+RESULTS: + +** Identification des épidémies les plus fortes +Une liste triée par ordre décroissant d'incidence annuelle permet de plus facilement repérer les valeurs les plus élevées: +#+BEGIN_SRC R :results output +head(inc_annuelle[order(-inc_annuelle$incidence),]) +#+END_SRC + +#+RESULTS: +: annee incidence +: 19 2009 841233 +: 2 1992 834935 +: 20 2010 834077 +: 26 2016 779816 +: 14 2004 778914 +: 13 2003 760765 + +Par ordre croissant : +#+BEGIN_SRC R :results output +head(inc_annuelle[order(inc_annuelle$incidence),]) +#+END_SRC + +#+RESULTS: +: annee incidence +: 12 2002 515343 +: 28 2018 539765 +: 27 2017 552906 +: 1 1991 553895 +: 6 1996 564994 +: 25 2015 605469 + +Enfin, un histogramme montre bien que les épidémies fortes, qui touchent environ 10% de la population française, sont assez rares: il y en eu trois au cours des 35 dernières années. +#+BEGIN_SRC R :results output graphics :file annual-inc-hist.png +hist(inc_annuelle$incidence, breaks=10, xlab="Incidence annuelle", ylab="Nb d'observations", main="") +#+END_SRC + +#+RESULTS: diff --git a/module3/exo2/inc-plot-zoom.png b/module3/exo2/inc-plot-zoom.png new file mode 100644 index 0000000000000000000000000000000000000000..8d07e438dda70338be4280eb3c69075ebaab45f3 Binary files /dev/null and b/module3/exo2/inc-plot-zoom.png differ diff --git a/module3/exo2/inc-plot.png b/module3/exo2/inc-plot.png new file mode 100644 index 0000000000000000000000000000000000000000..92a6359aac6db801ef8333626a50ec23827d81b8 Binary files /dev/null and b/module3/exo2/inc-plot.png differ