#+TITLE: Incidence du syndrôme grippal #+AUTHOR: Miguel Arpa Perozo #+DATE: 11/11/2020 #+LANGUAGE: fr # #+PROPERTY: header-args :eval never-export #+HTML_HEAD: #+HTML_HEAD: #+HTML_HEAD: #+HTML_HEAD: #+HTML_HEAD: #+HTML_HEAD: * Quelques explications Ceci est un document org-mode avec quelques exemples de code python. Une fois ouvert dans emacs, ce document peut aisément être exporté au format HTML, PDF, et Office. Pour plus de détails sur org-mode vous pouvez consulter https://orgmode.org/guide/. Lorsque vous utiliserez le raccourci =C-c C-e h o=, ce document sera compilé en html. Tout le code contenu sera ré-exécuté, les résultats récupérés et inclus dans un document final. Si vous ne souhaitez pas ré-exécuter tout le code à chaque fois, il vous suffit de supprimer le # et l'espace qui sont devant le ~#+PROPERTY:~ au début de ce document. Comme nous vous l'avons montré dans la vidéo, on inclue du code python de la façon suivante (et on l'exécute en faisant ~C-c C-c~): #+begin_src python :results output :exports both print("Hello world!") #+end_src #+RESULTS: : Hello world! Voici la même chose, mais avec une session python, donc une persistance d'un bloc à l'autre (et on l'exécute toujours en faisant ~C-c C-c~). #+begin_src python :results output :session :exports both import numpy x=numpy.linspace(-15,15) print(x) #+end_src #+RESULTS: #+begin_example [-15. -14.3877551 -13.7755102 -13.16326531 -12.55102041 -11.93877551 -11.32653061 -10.71428571 -10.10204082 -9.48979592 -8.87755102 -8.26530612 -7.65306122 -7.04081633 -6.42857143 -5.81632653 -5.20408163 -4.59183673 -3.97959184 -3.36734694 -2.75510204 -2.14285714 -1.53061224 -0.91836735 -0.30612245 0.30612245 0.91836735 1.53061224 2.14285714 2.75510204 3.36734694 3.97959184 4.59183673 5.20408163 5.81632653 6.42857143 7.04081633 7.65306122 8.26530612 8.87755102 9.48979592 10.10204082 10.71428571 11.32653061 11.93877551 12.55102041 13.16326531 13.7755102 14.3877551 15. ] #+end_example Et enfin, voici un exemple de sortie graphique: #+begin_src python :results output file :session :var matplot_lib_filename="./cosxsx.png" :exports results import matplotlib.pyplot as plt plt.figure(figsize=(10,5)) plt.plot(x,numpy.cos(x)/x) plt.tight_layout() plt.savefig(matplot_lib_filename) print(matplot_lib_filename) #+end_src #+RESULTS: [[file:./cosxsx.png]] Vous remarquerez le paramètre ~:exports results~ qui indique que le code ne doit pas apparaître dans la version finale du document. Nous vous recommandons dans le cadre de ce MOOC de ne pas changer ce paramètre (indiquer ~both~) car l'objectif est que vos analyses de données soient parfaitement transparentes pour être reproductibles. Attention, la figure ainsi générée n'est pas stockée dans le document org. C'est un fichier ordinaire, ici nommé ~cosxsx.png~. N'oubliez pas de le committer si vous voulez que votre analyse soit lisible et compréhensible sur GitLab. Enfin, n'oubliez pas que nous vous fournissons dans les ressources de ce MOOC une configuration avec un certain nombre de raccourcis claviers permettant de créer rapidement les blocs de code python (en faisant ~
R Nous passons au langage R pour inspecter nos données, parce que l'analyse et la préparation de graphiques sont plus concises en R, sans nécessiter aucune bibliothèque supplémentaire. Nous utilisons le mécanisme d'échange de données proposé par org-mode, ce qui nécessite un peu de code Python pour transformer les données dans le bon format. #+NAME: data-for-R #+BEGIN_SRC python :results silent :session [('date', 'inc'), None] + [(str(date), inc) for date, inc in converted_data] #+END_SRC En R, les données arrivent sous forme d'un data frame, mais il faut encore convertir les dates, qui arrivent comme chaînes de caractères. #+BEGIN_SRC R :results output :var data=data-for-R :session data$date <- as.Date(data$date) summary(data) #+END_SRC #+RESULTS: : date inc : Min. :1990-12-03 Min. : 161 : 1st Qu.:1998-05-25 1st Qu.: 7238 : Median :2005-11-14 Median :12584 : Mean :2005-11-14 Mean :12605 : 3rd Qu.:2013-05-06 3rd Qu.:17151 : Max. :2020-10-26 Max. :36298 ** Inspection Regardons enfin à quoi ressemblent nos données ! #+BEGIN_SRC R :results output graphics :file inc-plot.png :session plot(data, type="l", xlab="Date", ylab="Incidence hebdomadaire") #+END_SRC #+RESULTS: Un zoom sur les dernières années montre mieux la situation des pics en hiver. Le creux des incidences se trouve en été. #+BEGIN_SRC R :results output graphics :file inc-plot-zoom.png plot(tail(data, 200), type="l", xlab="Date", ylab="Incidence hebdomadaire") #+END_SRC #+RESULTS: * Étude de l'incidence annuelle ** Calcul de l'incidence annuelle Étant donné que le pic de l'épidémie se situe en hiver, à cheval entre deux années civiles, nous définissons la période de référence entre deux minima de l'incidence, du 1er septembre de l'année /N/ au 1er août de l'année /N+1/. Nous mettons l'année /N+1/ comme étiquette sur cette année décalée, car le pic de l'épidémie est toujours au début de l'année /N+1/. Comme l'incidence du syndrome grippal est très faible en été, cette modification ne risque pas de fausser nos conclusions. Voici une fonction qui calcule l'incidence annuelle en appliquant ces conventions. #+BEGIN_SRC R :results silent :session pic_annuel = function(annee) { debut = paste0(annee-1,"-09-01") fin = paste0(annee,"-09-01") semaines = data$date > debut & data$date <= fin sum(data$inc[semaines], na.rm=TRUE) } #+END_SRC Nous devons aussi faire attention aux premières et dernières années de notre jeux de données. Les données commencent en octobre 1991, ce qui ne permet pas de quantifier complètement le pic attribué à l'année 1992. Nous le supprimons donc de notre analyse. Pour la même raison, nous arrêtons en 2018. Nous devons attendre les données pour juillet 2019 avant d'augmenter la dernière année à 2019. #+BEGIN_SRC R :results silent :session annees <- 1993:2018 #+END_SRC #+BEGIN_SRC R :results value :session inc_annuelle = data.frame(annee = annees, incidence = sapply(annees, pic_annuel)) head(inc_annuelle) #+END_SRC #+RESULTS: | 1993 | 642921 | | 1994 | 662750 | | 1995 | 651333 | | 1996 | 564994 | | 1997 | 683577 | | 1998 | 681363 | ** Inspection Voici les incidences annuelles en graphique. #+BEGIN_SRC R :results output graphics :file annual-inc-plot.png plot(inc_annuelle, type="p", xlab="Année", ylab="Incidence annuelle") #+END_SRC #+RESULTS: ** Identification des épidémies les plus fortes Une liste triée par ordre décroissant d'incidence annuelle permet de plus facilement repérer les valeurs les plus élevées: #+BEGIN_SRC R :results output :session head(inc_annuelle[order(-inc_annuelle$incidence),]) #+END_SRC #+RESULTS: : annee incidence : 17 2009 841233 : 18 2010 834077 : 24 2016 779816 : 12 2004 778914 : 11 2003 760765 : 7 1999 751203 Une liste triée par ordre croissant d'incidence annuelle permet de plus facilement repérer les valeurs les plus élevées: #+BEGIN_SRC R :results output :session head(inc_annuelle[order(inc_annuelle$incidence),]) #+END_SRC #+RESULTS: : annee incidence : 10 2002 515343 : 26 2018 539765 : 25 2017 552906 : 4 1996 564994 : 23 2015 605469 : 9 2001 614975