#+TITLE: Incidence du syndrôme de la varicelle
#+AUTHOR: Konubinix
#+DATE: [2020-08-07 Fri]
#+LANGUAGE: fr
# #+PROPERTY: header-args :eval never-export
#+HTML_HEAD:
#+HTML_HEAD:
#+HTML_HEAD:
#+HTML_HEAD:
#+HTML_HEAD:
#+HTML_HEAD:
#+PROPERTY: header-args :session module3_exo2
* Préface
Dans l'exemple précédent, j'ai essayé d'utiliser R (récupéré via nix), mais les
graphiques obtenus étaient inexploitables. Je prendrai un jour le temps de lire
la documentation de R en détail. D'ici là, je vais rester dans ma zone de
confort cognitif et utiliser python avec des bibliothèques tierces.
Un des avantages indiqué de R était le fait que l'analyse de données était
native. Je comprends ici qu'il est considéré pénible ou difficile d'installer
une bibliothèque tierce comme pandas. Essayons de palier ce problème en
utilisant nix.
Il faut donc instrumenter org-babel pour utiliser python dans l'environnement
nix au lieu de celui du système. J'ai fait cela en changeant la valeur de
`org-babel-python-command` dans ce fichier, c'est la raison pour laquelle vous
avez du explicitement accepter ce changement en ouvrant le fichier.
À noter que le premier lancement peut être long, puisque nix va télécharger
toutes les dépendances.
* Préparation des données
Afin de favoriser une recherche reproductible, je laisse ici le soin à nix de
télécharger les données, de vérifier leur intégrité via une empreinte numérique
et de conserver une cache. Vous pouvez consulter le fichier shell.nix pour
constater que les données seront accessibles au chemin contenu dans la variable
d'environnement DATA.
#+BEGIN_SRC python :results verbatim :exports both
import pandas
import os
data = pandas.read_csv(
os.environ["DATA"],
# Nous allons analyser ici uniquement les colonnes inc et week, nous allons donc
# simplement charger ces données.
usecols=["week", "inc"],
# nous devons éviter la première ligne qui n'est pas à proprement parler
# dans le format csv.
skiprows=1,
# d'après la documentation, week et inc sont au format int
dtype=int,
# la semaine semble être un bon candidat pour être un index
index_col="week",
parse_dates=["week"],
infer_datetime_format=True,
)
data.head()
#+END_SRC
Transformons les semaines en dates, considérant le lundi de la semaine en question.
#+BEGIN_SRC python :results verbatim :exports both
data = data.set_index(pandas.to_datetime(data.index.astype(str) + ":1", format="%G%V:%u"))
data.head()
#+END_SRC
Enfin, assurons nous d'avoir la bonne période dans l'index.
#+BEGIN_SRC python :results verbatim :exports both
data = data.set_index(data.index.to_period("W"))
data.head()
#+END_SRC
Vérifions que nous n'avons aucune donnée manquante
#+BEGIN_SRC python :results verbatim :exports both
data.isna().any()
#+END_SRC
#+RESULTS:
: inc False
: dtype: bool
Tout va bien.
* Analyse exploratoire de données
Regardons la répartition des incidences au cours du temps.
#+BEGIN_SRC python :results file :exports both :var output="overall.png"
import matplotlib.pyplot as plt
data.plot()
plt.savefig(output)
output
#+END_SRC
#+RESULTS:
[[file:overall.png]]
On se rend compte que le phénomène est très régulier. Supposons que sa période
est annuelle et essayons d'observer sur quelques années.
#+BEGIN_SRC python :results file :exports both :var output="peryear.png"
fix, axes = plt.subplots(3, 2)
for ax, year in zip(axes.flatten(), range(2020 - 6, 2020)):
data[data.index.year == year].plot(ax=ax)
ax.set_title(year)
plt.savefig(output)
output
#+END_SRC
#+RESULTS:
[[file:peryear.png]]
Mis à part le fait que le rendu laisse à désirer, nous observons effectivement
une période manifeste d'un an, dont le creux d'incidence semble être début
septembre. Pour cette raison (et aussi parce que c'est indiqué dans l'énonce de
l'exercice), nous allons considérer des années décalées, commençant en
septembre.
Il suffit de regrouper les données suivant le critère suivant :
- si le mois est inférieur à 9, alors considérer qu'il s'agit de l'année en cours
- sinon, considérer qu'il s'agit de l'année suivante
#+BEGIN_SRC python :results verbatim :exports both
inc = data.groupby(lambda date: date.year if date.month < 9 else date.year + 1, axis=0).sum()
inc.head()
#+END_SRC
#+RESULTS:
: inc
: 1991 553895
: 1992 834935
: 1993 642921
: 1994 662750
: 1995 651333
Nous ignorons les années extrêmes, pour lesquelles n'avons pas suffisamment de
données. Comme nous ne sommes pas encore en septembre, nous devons aussi enlever
l'année incomplète 2019.
#+BEGIN_SRC python :results verbatim :exports both
inc = inc.loc[inc.index[1:-2]]
inc.head()
#+END_SRC
#+RESULTS:
: inc
: 1992 834935
: 1993 642921
: 1994 662750
: 1995 651333
: 1996 564994
* Réponse aux questions
** Quelle est l'année avec l'épidémie la plus forte ?
#+BEGIN_SRC python :results verbatim :exports both
inc[inc == inc.max()].dropna()
#+END_SRC
#+RESULTS:
: inc
: 2009 844054.0
** Quelle est l'année avec l'épidémie la plus faible ?
#+BEGIN_SRC python :results verbatim :exports both
inc[inc == inc.min()].dropna()
#+END_SRC
#+RESULTS:
: inc
: 2002 515343.0
# Local Variables:
# org-babel-python-command: "nix-shell --pure --run python"
# End: