exercices

parent 8cd9654a
...@@ -11,84 +11,35 @@ ...@@ -11,84 +11,35 @@
#+HTML_HEAD: <script type="text/javascript" src="http://www.pirilampo.org/styles/lib/js/jquery.stickytableheaders.js"></script> #+HTML_HEAD: <script type="text/javascript" src="http://www.pirilampo.org/styles/lib/js/jquery.stickytableheaders.js"></script>
#+HTML_HEAD: <script type="text/javascript" src="http://www.pirilampo.org/styles/readtheorg/js/readtheorg.js"></script> #+HTML_HEAD: <script type="text/javascript" src="http://www.pirilampo.org/styles/readtheorg/js/readtheorg.js"></script>
* Some explanations
This is an org-mode document with code examples in R. Once opened in
Emacs, this document can easily be exported to HTML, PDF, and Office
formats. For more information on org-mode, see
https://orgmode.org/guide/.
When you type the shortcut =C-c C-e h o=, this document will be #+begin_src python :results file :session :var matplot_lib_filename=(org-babel-temp-file "figure" ".png") :exports both
exported as HTML. All the code in it will be re-executed, and the import numpy as np
results will be retrieved and included into the exported document. If import matplotlib.pyplot as plt
you do not want to re-execute all code each time, you can delete the # l= [14.0, 7.6, 11.2, 12.8, 12.5, 9.9, 14.9, 9.4, 16.9, 10.2, 14.9, 18.1, 7.3, 9.8, 10.9,12.2, 9.9, 2.9, 2.8, 15.4, 15.7, 9.7, 13.1, 13.2, 12.3, 11.7, 16.0, 12.4, 17.9, 12.2, 16.2, 18.7, 8.9, 11.9, 12.1, 14.6, 12.1, 4.7, 3.9, 16.9, 16.8, 11.3, 14.4, 15.7, 14.0, 13.6, 18.0, 13.6, 19.9, 13.7, 17.0, 20.5, 9.9, 12.5, 13.2, 16.1, 13.5, 6.3, 6.4, 17.6, 19.1, 12.8, 15.5, 16.3, 15.2, 14.6, 19.1, 14.4, 21.4, 15.1, 19.6, 21.7, 11.3, 15.0, 14.3, 16.8, 14.0, 6.8, 8.2, 19.9, 20.4, 14.6, 16.4, 18.7, 16.8, 15.8, 20.4, 15.8, 22.4, 16.2, 20.3, 23.4, 12.1, 15.5, 15.4, 18.4, 15.7, 10.2, 8.9, 21.0]
and the space before ~#+PROPERTY:~ in the header of this document. print(len(l))
x=numpy.linspace(0,100,100)
Like we showed in the video, Python code is included as follows (and plt.figure(figsize=(10,5))
is exxecuted by typing ~C-c C-c~): plt.plot(x,l)
plt.savefig(matplot_lib_filename)
#+begin_src python :results output :exports both matplot_lib_filename
print("Hello world!")
#+end_src #+end_src
#+RESULTS: #+RESULTS:
: Hello world! [[file:/tmp/babel-XsHjUo/figure3nkNUU.png]]
And now the same but in an Python session. With a session, Python's
state, i.e. the values of all the variables, remains persistent from
one code block to the next. The code is still executed using ~C-c
C-c~.
#+begin_src python :results output :session :exports both
import numpy
x=numpy.linspace(-15,15)
print(x)
#+end_src
#+RESULTS:
#+begin_example
[-15. -14.3877551 -13.7755102 -13.16326531 -12.55102041
-11.93877551 -11.32653061 -10.71428571 -10.10204082 -9.48979592
-8.87755102 -8.26530612 -7.65306122 -7.04081633 -6.42857143
-5.81632653 -5.20408163 -4.59183673 -3.97959184 -3.36734694
-2.75510204 -2.14285714 -1.53061224 -0.91836735 -0.30612245
0.30612245 0.91836735 1.53061224 2.14285714 2.75510204
3.36734694 3.97959184 4.59183673 5.20408163 5.81632653
6.42857143 7.04081633 7.65306122 8.26530612 8.87755102
9.48979592 10.10204082 10.71428571 11.32653061 11.93877551
12.55102041 13.16326531 13.7755102 14.3877551 15. ]
#+end_example
Finally, an example for graphical output: #+begin_src python :results file :session :var matplot_lib_file=(org-babel-temp-file "figure2" ".png") :exports both
#+begin_src python :results output file :session :var matplot_lib_filename="./cosxsx.png" :exports results import numpy as np
import matplotlib.pyplot as plt import matplotlib.pyplot as plt
print(len(l))
plt.figure(figsize=(10,5)) num_bins = 10
plt.plot(x,numpy.cos(x)/x) n, bins, patches = plt.hist(l,num_bins, facecolor = 'blue', alpha = 0.5, edgecolor= 'black')
plt.tight_layout() plt.savefig(matplot_lib_file)
matplot_lib_file
plt.savefig(matplot_lib_filename)
print(matplot_lib_filename)
#+end_src #+end_src
#+RESULTS: #+RESULTS:
[[file:./cosxsx.png]] [[file:/tmp/babel-XsHjUo/figure2jJAtRy.png]]
Note the parameter ~:exports results~, which indicates that the code
will not appear in the exported document. We recommend that in the
context of this MOOC, you always leave this parameter setting as
~:exports both~, because we want your analyses to be perfectly
transparent and reproducible.
Watch out: the figure generated by the code block is /not/ stored in
the org document. It's a plain file, here named ~cosxsx.png~. You have
to commit it explicitly if you want your analysis to be legible and
understandable on GitLab.
Finally, don't forget that we provide in the resource section of this
MOOC a configuration with a few keyboard shortcuts that allow you to
quickly create code blocks in Python by typing ~<p~, ~<P~ or ~<PP~
followed by ~Tab~.
Now it's your turn! You can delete all this information and replace it
by your computational document.
...@@ -42,6 +42,7 @@ data ...@@ -42,6 +42,7 @@ data
#+RESULTS: #+RESULTS:
#+begin_example #+begin_example
Date Count Temperature Pressure Malfunction Date Count Temperature Pressure Malfunction
1 4/12/81 6 66 50 0 1 4/12/81 6 66 50 0
2 11/12/81 6 70 50 1 2 11/12/81 6 70 50 1
...@@ -104,7 +105,6 @@ plot(data=data, Malfunction/Count ~ Temperature, ylim=c(0,1)) ...@@ -104,7 +105,6 @@ plot(data=data, Malfunction/Count ~ Temperature, ylim=c(0,1))
#+end_src #+end_src
#+RESULTS: #+RESULTS:
[[file:freq_temp.png]]
À première vue, ce n'est pas flagrant mais bon, essayons quand même À première vue, ce n'est pas flagrant mais bon, essayons quand même
d'estimer l'impact de la température $t$ sur la probabilité de d'estimer l'impact de la température $t$ sur la probabilité de
...@@ -134,21 +134,23 @@ glm(formula = Malfunction/Count ~ Temperature, family = binomial(link = "logit") ...@@ -134,21 +134,23 @@ glm(formula = Malfunction/Count ~ Temperature, family = binomial(link = "logit")
data = data, weights = Count) data = data, weights = Count)
Deviance Residuals: Deviance Residuals:
2 9 10 11 14 21 23 Min 1Q Median 3Q Max
-0.3015 -0.2836 -0.2919 -0.3015 0.6891 0.6560 -0.2850 -0.95227 -0.78299 -0.54117 -0.04379 2.65152
Coefficients: Coefficients:
Estimate Std. Error z value Pr(>|z|) Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.389528 3.195752 -0.435 0.664 (Intercept) 5.08498 3.05247 1.666 0.0957 .
Temperature 0.001416 0.049773 0.028 0.977 Temperature -0.11560 0.04702 -2.458 0.0140 *
---
codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1) (Dispersion parameter for binomial family taken to be 1)
Null deviance: 1.3347 on 6 degrees of freedom Null deviance: 24.230 on 22 degrees of freedom
Residual deviance: 1.3339 on 5 degrees of freedom Residual deviance: 18.086 on 21 degrees of freedom
AIC: 18.894 AIC: 35.647
Number of Fisher Scoring iterations: 4 Number of Fisher Scoring iterations: 5
#+end_example #+end_example
L'estimateur le plus probable du paramètre de température est 0.001416 L'estimateur le plus probable du paramètre de température est 0.001416
......
...@@ -80,6 +80,47 @@ Regardons ce que nous avons obtenu: ...@@ -80,6 +80,47 @@ Regardons ce que nous avons obtenu:
table[:5] table[:5]
#+END_SRC #+END_SRC
** Utilisation de données locales
Dans le cas ou internet est indisponible, ou si le jeu de données
fourni en ligne est susceptible d’être modifié, mieux vaut travailler
sur des données téléchargées, en local.
On vérifie que le jeu de données n’existe pas déja
#+begin_src shell :session *shell* :results output :exports both
cd /home/lcs/Documents/césure/mooc-rr/module3/exo1
ls
#+end_src
#+RESULTS:
:
: analyse-syndrome-grippal.ipynb incidence-PAY-3.csv
: analyse-syndrome-grippal.org#' influenza-like-illness-analysis.ipynb
: analyse-syndrome-grippal.org influenza-like-illness-analysis.org
: analyse-syndrome-grippal.Rmd influenza-like-illness-analysis.Rmd
#+BEGIN_SRC python :results silent :var data_url=data-url
#import panda as pd
#data = pd.read_csv('incidence-PAY-3.csv',header = 1)
import csv
with open('incidence-PAY-3.csv') as csv_file:
csv_read=csv.reader(csv_file, delimiter=',')
lines = data.decode('latin-1').strip().split('\n')
data_lines = lines[1:]
table = [line.split(',') for line in data_lines]
#+END_SRC
Regardons ce que nous avons obtenu:
#+BEGIN_SRC python :results value
table[:5]
#+END_SRC
#+RESULTS:
** Recherche de données manquantes ** Recherche de données manquantes
Il y a malheureusement beaucoup de façon d'indiquer l'absence d'un point de données. Nous testons ici seulement pour la présence de champs vides. Il faudrait aussi rechercher des valeurs non-numériques dans les colonnes à priori numériques. Nous ne le faisons pas ici, mais une vérification ultérieure capterait des telles anomalies. Il y a malheureusement beaucoup de façon d'indiquer l'absence d'un point de données. Nous testons ici seulement pour la présence de champs vides. Il faudrait aussi rechercher des valeurs non-numériques dans les colonnes à priori numériques. Nous ne le faisons pas ici, mais une vérification ultérieure capterait des telles anomalies.
...@@ -94,6 +135,13 @@ for row in table: ...@@ -94,6 +135,13 @@ for row in table:
valid_table.append(row) valid_table.append(row)
#+END_SRC #+END_SRC
#+RESULTS:
: Traceback (most recent call last):
: File "<stdin>", line 1, in <module>
: File "/tmp/babel-XsHjUo/python-WeKugl", line 2, in <module>
: for row in table:
: NameError: name 'table' is not defined
** Extraction des colonnes utilisées ** Extraction des colonnes utilisées
Il y a deux colonnes qui nous intéressent: la première (~"week"~) et la troisième (~"inc"~). Nous vérifions leurs noms dans l'en-tête, que nous effaçons par la suite. Enfin, nous créons un tableau avec les deux colonnes pour le traitement suivant. Il y a deux colonnes qui nous intéressent: la première (~"week"~) et la troisième (~"inc"~). Nous vérifions leurs noms dans l'en-tête, que nous effaçons par la suite. Enfin, nous créons un tableau avec les deux colonnes pour le traitement suivant.
#+BEGIN_SRC python :results silent #+BEGIN_SRC python :results silent
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment