intégration aide sur Jupyter

7adebad0 · 906a4f494f4ba26c398ed74cb4de7b36 · f298e4f2 · 7adebad0
Commit 7adebad0 authored Nov 11, 2020 by 906a4f494f4ba26c398ed74cb4de7b36
Hide whitespace changes
Inline Side-by-side

Showing with 369 additions and 0 deletions

module2_ressources_jupyter_fr.org module2/module2_ressources_jupyter_fr.org +369 -0

No files found.
--- a/module2/module2_ressources_jupyter_fr.org
+++ b/module2/module2_ressources_jupyter_fr.org
+# -*- mode: org -*-
+#+TITLE:     Jupyter : Trucs et astuces, installation et configuration
+#+AUTHOR:    Arnaud Legrand, Benoit Rospars, Konrad Hinsen
+#+DATE: Février 2020
+#+STARTUP: overview indent
+#+OPTIONS: num:nil toc:t
+#+PROPERTY: header-args :eval never-export
+
+Quand vous aurez suivi les instructions suivantes, vous
+pourrez ouvrir des notebooks Jupyter en tapant une commande shell/DOS :
+#+begin_src shell :results output :exports both
+jupyter notebook
+#+end_src
+
+* Table des matières                                         :TOC:
+- [[#jupyter-trucs-et-astuces][Jupyter : Trucs et astuces]]
+  - [[#création-ou-import-dun-notebook][Création ou import d'un notebook]]
+  - [[#exécuter-du-code-r-et-du-code-python-dans-le-même-notebook][Exécuter du code R et du code Python dans le même notebook]]
+  - [[#autres-langages-que-python-et-r][Autres langages que Python et R]]
+  - [[#améliorer-la-lisibilité-dun-notebook][Améliorer la lisibilité d'un notebook]]
+- [[#installation-et-configuration-de-jupyter-sur-votre-ordinateur][Installation et configuration de Jupyter sur votre ordinateur]]
+  - [[#installation-de-jupyter-et-de-python-r][Installation de Jupyter (et de Python, R...)]]
+  - [[#latex-pour-la-génération-de-pdf][LaTeX pour la génération de PDF]]
+  - [[#jupyterlab][JupyterLab]]
+  - [[#interaction-avec-gitlab-et-git][Interaction avec GitLab et git]]
+
+* Jupyter : Trucs et astuces
+Cette [[https://www.dataquest.io/blog/jupyter-notebook-tips-tricks-shortcuts/][page web]] (en anglais) recense un certain nombre d'astuces
+relatives à l'utilisation de Jupyter (et en particulier des
+illustrations des nombreuses commandes magiques =IPython magic=)
+susceptibles d'améliorer votre efficacité (notez bien que ce billet a
+plus de deux ans que Jupyter évoluant très rapidement, certaines de
+ces astuces ou de ces modules complémentaires font maintenant partie
+du comportement par défaut des versions les plus récentes de Jupyter).
+** Création ou import d'un notebook
+L'environnement Jupyter que nous avons déployé dans le cadre de ce
+MOOC vous permettra d'accéder très simplement à tout fichier (et en
+particulier les notebooks des différents exercices que nous avons
+créés pour vous) de votre projet Gitlab par défaut. Il y a néanmoins
+des situations où vous pouvez vouloir utiliser d'autres notebooks que
+ceux du MOOC.
+- Créer un notebook tout neuf dans un répertoire donné :: 
+  1. À partir du menu : =File -> Open=. Ceci vous permet d'accéder au
+     gestionnaire de fichiers de Jupyter.
+  2. Naviguez jusque dans le répertoire dans lequel vous souhaitez
+     créer votre notebook.
+  3. Utilisez le bouton en haut à droite : =New -> Notebook: Python 3=.
+  4. Donnez un nom à votre notebook à partir du menu : =File -> Rename=.
+
+     N.B. : Si vous créez un notebook à partir du menu ~File -> New Notebook -> Python 3~, 
+     il sera créé dans le répertoire courant. Le
+     déplacer après coup est un peu pénible. Il vous faudra aller dans
+     le gestionnaire de fichiers de Jupyter (menu =File -> Open=),
+     sélectionner le notebook, l'arrêter (=Shutdown=), puis le déplacer
+     (=Move=) et/ou le renommer (=Rename=).
+- Importer un notebook déjà existant :: Si le notebook qui vous
+     intéresse est déjà dans votre projet GitLab, il vous suffit de
+     synchroniser la copie de votre Jupyter à l'aide du bouton =Git pull= 
+     et d'utiliser le menu =File -> Open=. Dans le cas contraire,
+     par exemple si souhaitez importer cet 
+     [[https://app-learninglab.inria.fr/gitlab/moocrr-session2/moocrr-reproducibility-study/blob/master/src/Python3/challenger.ipynb][autre notebook]] 
+     rédigé par quelqu'un d'autre, procédez de la façon suivante :
+  1. Téléchargez le fichier sur votre répertoire. Pour ce [[https://app-learninglab.inria.fr/gitlab/moocrr-session2/moocrr-reproducibility-study/blob/master/src/Python3/challenger.ipynb][Notebook
+     hébergé sur un GitLab]], cliquez sur =Open raw= (l'icône avec
+     un petit =</>= ) et sauvegardez (=Ctrl-S= sur la plupart des
+     navigateurs) son contenu (un long fichier texte au format JSON).
+  2. Ouvrez le gestionnaire de fichiers de Jupyter via le menu =File -> Open=
+     et naviguez jusqu'au répertoire où vous souhaitez déposer votre notebook.
+  3. Utilisez le bouton en haut à droite =Upload= pour transférer le
+     document de votre ordinateur vers le serveur Jupyter et confirmez
+     l'upload.
+  4. Vous pouvez maintenant ouvrir le notebook fraîchement récupéré
+     à l'aide du navigateur de fichiers de Jupyter et réexécuter le
+     code correspondant.
+** Exécuter du code R et du code Python dans le même notebook
+C'était impossible avec les premières versions de Jupyter mais c'est
+désormais très facile grâce à la bibliothèque Python =rpy2= (les détails
+d'installation sont donnés plus bas dans ce document). Il vous
+faut tout d'abord ouvrir un notebook Python.
+1. Chargez la bibliothèque =rpy2=. Le =%load_ext= est une commande magique
+   Jupyter qui charge cette bibliothèque et vous donne accès à de
+   nouvelles commandes magiques.
+   #+begin_src python :results output :exports both
+   %load_ext rpy2.ipython
+   #+end_src
+2. Utilisez la (nouvellement activée) commande magique =%R= :
+   #+begin_src python :results output :exports both
+   %%R 
+   summary(cars)
+   #+end_src
+   Les objets Python peuvent même être passé à R de la façon suivante
+   (ici, on suppose que =df= est une dataframe pandas) :
+   #+begin_src python :results output :exports both
+   %%R -i df
+   plot(df)
+   #+end_src
+Cette notation =%%R= indique à Python et à Jupyter et que le langage R
+doit être utilisé pour évaluer l'ensemble de la cellule. En interne,
+Python (=rpy2=) maintient une session R, lui passe le code de la cellule
+et récupère le résultat. Jupyter fait alors le nécessaire pour
+l'afficher correctement. Il est également possible d'utiliser =%R= pour
+avoir une seule ligne de R au sein d'une cellule Python.
+
+Un exemple de notebook utilisant R et Python est proposé [[file:../../documents/notebooks/notebook_Jupyter_Python_R.ipynb][ici]].
+
+** Autres langages que Python et R
+Jupyter tire son nom des langages Julia, Python, et R. Il ne se limite
+donc pas aux langages Python et R. De nombreux autres langages de
+programmation sont disponibles :
+[[https://github.com/jupyter/jupyter/wiki/Jupyter-kernels][https://github.com/jupyter/jupyter/wiki/Jupyter-kernels]], et en
+particulier des langages non libres comme SAS, Mathematica,
+Matlab... Notez que la maturité de ces noyaux est très variable.
+
+Nous n'avons déployé aucun de ces autres langages dans le cadre du
+MOOC mais nous vous invitons à lire les sections suivantes pour
+apprendre à déployer votre propre instance de Jupyter et activer
+certaines de ses extensions.
+
+Vous trouverez [[file:../../documents/notebooks/][ici]] une liste de notebooks Jupyter illustrant comment
+différents langages (Python, R, SAS) peuvent être utilisés dans Jupyter.
+
+*** SAS
+SAS est un logiciel de statistiques propriétaires qui est très
+couramment utilisé dans le domaine de la santé.  Puisque la question
+est posée de façon récurrente, si vous avez besoin d'utiliser le
+langage SAS plutôt que le langage R, il y a deux façons d'utiliser SAS
+avec Jupyter : soit avec le noyau [[https://sassoftware.github.io/sas_kernel/][Python SASKernel]] (l'équivalent du
+=IRKernel=), soit avec la bibliothèque [[https://sassoftware.github.io/saspy/][Python SASPy]] (l'équivalent de
+=rpy2=).
+
+Malgré la qualité et la stabilité de ce langage, SAS n'en reste pas
+moins un langage propriétaire, ce qui rend l'inspection de ses
+procédures très difficile et limite la réutilisation des procédures
+produites par d'autres chercheurs. Nous le déconseillons donc dans un
+objectif de recherche reproductible mais il faut aussi savoir ne pas
+être dogmatique. La perfection n'existe pas ;) et, même en utilisant
+SAS, l'utilisation de la programmation lettrée de Jupyter et d'un
+contrôle de version (avec GitLab) et d'environnement (avec Docker par
+exemple) se révélera très certainement précieux.
+
+*[[https://sassoftware.github.io/saspy/][SASPy]]*
+- Installer =saspy= via =pip=, par exemple comme ceci :
+  #+begin_src shell :results output :exports both
+  python -m pip install saspy
+  #+end_src
+- Sous Windows, il vous faudra probablement modifier le fichier 
+  =C:\Program Files\Python\Python37\Lib\site-packages\saspy\sascfg.py= 
+  et l'adapter à votre propre système. Dans les deux captures d'écran
+  suivantes, la fenêtre de gauche correspond à la version originale du
+  fichier et celle de droite à la version modifiée :
+  #+BEGIN_CENTER
+  [[file:jupyter_images/sascfg1.png]]
+  #+END_CENTER
+  #+BEGIN_CENTER
+  [[file:jupyter_images/sascfg2.png]]
+  #+END_CENTER
+- Voici un [[file:../../documents/notebooks/notebook_Jupyter_Python_SAS.ipynb][exemple de notebook Python/SAS]].
+- N.B. : L'export du format HTML (et donc SAS) vers le format PDF via LaTeX ne fonctionne pas 
+  ([[file:../../documents/notebooks/notebook_html_export_pdf_via_latex.pdf][notebook_html_export_pdf_via_latex.pdf]]).
+  Jusqu'à présent il était possible de faire l'export depuis Pandoc. Une façon de faire était 
+  d'exporter le notebook au format HTML (ou Markdown) dans Jupyter puis d'exécuter la commande suivante :
+  #+begin_src shell :results output :exports both
+  pandoc --variable=geometry:a4paper --variable=geometry:margin=1in notebook_sas.html -o  notebook_sas.pdf  
+  #+end_src
+
+  L’extension [[https://pypi.org/project/notebook-as-pdf/][notebook-as-pdf]] permet maintenant l’export 
+  direct du format HTML vers le format PDF 
+  ([[file:../../documents/notebooks/notebook_html_export_pdf_via_html.pdf][notebook_html_export_pdf_via_html.pdf]])
+  et donc l’export des notebooks SAS au format PDF 
+  ([[file:../../documents/notebooks/notebook_Jupyter_SAS.pdf][notebook_Jupyter_SAS.pdf]]). 
+  (Choisir l'export PDF via HTML.)
+
+- Une référence, plus complète, et bien utile en cas de difficultés :
+  [[https://sassoftware.github.io/saspy/]]
+
+*[[https://sassoftware.github.io/sas_kernel/install.html][SASKernel]]*
+
+- Le =sas_kernel= utilise =saspy= donc la première chose à faire est
+  d'installer =saspy= en suivant les instructions précédentes.
+- Installez =sas_kernel= à l'aide de =pip=, par exemple comme ceci :
+  #+begin_src shell :results output :exports both
+  python -m pip install sas_kernel  
+  #+end_src
+- Yous pourrez alors créer des notebooks utilisant SAS nativement :
+  #+BEGIN_CENTER
+  [[file:jupyter_images/new_notebook.png]]
+  #+END_CENTER
+  #+BEGIN_CENTER
+  [[file:jupyter_images/notebook_SAS.png]]
+  #+END_CENTER
+  Vous pouvez remarquer la petite icône SAS en haut à droite.
+- À toute fin utile, voici un [[file:../../documents/notebooks/notebook_Jupyter_SAS.ipynb][exemple de notebooks SAS]].
+- Une référence, plus complète, et bien utile en cas de difficultés :
+  [[https://sassoftware.github.io/sas_kernel/install.htmlxo]].
+
+** Améliorer la lisibilité d'un notebook
+Lorsque les notebooks s'allongent, ils deviennent vite difficiles à
+lire. Voici quelques extensions (la liste officielle de ces extensions
+est [[https://jupyter-contrib-nbextensions.readthedocs.io/en/latest/nbextensions.html][ici]]) qui peuvent vous faciliter un peu la
+vie :
+- Il est possible [[https://stackoverflow.com/questions/33159518/collapse-cell-in-jupyter-notebook][plier/déplier votre code]] :
+  #+begin_src shell :results output :exports both
+  pip3 install jupyter_contrib_nbextensions
+  # jupyter contrib nbextension install --user # not done yet
+  #+end_src
+- Il est aussi possible de [[https://github.com/kirbs-/hide_code][contrôler la visibilité des cellules]], ce
+  qui peut être très utile si on exporte le notebook :
+  #+begin_src sh :results output :exports both
+  sudo pip3 install hide_code
+  sudo jupyter-nbextension  install --py hide_code
+  jupyter-nbextension  enable --py hide_code
+  jupyter-serverextension enable --py hide_code
+  #+end_src
+  Vous pourrez alors choisir =Hide_code= dans le menu de Jupyter :
+  #+BEGIN_CENTER
+  [[file:jupyter_images/menu_hide_code.png]]
+  #+END_CENTER
+  Cela devrait vous permettre d'obtenir ce genre de panneau de
+  configuration pour chaque cellule :
+  #+BEGIN_CENTER
+  [[file:jupyter_images/hide_code.png]]
+  #+END_CENTER
+  Il vous faudra utiliser les icônes pour faire l'export en pdf ou en
+  html plutôt que de passer par le menu.
+  #+BEGIN_CENTER
+  [[file:jupyter_images/export_hide_code.png]]
+  #+END_CENTER
+  N.B. : Dans la première édition de ce MOOC, certains participants nous
+  ont rapporté avoir eu des difficultés à faire fonctionner cette
+  extension sous Windows.
+- Table des matières: L'extention [[https://jupyter-contrib-nbextensions.readthedocs.io/en/latest/nbextensions/toc2/README.html][toc(2)]] améliore également beaucoup la navigation et la capacité à avoir une vue d'ensemble du notebook.
+
+* Installation et configuration de Jupyter sur votre ordinateur
+Dans cette section, nous expliquons comment installer, sur votre
+ordinateur, un environnement Jupyter similaire à celui que nous avons
+déployé pour ce MOOC.
+
+** Installation de Jupyter (et de Python, R...)
+Téléchargez d'abord la [[https://conda.io/miniconda.html][dernière version de Miniconda]]. Miniconda
+est une version légère d'Anaconda, une suite logicielle incluant
+Python, Jupyter, R ainsi que les bibliothèques les plus couramment
+utilisées en calcul scientifique et en science des données.
+
+Sur notre serveur, nous utilisons la version =4.5.4= de Miniconda et
+la version =3.6= de Python. En théorie, vous pourriez télécharger le
+[[https://gist.github.com/brospars/4671d9013f0d99e1c961482dab533c57][fichier d'environnement =mooc_rr= ]] et reproduire un environnement
+identique sur votre ordinateur. Malheureusement, notre serveur date de
+2018 et conda a beaucoup changé entretemps, au point que la
+reconstruction de cet environnement n'est plus possible. Nous vous
+montrons par la suite comment obtenir un environnement équivalent mais
+avec des versions plus récentes de tous les logiciels.
+
+Installez Miniconda en suivant les instructions fournies. Si le
+logiciel d'installation (ce n'est pas systématique) vous pose la question
+#+begin_quote
+Do you wish the installer to initialize Miniconda3
+by running conda init? [yes|no]
+#+end_quote
+acceptez avec =yes=. Puis vous verrez le conseil
+#+begin_quote
+==> For changes to take effect, close and re-open your current shell. <==
+#+end_quote
+qu'il faut absolument suivre pour que la suite se passe bien. 
+
+*Important :* il vous faudra exécuter plusieurs commandes dans le shell conda.
+
+Voici d'abord comment ouvrir ce shell (comme expliqué dans la 
+[[https://docs.anaconda.com/anaconda/install/verify-install/][documentation Anaconda]]) :
+- Windows : Click Start, search, ou bien sélectionnez Anaconda Prompt dans le menu.
+  [[file:Conda_images/win-anaconda-prompt.png]]
+- macOS : Cmd+Space pour ouvrir Spotlight Search et tapez “terminal”
+  pour ouvrir le shell.
+- Linux–CentOS : Open Applications - System Tools - terminal.
+- Linux–Ubuntu : Open the Dash by clicking the upper left Ubuntu icon, then type “terminal”.
+
+La première commande à exécuter dans le shell est
+#+begin_src shell :results output :exports both
+conda update -n base -c defaults conda
+#+end_src
+pour mettre à jour tous les logiciels dans la distribution =conda=.
+
+Nous pouvons maintenant créer un environnement =conda= pour le
+parcours Jupyter de ce MOOC :
+#+begin_src shell :results output :exports both
+conda create -n mooc-rr-jupyter
+#+end_src
+et l'activer :
+#+begin_src shell :results output :exports both
+conda activate mooc-rr-jupyter
+#+end_src
+Il n'est pas strictement nécessaire d'activer un environnement pour
+s'en servir, mais c'est la façon la plus facile qui suscite le moins
+d'erreurs. *Vous devez répéter cette activation chaque fois que vous ouvrez un 
+nouveau terminal, avant de pouvoir utiliser cet environnement.*
+
+Le prochain pas est l'installation de tous les logiciels dont nous
+avons besoin et qui font partie de la distribution Miniconda :
+#+begin_src shell :results output :exports both
+conda install jupyter python numpy matplotlib pandas r r-irkernel rpy2 tzlocal simplegeneric
+#+end_src
+Il reste deux paquets que ne font pas partie de Miniconda. Nous
+récupérons le premier de la source indépendante [[https://conda-forge.org/][conda-forge]] :
+#+begin_src shell :results output :exports both
+conda install -c conda-forge r-parsedate
+#+end_src
+et le deuxième du dépôt principal du langage Python, [[https://pypi.org/][PyPI]] :
+#+begin_src shell :results output :exports both
+pip install isoweek
+#+end_src
+
+Vous pouvez maintenant lancer Jupyter :
+#+begin_src shell :results output :exports both
+jupyter notebook
+#+end_src
+et travailler avec nos exemples et exercices.
+
+** LaTeX pour la génération de PDF
+Si vous voulez convertir vos notebooks en PDF, vous devez aussi
+installer LaTeX sur votre ordinateur. Nous expliquons cette procédure
+dans une [[https://www.fun-mooc.fr/courses/course-v1:inria+41016+self-paced/jump_to_id/19c2b1de7766484bae73f3ab133463c6][ressource spécifique]].
+
+** JupyterLab
+Notez que les notebooks Jupyter ne constituent qu'une petite partie de
+l'écosystème et que Jupyter fait maintenant partie d'un projet plus
+large, [[https://blog.jupyter.org/jupyterlab-is-ready-for-users-5a6f039b8906][JupyterLab]], qui permet d'assembler différents composants (dont
+les notebooks) dans votre navigateur. Dans le cadre de ce MOOC, nous
+avons manqué de temps pour bénéficier de tout JupyterLab qui était
+toujours en développement actif. À l'heure actuelle, vous pouvez
+cependant avoir intérêt à installer JupyterLab sur votre ordinateur
+(avec l'environnement =mooc-rr-jupyter= activé) :
+#+begin_src shell :results output :exports both
+conda install jupyterlab
+#+end_src
+
+Pour le lancer :
+#+begin_src shell :results output :exports both
+jupyter lab
+#+end_src
+** Interaction avec GitLab et git
+Pour vous simplifier la vie, nous avons rajouté des boutons
+=pull/push= dans Jupyter qui vous permettent de synchroniser vos
+modifications avec GitLab. Ce développement spécifique pour ce MOOC
+s'est inspiré d'une [[https://github.com/Lab41/sunny-side-up][preuve de concept]] précédente mais est vraiment /ad
+hoc/. Indépendemment et à peu près au même moment, une autre personne a
+développé un [[https://github.com/sat28/githubcommit][Plugin Jupyter assez générique permettant de se
+synchroniser avec Gitlab ou Github]]. Si cette fonctionnalité vous
+intéresse, c'est donc une piste intéressante à explorer. Sinon,
+souvenez-vous qu'il est très simple d'insérer une cellule shell dans
+Jupyter et vous pouvez facilement y insérer des commandes
+Git. C'est la façon dont nous travaillons en pratique la majorité du
+temps. Si vous optez pour cette solution, il vous faudra configurer Git sur votre
+ordinateur. Pour ce faire, vous pouvez suivre la vidéo
+[[https://www.fun-mooc.fr/courses/course-v1:inria+41016+self-paced/jump_to_id/7508aece244548349424dfd61ee3ba85][configurer Git pour Gitlab]] et le document
+[[https://gitlab.inria.fr/learninglab/mooc-rr/mooc-rr-ressources/blob/master/module2/ressources/gitlab_fr.org][Git et Gitlab]] correspondant.
+
+Ceci étant dit, vous avez certainement remarqué que Jupyter conserve
+une trace parfaite de l'ordre dans lequel les cellules ont été
+exécutées en incrémentant leur "indice". C'est une très bonne
+propriété d'un point de vue reproductibilité mais il se peut, selon
+votre usage, que cela s'avère peu pratique du point de vue du suivi de
+version. Certaines personnes ont donc développé des 
+[[https://gist.github.com/pbugnion/ea2797393033b54674af][git hooks spécifiques]] 
+permettant d'ignorer ces numéros lorsque l'on commite des
+notebooks Jupyter. Il y eu de longues discussions à ce sujet sur
+[[https://stackoverflow.com/questions/18734739/using-ipython-notebooks-under-version-control][StackOverflow]], [[https://discourse.jupyter.org/t/how-to-version-control-jupyter-notebooks/566/14][the Jupyter Forum]], et [[https://nextjournal.com/schmudde/how-to-version-control-jupyter][NextJournal]], qui détaillent différentes options.
+
+Enfin, pour ceux qui utilisent [[https://blog.jupyter.org/jupyterlab-is-ready-for-users-5a6f039b8906][JupyterLab]] plutôt que le Jupyter de
+base, un [[https://github.com/jupyterlab/jupyterlab-git][plugin Git pour JupyterLab]] a été développé et offre des
+fonctionnalités de suivi de version dignes d'un IDE classique.