Commit 4b73f659 authored by Waad ALMASRI's avatar Waad ALMASRI

exo4 .Rmd, python_org and R_org submitted

parent 6558b738
This diff is collapsed.
......@@ -10,13 +10,12 @@ output: html_document
knitr::opts_chunk$set(echo = TRUE)
```
*Les données utilisées dans cet exercice sont open source et ne sont pas en relation avec ma thèse parce que les données utilisées dans la thèse sont confidentielles.*
## Exploration du répertoire
D'abord, on fait un git pull pour récupérer les données qu'on a téléversé dans le répertoire GIT.<br>
**Attention!** Si tu as commencé à écrire dans le notebook, enregistre les données pour ne pas les perdre.<br>
Ensuite, on s'assure que nous avons les données dans le répertoire avec la commande "ls".
Ensuite, on s'assure que nous avons les données dans le répertoire avec la commande "list.files()".
```{r }
......@@ -59,7 +58,6 @@ print(paste0("There are ", length(unique(df$state)), " unique state"))
Number of jobs per state per year
```{r, echo=FALSE}
library(plyr)
library(tidyr)
jobs_per_state_year <-ddply(df,.(state,year),summarise,number_of_jobs=length((job)))
jobs_per_state_year <-jobs_per_state_year[order(jobs_per_state_year$number_of_jobs, decreasing=TRUE),]
```
......
#+TITLE: Votre titre
#+AUTHOR: Votre nom
#+DATE: La date du jour
#+TITLE: Exercice 4
#+AUTHOR: Waad ALMASRI
#+DATE: 25/08/2020
#+LANGUAGE: fr
# #+PROPERTY: header-args :eval never-export
......@@ -11,83 +11,171 @@
#+HTML_HEAD: <script type="text/javascript" src="http://www.pirilampo.org/styles/lib/js/jquery.stickytableheaders.js"></script>
#+HTML_HEAD: <script type="text/javascript" src="http://www.pirilampo.org/styles/readtheorg/js/readtheorg.js"></script>
* Quelques explications
* Exploration du répertoire
D'abord, on fait un git pull pour récupérer les données qu'on a téléversé dans le répertoire GIT.<br>
*Attention!* Si tu as commencé à écrire dans le notebook, enregistre les données pour ne pas les perdre.<br>
Ensuite, on s'assure que nous avons les données dans le répertoire
avec la commande "listdir()".
Ceci est un document org-mode avec quelques exemples de code
python. Une fois ouvert dans emacs, ce document peut aisément être
exporté au format HTML, PDF, et Office. Pour plus de détails sur
org-mode vous pouvez consulter https://orgmode.org/guide/.
#+begin_src python :results output :exports both
import os
files = os.listdir()
print(files)
#+end_src
#+RESULTS:
: ['exercice_en.ipynb', 'exercice.ipynb', 'exercice_python_en.org', 'exercice_python_fr.org', 'data.csv', 'exercice_R_en.org', 'bar-chart.html', 'exercice_R_fr.org', 'cosxsx.png', 'exercice_fr.Rmd', 'exercice_en.Rmd', 'exercice_fr.ipynb']
Lorsque vous utiliserez le raccourci =C-c C-e h o=, ce document sera
compilé en html. Tout le code contenu sera ré-exécuté, les résultats
récupérés et inclus dans un document final. Si vous ne souhaitez pas
ré-exécuter tout le code à chaque fois, il vous suffit de supprimer
le # et l'espace qui sont devant le ~#+PROPERTY:~ au début de ce
document.
* Exploration du jeu de données
Maintenant qu'on a les données, on va commencer à les explorer.<br>
*NB:* les données suivantes sont déjà formattées en .csv.
Comme nous vous l'avons montré dans la vidéo, on inclue du code
python de la façon suivante (et on l'exécute en faisant ~C-c C-c~):
#+begin_src python :results output :exports both
print("Hello world!")
print("Reading Data...")
import pandas as pd
df = pd.read_csv("./data.csv", sep="\t")
print("Checking Data...")
print("In this dataframe there are ",len(df), "data samples")
print(df.head())
print("Adding a column for 'year'")
df['year'] = df.date.apply(lambda x: int(x[:4]))
print("Checking Missing Data...")
print(df.isnull().sum())
print("Dropping rows having a Null job i.e. missing job info")
df_ = df.dropna(subset=['job'])
print("The number of data samples left are",len(df_))
print("\n Statistiques de Base")
print("There are ",len(set(df_.job)), " unique jobs.")
print("There are ",len(set(df_.edited_by)), " unique editors.")
print("There are ",len(set(df_.state)), " unique states.")
print("Number of jobs per state per year")
pivot_table = pd.pivot_table(df_, index=['state'], columns=['year'], values=['job'], aggfunc='count', fill_value=0)
print(pivot_table)
#+end_src
#+RESULTS:
: Hello world!
Voici la même chose, mais avec une session python, donc une
persistance d'un bloc à l'autre (et on l'exécute toujours en faisant
~C-c C-c~).
#+begin_src python :results output :session :exports both
import numpy
x=numpy.linspace(-15,15)
print(x)
* Representations graphiques
We will start by plotting the Nbr of jobs per year of New York versus Texas.
#+begin_src python :results file :session :var matplot_lib_filename="fig1_python_org.png" :exports both
import pandas as pd
df = pd.read_csv("./data.csv", sep="\t")
df_ = df.dropna(subset=['job'])
import plotly
import plotly.graph_objs as go
# Create two additional DataFrames to traces
df1 = df_[df_.state == "New York"]
df2 = df_[df_.state == "Texas"]
# Create two traces, first "New York" and second "Texas"
trace1 = go.Bar(x=df1["year"], y=df1["job"], name="New York")
trace2 = go.Bar(x=df2["year"], y=df2["job"], name="Texas")
# Fill out data with our traces
data = [trace1, trace2]
# Create layout and specify title, legend and so on
layout = go.Layout(title="Nbr of jobs per state per year",
xaxis=dict(title="Year"),
yaxis=dict(title="Count of Jobs"),
barmode="group")
# Create figure with all prepared data for plot
fig = go.Figure(data=data, layout=layout)
fig
fig.write_image(matplot_lib_filename)
#+end_src
#+RESULTS:
#+begin_example
[-15. -14.3877551 -13.7755102 -13.16326531 -12.55102041
-11.93877551 -11.32653061 -10.71428571 -10.10204082 -9.48979592
-8.87755102 -8.26530612 -7.65306122 -7.04081633 -6.42857143
-5.81632653 -5.20408163 -4.59183673 -3.97959184 -3.36734694
-2.75510204 -2.14285714 -1.53061224 -0.91836735 -0.30612245
0.30612245 0.91836735 1.53061224 2.14285714 2.75510204
3.36734694 3.97959184 4.59183673 5.20408163 5.81632653
6.42857143 7.04081633 7.65306122 8.26530612 8.87755102
9.48979592 10.10204082 10.71428571 11.32653061 11.93877551
12.55102041 13.16326531 13.7755102 14.3877551 15. ]
#+end_example
Et enfin, voici un exemple de sortie graphique:
#+begin_src python :results output file :session :var matplot_lib_filename="./cosxsx.png" :exports results
Checkig the top 7 jobs present in the United states
#+begin_src python :results output :exports both
import pandas as pd
df = pd.read_csv("./data.csv", sep="\t")
df_ = df.dropna(subset=['job'])
df_.job.value_counts()[:7]
#+end_src
#+begin_src python :results file :session :var matplot_lib_filename="fig2_python_org.png" :exports both
import pandas as pd
df = pd.read_csv("./data.csv", sep="\t")
df_ = df.dropna(subset=['job'])
import matplotlib.pyplot as plt
import seaborn as sns
sns.countplot(df_[df_.job.isin(df_.job.value_counts()[:7].keys())].job)
plt.xticks(rotation=90)
plt.savefig(matplot_lib_filename)
#+end_src
** Réflexion
It seems that this database is more about politics since we see that the top 2 jobs are Republicans and Democrats.
Let us check the rate of Republicans versus Democrats in the top states of the US.
But First let us identify the top states of the US.
Checkig the top 7 US states present in the dataset
#+begin_src python :results output :exports both
import pandas as pd
df = pd.read_csv("./data.csv", sep="\t")
df_ = df.dropna(subset=['job'])
df_.state.value_counts()[:7]
#+end_src
#+begin_src python :results file :session :var matplot_lib_filename="fig3_python_org.png" :exports both
import pandas as pd
df = pd.read_csv("./data.csv", sep="\t")
df_ = df.dropna(subset=['job'])
import seaborn as sns
import matplotlib.pyplot as plt
sns.countplot(df_[df_.state.isin(df_.state.value_counts()[:7].keys())].state)
plt.xticks(rotation=90)
plt.savefig(matplot_lib_filename)
#+end_src
Now let us compare the distribution of the Republican versus Democrat
in the top 7 US states.
#+begin_src python :results file :session :var matplot_lib_filename="fig4_python_org.png" :exports both
import pandas as pd
df = pd.read_csv("./data.csv", sep="\t")
df_ = df.dropna(subset=['job'])
import seaborn as sns
import matplotlib.pyplot as plt
df1 = df_[(df_.job.isin(["Republican","Democrat"])) & df_.state.isin(df_.state.value_counts()[:7].keys())]
sns.countplot(data=df1, x='state', hue='job' )
plt.title("Distribution of Republican vs Democrat in the top 7 US states in the database")
plt.xticks(rotation=90)
plt.savefig(matplot_lib_filename)
#+end_src
plt.figure(figsize=(10,5))
plt.plot(x,numpy.cos(x)/x)
plt.tight_layout()
* Word Cloud
We could have also found the top states ad top jobs using word cloud.
#+begin_src python :results file :session :var matplot_lib_filename="fig5_python_org.png" :exports both
import pandas as pd
df = pd.read_csv("./data.csv", sep="\t")
df_ = df.dropna(subset=['job'])
import matplotlib.pyplot as plt
from wordcloud import WordCloud, ImageColorGenerator
text = ' '.join(df_.job.tolist())
wordcloud = WordCloud(background_color="white").generate(text)
# Display the generated image:
plt.figure(figsize=(15,8))
plt.imshow(wordcloud)
plt.axis("off")
plt.show()
plt.savefig(matplot_lib_filename)
print(matplot_lib_filename)
#+end_src
#+RESULTS:
[[file:./cosxsx.png]]
Vous remarquerez le paramètre ~:exports results~ qui indique que le code
ne doit pas apparaître dans la version finale du document. Nous vous
recommandons dans le cadre de ce MOOC de ne pas changer ce paramètre
(indiquer ~both~) car l'objectif est que vos analyses de données soient
parfaitement transparentes pour être reproductibles.
Attention, la figure ainsi générée n'est pas stockée dans le document
org. C'est un fichier ordinaire, ici nommé ~cosxsx.png~. N'oubliez pas
de le committer si vous voulez que votre analyse soit lisible et
compréhensible sur GitLab.
Enfin, n'oubliez pas que nous vous fournissons dans les ressources de
ce MOOC une configuration avec un certain nombre de raccourcis
claviers permettant de créer rapidement les blocs de code python (en
faisant ~<p~, ~<P~ ou ~<PP~ suivi de ~Tab~).
Maintenant, à vous de jouer! Vous pouvez effacer toutes ces
informations et les remplacer par votre document computationnel.
#+begin_src python :results file :session :var matplot_lib_filename="fig6_python_org.png" :exports both
import pandas as pd
df = pd.read_csv("./data.csv", sep="\t")
df_ = df.dropna(subset=['job'])
import matplotlib.pyplot as plt
text = ' '.join(df_.state.tolist())
wordcloud = WordCloud(background_color="pink").generate(text)
# Display the generated image:
plt.figure(figsize=(15,8))
plt.imshow(wordcloud)
plt.axis("off")
plt.show()
plt.savefig(matplot_lib_filename)
#+end_src
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment