Exo 4 module 2

877349e3 · Marc Oudart · 5d4d184a · 877349e3 · 877349e3
Commit 877349e3 authored Apr 07, 2020 by Marc Oudart
Hide whitespace changes
Inline Side-by-side

Showing with 224 additions and 0 deletions

Book1.csv module2/exo4/Book1.csv +43 -0

Calcul_téléphone.Rmd module2/exo4/Calcul_téléphone.Rmd +181 -0

No files found.
--- a/module2/exo4/Book1.csv
+++ b/module2/exo4/Book1.csv
+Date;Appels_emis;Appels_recus;Duree_appel;Messages_recus;Messages_envoyes
+25/02/2020;0;0;0;6;4
+26/02/2020;1;1;5;3;4
+27/02/2020;0;0;0;3;2
+28/02/2020;0;0;0;0;0
+29/02/2020;3;1;3470;1;0
+01/03/2020;1;1;141;15;7
+02/03/2020;2;0;12;2;4
+03/03/2020;1;1;54;2;3
+04/03/2020;0;1;36;10;9
+05/03/2020;0;0;0;4;4
+06/03/2020;0;0;0;4;1
+07/03/2020;1;0;53;5;2
+08/03/2020;1;0;2327;0;0
+09/03/2020;0;0;0;10;4
+10/03/2020;0;1;0;10;8
+11/03/2020;0;0;0;3;2
+12/03/2020;0;1;0;4;1
+13/03/2020;0;0;0;9;13
+14/03/2020;0;0;0;9;8
+15/03/2020;6;1;3240;15;20
+16/03/2020;8;9;2382;17;15
+17/03/2020;8;0;1426;14;4
+18/03/2020;7;2;2760;6;2
+19/03/2020;1;0;18;2;1
+20/03/2020;2;2;2345;2;0
+21/03/2020;0;1;216;1;1
+22/03/2020;0;0;0;0;0
+23/03/2020;0;1;337;12;7
+24/03/2020;0;1;1280;0;0
+25/03/2020;3;0;1845;8;7
+26/03/2020;2;1;989;1;0
+27/03/2020;1;0;1577;0;0
+28/03/2020;0;0;0;0;0
+29/03/2020;0;3;439;0;0
+30/03/2020;5;2;2995;0;0
+31/03/2020;0;2;1520;0;0
+01/04/2020;0;1;555;2;1
+02/04/2020;0;0;0;1;0
+03/04/2020;1;5;817;2;2
+04/04/2020;2;4;2282;1;0
+05/04/2020;0;0;0;6;7
+06/04/2020;0;0;0;0;0
--- a/module2/exo4/Calcul_téléphone.Rmd
+++ b/module2/exo4/Calcul_téléphone.Rmd
+---
+title: "Exo4 module 2"
+author: "Marc"
+date: "07/04/2020"
+output: html_document
+---
+
+```{r setup, include=FALSE}
+knitr::opts_chunk$set(echo = TRUE)
+```
+
+## L'étude
+Cette étude consiste à évaluer mon usage du téléphone depuis le 25 février 2020 pour établir un lien entre la mise en place du confinement le 17 mars 2020 et mon usage téléphonique.
+
+## Le fichier de données
+Le fichier de données ci-après est une table représentant différents paramètres chaque jour depuis le 25/02/2020 :   
+- Le nombre d'appels émis : Appels\_emis  
+- Le nombre d'appels reçus : Appels\_recus (Comprends aussi les appels manqués)  
+- La durée totale des appels de la journée en seconde : Duree\_appels  
+- Le nombre de messages reçus : Messages\_recus  
+- Le nombre de messages envoyés : Messages\_envoyes  
+  
+Le fichier peut être importé comme ceci :  
+```{r}
+df<-read.csv("C:/Users/Marc/Desktop/MOOC/mooc-rr/module2/exo4/Book1.csv", sep = ";")
+head(df)
+```
+
+## L'analyse de l'usage téléphonique
+
+Tout d'abord on peut plotter les différents paramètres au cours du temps pour se donner un aperçu de mon usage :  
+  
+1. Les appels émis  
+```{r}
+barplot(df$Appels_emis, names.arg = df$ï..Date)
+```
+Les dates sont mal positionnées mais c'est pas grave. Il semble que j'ai beaucoup appelé autour de la date du 17 mars.  
+  
+2. Appels reçus  
+```{r}
+barplot(df$Appels_recus, names.arg = df$ï..Date)
+```
+Il semble que j'ai reçu beaucoup d'appels la veille du 17 mars puis que j'ai reçu + d'appels en général après cette période qu'avant.  
+  
+3. Durée appel  
+```{r}
+barplot(df$Duree_appel, names.arg = df$ï..Date)
+```
+Là c'est très voyant. J'ai passé beaucoup de temps au téléphone après le 16 mars comparé à avant (sauf 2 fois).  
+  
+4. Messages reçus  
+```{r}
+barplot(df$Messages_recus, names.arg = df$ï..Date)
+```
+  
+5. Messages envoyés  
+```{r}
+barplot(df$Messages_envoyes, names.arg = df$ï..Date)
+```
+Pour les messages, la tendance est inverse aux appels : je reçois et envoie - de sms depuis le 17 mars comparé à avant.  
+J'ai eput être changé mon usage de l'un à l'autre.  
+Sauf autour du 16-17 mars où j'ai beaucoup communiqué.  
+
+### Représentation des moyennes avant et après le 17 mars
+Je vais rajouté une colonne pour indiqué avant ou après le 17 mars.  
+```{r}
+add<-c(rep("avant",21), rep("après",21))
+df$add<-add
+```
+Oui je sais c'est vraiment nul mais en gros je sais qu'il y a 42 lignes dans mon tableau (je peux le vérifier avec `length(df$Appels_emis)` par exemple) et que le 17 mars est la 22ème ligne.  
+J'ai donc ajouté 21 fois "avant" et 21 fois "après" sur une colonne dans mon data frame df.  
+  
+  
+Maintenant on va pouvoir calculer les moyennes des paramètres avant et après (inclus) le 17 mars 2020.  
+```{r}
+m_appels_emis<-c(mean(df$Appels_emis[df$add=="avant"]), mean(df$Appels_emis[df$add=="après"]))
+m_appels_recus<-c(mean(df$Appels_recus[df$add=="avant"]), mean(df$Appels_recus[df$add=="après"]))
+m_duree_appel<-c(mean(df$Duree_appel[df$add=="avant"]), mean(df$Duree_appel[df$add=="après"]))
+m_messages_recus<-c(mean(df$Messages_recus[df$add=="avant"]), mean(df$Messages_recus[df$add=="après"]))
+m_messages_envoyes<-c(mean(df$Messages_envoyes[df$add=="avant"]), mean(df$Messages_envoyes[df$add=="après"]))
+m_appels_emis
+m_appels_recus
+m_messages_recus
+m_messages_envoyes
+```
+Et les écarts-types :  
+```{r}
+sd_appels_emis<-c(sd(df$Appels_emis[df$add=="avant"]), sd(df$Appels_emis[df$add=="après"]))
+sd_appels_recus<-c(sd(df$Appels_recus[df$add=="avant"]), sd(df$Appels_recus[df$add=="après"]))
+sd_duree_appel<-c(sd(df$Duree_appel[df$add=="avant"]), sd(df$Duree_appel[df$add=="après"]))
+sd_messages_recus<-c(sd(df$Messages_recus[df$add=="avant"]), sd(df$Messages_recus[df$add=="après"]))
+sd_messages_envoyes<-c(sd(df$Messages_envoyes[df$add=="avant"]), sd(df$Messages_envoyes[df$add=="après"]))
+sd_appels_emis
+sd_appels_recus
+sd_messages_recus
+sd_messages_envoyes
+```
+
+  
+Maintenant on va pouvoir plotter les moyennes de tous les paramètres avant et après (inclus) le 17 mars 2020.  
+Le mieux c'est d'utiliser ggplot.   
+```{r}
+install.packages(ggplot)
+library(ggplot2)
+a<-data.frame(m_appels_emis, sd_appels_emis, c("aa", "ap"))
+ggplot(a, aes(x = a$c..aa....ap.., y = m_appels_emis))+
+    geom_bar(stat = "identity")+
+    geom_errorbar(ymin = a$m_appels_emis-a$sd_appels_emis, ymax = a$m_appels_emis+a$sd_appels_emis)+ 
+    ylim(-1,4)+
+    labs(title="Appels émis")
+```
+```{r}
+b<-data.frame(m_appels_recus, sd_appels_recus, c("aa", "ap"))
+ggplot(b, aes(x = b$c..aa....ap.., y = b$m_appels_recus))+
+    geom_bar(stat = "identity")+
+    geom_errorbar(ymin = b$m_appels_recus-b$sd_appels_recus, ymax = b$m_appels_recus+b$sd_appels_recus)+ 
+    ylim(-1,3)+
+    labs(title="Appels recus")
+```
+```{r}
+c<-data.frame(m_duree_appel, sd_duree_appel, c("aa", "ap"))
+ggplot(c, aes(x = c$c..aa....ap.., y = c$m_duree_appel))+
+    geom_bar(stat = "identity")+
+    geom_errorbar(ymin = c$m_duree_appel-c$sd_duree_appel, ymax = c$m_duree_appel+c$sd_duree_appel)+ 
+    ylim(-500,2000)+
+    labs(title="Duree appel")
+```
+```{r}
+d<-data.frame(m_messages_envoyes, sd_messages_envoyes, c("aa", "ap"))
+ggplot(d, aes(x = d$c..aa....ap.., y = d$m_messages_envoyes))+
+    geom_bar(stat = "identity")+
+    geom_errorbar(ymin = d$m_messages_envoyes-d$sd_messages_envoyes, ymax = d$m_messages_envoyes+d$sd_messages_envoyes)+ 
+    ylim(0,12)+
+    labs(title="Messages envoyes")
+```
+```{r}
+e<-data.frame(m_messages_recus, sd_messages_recus, c("aa", "ap"))
+ggplot(e, aes(x = e$c..aa....ap.., y = e$m_messages_recus))+
+    geom_bar(stat = "identity")+
+    geom_errorbar(ymin = e$m_messages_recus-e$sd_messages_recus, ymax = e$m_messages_recus+e$sd_messages_recus)+ 
+    ylim(-2,12)+
+    labs(title="Messages recus")
+```
+
+__Bilan : On voit des augmentations dans les appels et une diminution dans les messages mais les écarts types sont énormes__  
+  
+A mon avis, rien n'est significatif mais on peut s'entrainer sur un cas.  
+Comme il n'y a que 21 valeurs dans chaque groupe, je ne peux pas appliquer le théorème central limite. Je vais donc vérifier la distribution normale de chaque groupe ainsi que l'égalité des variances pour voir quel test statistique appliqué.  
+Prenons comme exemple la durée de l'appel.  
+```{r}
+shapiro.test(df$Duree_appel[df$add=="avant"])
+shapiro.test(df$Duree_appel[df$add=="après"])
+```
+Les tests de Shapiro-Wilk sont significatifs donc les distributions ne sont pas normales.  
+Utilisation de tests non paramétriques type Mann-Whitney :  
+```{r}
+wilcox.test(df$Duree_appel[df$add=="avant"],df$Duree_appel[df$add=="après"])
+```
+Ah ben en fait la durée des appels a significativement augmentée après le 17 mars 2020. Je ne suis pas super fort en statistiques donc j'espère que c'est correct. Aussi, 21 échantillons par groupe c'est pas mal pour un test non paramétrique.  
+  
+
+
+### Taux de réponses
+
+Cette partie c'est juste pour voir si je répond autant aux messages qu'on m'en envoie.  
+```{r}
+Ratio<-df$Messages_recus/df$Messages_envoyes
+#Remplacement des NaN et inf (division par 0) en 0.
+Ratio[is.na(Ratio)]<-0
+Ratio[is.infinite(Ratio)]<-0
+barplot(Ratio)
+```
+```{r}
+mean(Ratio)
+```
+En moyenne c'est assez équilibré : je réponds autant de fois qu'on m'envoie un message.  
+
+## Conclusion
+
+__J'ai passé pas mal de temps à faire ça mais ça m'a permis de bien prendre en main l'outil.  
+Je conçois que mon étude est assez sale et que les manières de plotter ne sont vraiment pas optimisées mais ce n'était pas vraiment le but de l'exercice.__