Skip to content
Projects
Groups
Snippets
Help
Loading...
Help
Submit feedback
Contribute to GitLab
Sign in
Toggle navigation
M
mooc-rr-ressources
Project
Project
Details
Activity
Releases
Cycle Analytics
Repository
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
Issues
0
Issues
0
List
Board
Labels
Milestones
Merge Requests
4
Merge Requests
4
Wiki
Wiki
Snippets
Snippets
Members
Members
Collapse sidebar
Close sidebar
Activity
Graph
Charts
Create a new issue
Commits
Issue Boards
Open sidebar
Learning Lab
mooc-rr-ressources
Commits
6e9e8554
Commit
6e9e8554
authored
Sep 02, 2018
by
Marie-Gabrielle Dondon
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
typo
parent
539bc8c4
Changes
1
Show whitespace changes
Inline
Side-by-side
Showing
1 changed file
with
17 additions
and
17 deletions
+17
-17
stat_activity.org
module2/exo4/stat_activity.org
+17
-17
No files found.
module2/exo4/stat_activity.org
View file @
6e9e8554
...
...
@@ -15,7 +15,7 @@ temps que je passe à faire telle ou telle chose. Ça tombe bien car je
n'
aime
pas
vraiment
suivre
pr
é
cis
é
ment
et
quotidiennement
le
temps
que
je
passe
à
faire
telle
ou
telle
chose
.
Par
contre
,
comme
vous
avez
pu
le
voir
dans
une
des
vid
é
os
de
ce
module
,
je
note
beaucoup
d
'information dans mon journal et j'
é
tiquette
(
quand
j
'y pense) ces
d
'information
s
dans mon journal et j'
é
tiquette
(
quand
j
'y pense) ces
informations. Je me suis dit qu'
il
pourrait
ê
tre
int
é
ressant
de
voir
si
l
'évolution de l'
utilisation
de
ces
é
tiquettes
r
é
v
é
lait
quelque
chose
sur
mes
centres
d
'intérêts professionnels. Je ne compte pas en
...
...
@@ -36,7 +36,7 @@ Je vais donc chercher à extraire les lignes comportant trois ~*~ en
début de ligne et celles commençant par une ~*~ et terminant par des
mots-clés (des ~:~ suivis éventuellement d'
un
espace
).
L
'expression
régulière n'
est
pas
forc
é
ment
parfaite
mais
ç
a
me
donne
une
premi
è
re
id
é
e
de
ce
que
j
'aurai
s
besoin de faire en terme de remise en forme.
id
é
e
de
ce
que
j
'aurai besoin de faire en terme de remise en forme.
#+begin_src shell :results output :exports both :eval never-export
grep -e '
^\*\*\*
' -e '
^\*.*:.*:
*$
' ~/org/journal.org | tail -n 20
...
...
@@ -67,9 +67,9 @@ grep -e '^\*\*\* ' -e '^\*.*:.*: *$' ~/org/journal.org | tail -n 20
#+
end_example
OK
,
je
suis
sur
la
bonne
voie
.
Je
vois
qu
'il y a pas mal d'
entr
é
es
sans
annotation
s
.
Tant
pis
.
Il
y
a
aussi
souvent
plusieurs
mots
-
cl
é
s
sans
annotation
.
Tant
pis
.
Il
y
a
aussi
souvent
plusieurs
mots
-
cl
é
s
pour
une
m
ê
me
date
et
pour
pouvoir
bien
rajouter
la
date
du
jour
en
face
de
chaque
mot
s
-
cl
é
s
,
je
vais
essayer
un
vrai
langage
plut
ô
t
que
face
de
chaque
mot
-
cl
é
,
je
vais
essayer
un
vrai
langage
plut
ô
t
que
d
'essayer de faire ça à coup de commandes shell. Je suis de l'
ancienne
g
é
n
é
ration
donc
j
'ai plus l'
habitude
de
perl
que
de
python
pour
ce
genre
de
choses
.
Curieusement
,
ç
a
s
'écrit bien plus facilement (ça m'
a
...
...
@@ -100,7 +100,7 @@ while(defined($line=<INPUT>)) {
#+
RESULTS
:
V
é
rifions
à
quoi
ressemble
le
r
é
sultat
:
V
é
rifions
à
quoi
ressemble
le
r
é
sultat
:
#+
begin_src
shell
:
results
output
:
exports
both
head
org_keywords
.
csv
echo
"..."
...
...
@@ -132,12 +132,12 @@ Date,Keyword
2018
-
06
-
26
,
INRIA
#+
end_example
C
'est parfait!
C
'est parfait
!
* Statistiques de base
Je suis bien plus à l'
aise
avec
R
qu
'avec python. J'
utiliserai
les
package
du
tidyverse
d
è
s
que
le
besoin
s
'en fera sentir. Commençons
par lire ces données:
par lire ces données
:
#+begin_src R :results output :session *R* :exports both
library(lubridate) # à installer via install.package("tidyverse")
library(dplyr)
...
...
@@ -169,7 +169,7 @@ The following objects are masked from ‘package:base’:
intersect, setdiff, setequal, union
#+end_example
Alors, à quoi ressemblent ces données:
Alors, à quoi ressemblent ces données
:
#+begin_src R :results output :session *R* :exports both
str(df)
summary(df)
...
...
@@ -191,7 +191,7 @@ summary(df)
(Other) :537 (Other) :271
#+end_example
Les types ont l'
air
correct
,
568
entr
é
es
,
tout
va
bien
.
Les types ont l'
air
correct
s
,
568
entr
é
es
,
tout
va
bien
.
#+
begin_src
R
:
results
output
:
session
*
R
*
:
exports
both
df
%>%
group_by
(
Keyword
,
Year
)
%>%
summarize
(
Count
=
n
())
%>%
ungroup
()
%>%
arrange
(
Keyword
,
Year
)
->
df_summarized
...
...
@@ -216,7 +216,7 @@ df_summarized
#
...
with
110
more
rows
#+
end_example
Commen
ç
ons
par
compter
combien
d
'annotation je fais par an.
Commen
ç
ons
par
compter
combien
d
'annotation
s
je fais par an.
#+begin_src R :results output :session *R* :exports both
df_summarized_total_year = df_summarized %>% group_by(Year) %>% summarize(Cout=sum(Count))
df_summarized_total_year
...
...
@@ -287,15 +287,15 @@ df_summarized %>% group_by(Keyword) %>% summarize(Count=sum(Count)) %>% arrange
36
WP4
77
#+
end_example
OK
,
par
la
suite
,
je
me
restraindrai
probablement
ceux
qui
OK
,
par
la
suite
,
je
me
restraindrai
probablement
à
ceux
qui
apparaissent
au
moins
trois
fois
.
*
Repr
é
sentations
graphiques
Pour
bien
faire
,
il
faudrait
que
je
mette
une
s
é
mantique
et
une
hi
é
rarchie
sur
ces
mots
-
cl
é
s
mais
je
manque
de
temps
l
à
.
Comme
j
'enlève les mots-clés peu fréquents, je vais quand même aussi
rajouter le nombre total de mots-clé pour avoir une idée de ce que
j'
ai
perdu
.
Tentons
une
premi
è
re
repr
é
sentation
graphique
:
rajouter le nombre total de mots-clé
s
pour avoir une idée de ce que
j'
ai
perdu
.
Tentons
une
premi
è
re
repr
é
sentation
graphique
:
#+
begin_src
R
:
results
output
graphics
:
file
barchart1
.
png
:
exports
both
:
width
600
:
height
400
:
session
*
R
*
library
(
ggplot2
)
df_summarized
%>%
filter
(
Count
>
3
)
%>%
...
...
@@ -309,7 +309,7 @@ df_summarized %>% filter(Count > 3) %>%
[[
file
:
barchart1
.
png
]]
Aouch
.
C
'est illisible avec une telle palette de couleurs mais vu
qu'
il
y
a
beaucoup
de
valeurs
diff
é
ren
c
es
,
difficile
d
'utiliser une
qu'
il
y
a
beaucoup
de
valeurs
diff
é
ren
t
es
,
difficile
d
'utiliser une
palette plus discriminante. Je vais quand même essayer rapidement
histoire de dire... Pour ça, j'
utiliserai
une
palette
de
couleur
(
"Set1"
)
o
ù
les
couleurs
sont
toutes
bien
diff
é
rentes
mais
elle
n
'a
...
...
@@ -339,16 +339,16 @@ l'outil. L'augmentation de la partie ~Seminar~ ne signifie pas grand
chose car ce n'
est
que
r
é
cemment
que
j
'ai commencé à étiqueter
systématiquement les notes que je prenais quand j'
assiste
à
un
expos
é
.
Les
é
tiquettes
sur
~
WP
~
ont
trait
à
la
terminologie
d
'un ancien
projet ANR que j'
ai
continu
er
à
utiliser
(~
WP4
~
=
pr
é
diction
de
projet ANR que j'
ai
continu
é
à
utiliser
(~
WP4
~
=
pr
é
diction
de
performance
HPC
,
~
WP7
~
=
analyse
et
visualisation
,
~
WP8
~
=
plans
d
'expérience et moteurs d'
exp
é
rimentation
,
...).
Le
fait
que
~
WP4
~
d
'expérience et moteurs d'
exp
é
rimentation
...).
Le
fait
que
~
WP4
~
diminue
est
plut
ô
t
le
fait
que
les
informations
à
ce
sujet
sont
maintenant
plut
ô
t
les
journaux
de
mes
doctorants
qui
r
é
alisent
vraiment
les
choses
que
je
ne
fais
que
superviser
.
Bon
,
une
analyse
de
ce
genre
ne
serait
pas
digne
de
ce
nom
sans
un
/
wordcloud
/
(
souvent
illisible
,
mais
tellement
sexy
! \smiley). Pour ça, je
m
'inspire librement de ce post:
m
'inspire librement de ce post
:
http://onertipaday.blogspot.com/2011/07/word-cloud-in-r.html
#+begin_src R :results output graphics :file wordcloud.png :exports both :width 600 :height 400 :session *R*
...
...
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment