Première version de l'exercice évalué par les pairs

42c0ab7c · Thomas PEROT · 983d696c · 42c0ab7c
Commit 42c0ab7c authored Jun 12, 2023 by Thomas PEROT
Show whitespace changes
Inline Side-by-side

Showing with 268 additions and 16 deletions

exercice_fr.Rmd module3/exo3/exercice_fr.Rmd +268 -16

No files found.
--- a/module3/exo3/exercice_fr.Rmd
+++ b/module3/exo3/exercice_fr.Rmd
 ---
-title: "Votre titre"
-author: "Votre nom"
-date: "La date du jour"
-output: html_document
+title: "Concentration de CO2 dans l'atmosphère depuis 1958"
+author: "Thomas Pérot"
+date: "12 juin 2023"
+output: pdf_document
+editor_options: 
+  markdown: 
+    wrap: sentence
 ---

-
 ```{r setup, include=FALSE}
 knitr::opts_chunk$set(echo = TRUE)
 ```

-## Quelques explications
+## Introduction
+
+Dans ce document nous allons présenter et analyser des données d'évolution de la concentration en CO2 atmosphérique provenant
+du site de l'observatoire de Mauna Loa situé sur l'île d'Hawaï.
+
+*C. D. Keeling, S. C. Piper, R. B. Bacastow, M. Wahlen, T. P. Whorf, M. Heimann, and
+H. A. Meijer, Exchanges of atmospheric CO2 and 13CO2 with the terrestrial biosphere and
+oceans from 1978 to 2000.  I. Global aspects, SIO Reference Series, No. 01-06, Scripps
+Institution of Oceanography, San Diego, 88 pages, 2001.*
+
+## Chargement des données
+
+Les données sont disponibles sur le site suivant : [Scripps CO2 Program](https://scrippsco2.ucsd.edu/data/atmospheric_co2/primary_mlo_co2_record.html).
+
+Les premières 57 lignes du fichier donnent des informatins sur les données.
+Les lignes 2 à 19 indiquent l'encroit des mesures, la source des données et d'autres informations sur les données.
+Les lignes 23 à 37 indiquent comment citer les données.
+Les lignes 41 à 56 décrivent le tableau de données.
+
+Le tableau de données commence à la ligne 58 avec l'entête des colonnes.
+Ensuite il y a deux lignes qui sont des informations sur les colonnes, soit par rapport au format, soit par rapport à l'unité, soit sur comment ont été obtenues les valeurs.
+Les données commencent réellement à partir de la ligne 61 avec janvier 1958
+
+```{r}
+
+#data_url = "https://scrippsco2.ucsd.edu/assets/data/
+#atmospheric/stations/in_situ_co2/monthly/monthly_in_situ_co2_mlo.csv"
+data_csv = "monthly_in_situ_co2_mlo.csv"
+data = read.csv("monthly_in_situ_co2_mlo.csv",skip=57)
+head(data)
+
+```
+
+Dans un premier temps nous allons donc récuperer l'entête des colonnes, puis charger les données sans l'entête et renommer les colonnes conformément à l'entête.
+Enfin, la description du fichier nous indique que les valeurs -99.99 correspondent à des données manquantes.
+Nous allons les remplacer par des NA.
+
+```{r}
+header = read.csv("monthly_in_situ_co2_mlo.csv",skip=57,nrows=1)
+data = read.csv("monthly_in_situ_co2_mlo.csv",skip=60,header=FALSE)
+names(data)<-names(header)
+data[data==-99.99]<-NA
+
+na_records = apply(data, 1, function (x) {any(is.na(x))})
+data[na_records,]
+
+```
+
+**Premier problème rencontré** : les colonnes 3 et 4 sont des dates mais le format de la date n'est pas indiqué.
+Après recherche voici la description des quatre première colonne :
+
+-  colonne 1 : année ;
+-  colonne 2 : mois ;
+-  colonne 3 : date en nombre de jours depuis une origine (comme dans Excel). Date d'origine 1899-12-30 ;
+-  colonne 4 : date en année décimal.
+
+## Conversion des colonnes en date
+
+Nous allons convertir la colonne 3 en date en indiquant la date 1899-12-30 comme origine. 
+
+```{r}
+class(data$Date)
+data$Date<-as.Date(data$Date, origin = "1899-12-30")
+class(data$Date)
+head(data)
+tail(data)
+
+```
+
+Cette conversion renvoie le 15 du mois ce qui est conforme à la description dans le fichier "The monthly values have been adjusted to 24:00 hours on the 15th of each month"
+
+## Représentations graphique
+
+### Réprésentation de l'évolution de la concentration de CO2 atmosphérique en fonction du temps
+
+D'après la description des données contenu dans le fichier csv la colonne 5 CO2 correspond à la concentration 
+en CO2 : "Column 5 below gives monthly Mauna Loa CO2 concentrations in micro-mol CO2 per mole (ppm)".
+Ce ne sont pas des données brutes mais des données recalculées à une échelle mensuelle.
+
+
+```{r}
+plot(data$Date,data$CO2,type="l",main="",xlab="Date (month)",ylab="CO2 concentration (ppm)")
+mtext("Mauna Loa Observatory, Hawaii", side=3,line=2,cex=1.25,adj=0)
+mtext("Monthly average carbone dioxide concentration", side=3,line=1,cex=1.25,adj=0)
+mtext("Data from Scripps CO2 Program", side=3,lin=0,cex=.75,adj=0)
+
+```
+
+Nous voyons clairement deux structures dans les données, une forte tendance à l'augmentation au cours du temps et une oscillation des valeurs autour de cette tendance à une échelle intra-annuelle.

-Ceci est un document R markdown que vous pouvez aisément exporter au format HTML, PDF, et MS Word. Pour plus de détails sur R Markdown consultez <http://rmarkdown.rstudio.com>.
+## Caractérisation de l'oscillation périodique et de la tendance

-Lorsque vous cliquerez sur le bouton **Knit** ce document sera compilé afin de ré-exécuter le code R et d'inclure les résultats dans un document final. Comme nous vous l'avons montré dans la vidéo, on inclue du code R de la façon suivante:
+### Transformation des données en série temporelle

-```{r cars}
-summary(cars)
+Pour caractériser ces deux composantes, nous allons considérer les données comme une série temporelle.
+Nous allons transformer les données en un objet ts. Pour cela nous devons utiliser une série de données sans valeurs manquantes.
+Plutôt que la colonne 5 nous allons donc utiliser la colonne 9 "CO2.1" qui correspond aux mêmes données que la colonne 5
+mais où les données manquantes ont été remplacées en utilisant une "smoothed version of the data generated from a stiff cubic spline function plus 4-harmonic functions with linear gain". Cette procédure est décrite en détail dans le rapport cité en introduction de ce document.
+Nous pouvons le vérifier en superposant les données remplies et les données avec données manquantes : 
+
+```{r}
+plot(data$Date,data$CO2.1,type="l",main="",xlab="Date (month)",ylab="CO2 concentration (ppm)",col=2)
+mtext("Mauna Loa Observatory, Hawaii", side=3,line=2,cex=1.25,adj=0)
+mtext("Monthly average carbone dioxide concentration", side=3,line=1,cex=1.25,adj=0)
+mtext("Data from Scripps CO2 Program", side=3,lin=0,cex=.75,adj=0)
+points(data$Date,data$CO2,type="l",col=1)
+legend("topleft",c("CO2 data with NA","CO2 data filled"),lty=1,col=c(1,2),bty="n")
 ```

-Et on peut aussi aisément inclure des figures. Par exemple:
+Nous constatons qu'il y a très peu de données manquantes et qu'elles se situent toutes entre 1958 et 1964 (nous les avions déjà identifiées plus haut).

-```{r pressure, echo=FALSE}
-plot(pressure)
+```{r}
+plot(data$Date,data$CO2.1,type="l",main="",xlab="Date (month)",ylab="CO2 concentration (ppm)",col=2,
+     xlim=as.Date(c("1958-01-01","1970-01-01")),ylim=c(300,340))
+mtext("Mauna Loa Observatory, Hawaii", side=3,line=2,cex=1.25,adj=0)
+mtext("Monthly average carbone dioxide concentration", side=3,line=1,cex=1.25,adj=0)
+mtext("Data from Scripps CO2 Program", side=3,lin=0,cex=.75,adj=0)
+points(data$Date,data$CO2,type="l",col=1)
+legend("topleft",c("CO2 data with NA","CO2 data filled"),lty=1,col=c(1,2),bty="n")
 ```

-Vous remarquerez le paramètre `echo = FALSE` qui indique que le code ne doit pas apparaître dans la version finale du document. Nous vous recommandons dans le cadre de ce MOOC de ne pas utiliser ce paramètre car l'objectif est que vos analyses de données soient parfaitement transparentes pour être reproductibles. 
+Il nous faut également supprimer les premières et dernières données (manquantes)
+allant de janvier 1958 à février 1958 puis de juin 2023 à décembre 2023.
+
+```{r}
+data.trunc<-data[!is.na(data$CO2.1),]
+head(data.trunc[,c("Date","CO2","CO2.1")],10)
+tail(data.trunc[,c("Date","CO2","CO2.1")],10)
+```
+Nous pouvons maintenant transformer la colonne 9 en un objet ts.
+Nous commençons par trier les données pour être sûr que les lignes sont bien ordonnées selon la date.
+La série temporelle correspond à des données mensuelles sur plusieurs années.
+La première donnée est le mois de mars 1958. La fin est le mois de mai 2023.
+Nous créons notre objet ts en indiquant le début et la fréquence de la série.

-Comme les résultats ne sont pas stockés dans les fichiers Rmd, pour faciliter la relecture de vos analyses par d'autres personnes, vous aurez donc intérêt à générer un HTML ou un PDF et à le commiter.
+```{r}
+data.trunc<-data.trunc[order(data.trunc$Date),]
+data.ts<-ts(data=data.trunc$CO2.1,start=c(1958,3),frequency=12)
+plot(data.ts)
+```

-Maintenant, à vous de jouer! Vous pouvez effacer toutes ces informations et les remplacer par votre document computationnel.
+### Décomposition de la série temporelle
+La fonction stl du package stats permet de décomposer la série temporelle en utilisant un modèle loess pour ajuster la tendance.
+Nous avons fixé le paramètre s.window à 13 ce qui signifie que la fonction utilise une fenêtre de 13 annés consécutives pour estimer chaque valeur de la composante saisonnière. Nous avons préféré cela plutôt que la valeur par défaut ("periodic") qui considère que la composante saisonnière ne varie pas au cours du temps.
+La fonction renvoie la composante saisonnière, la tendance et les résidus.
+
+```{r}
+require(stats)
+#decom.stl<-stl(data.ts,s.window="periodic")
+decom.stl<-stl(data.ts,s.window=13)
+summary(decom.stl)
+plot(decom.stl)
+```
+
+### Caractérisation de la saisonalité
+
+Nous pouvons récupérer les différentes composantes de la série temporelle et représenter la seasonalité seule
+
+```{r}
+data.trunc$seasonSTL<-as.numeric(decom.stl[1]$time.series[,1])
+data.trunc$trendSTL<-as.numeric(decom.stl[1]$time.series[,2])
+data.trunc$residSTL<-as.numeric(decom.stl[1]$time.series[,3])
+
+plot(data.trunc$Date,data.trunc$seasonSTL,type="l",xlab="Date (month)",
+     ylab="CO2 concentration (ppm)",ylim=c(-4,4))
+mtext("Variation saisonnière de la concentration en CO2 (ppm)",line=1)
+mtext("hors tendance",line=0)
+```
+
+Nous pouvons également donner quelques statistiques de cette composante saisonnières.
+Dans une année le CO2 atmosphérique peut varier de `r round(min(data.trunc$seasonSTL),2)` ppm à `r round(max(data.trunc$seasonSTL),2)` ppm par rapport à la moyenne annuelle. L'écart-type de la composante saisonnière est de `r round(sd(data.trunc$seasonSTL),2)` ppm.
+Nous voyons sur le graphe précédent que cette variation intra-annuelle augmente au cours du temps.
+La variance de la composante saisonnière n'est pas constante au cours du temps.
+
+### Caractérisation de la tendance
+
+Nous pouvons superposer la tendance aux données brutes ce qui correspond au même type de données que la colonne 6 seasonally : "Column 6 gives the same data after a seasonal adjustment to remove the quasi-regular seasonal cycle"
+
+```{r}
+plot(data.trunc$Date,data.trunc$CO2.1,type="l",main="",xlab="Date (month)",ylab="CO2 concentration (ppm)")
+mtext("Mauna Loa Observatory, Hawaii", side=3,line=2,cex=1.25,adj=0)
+mtext("Monthly average carbone dioxide concentration", side=3,line=1,cex=1.25,adj=0)
+mtext("Data from Scripps CO2 Program", side=3,lin=0,cex=.75,adj=0)
+points(data.trunc$Date,data.trunc$seasonally,col="red",type="l")
+points(data.trunc$Date,data.trunc$trendSTL,col="blue",type="l")
+legend("topleft",c("CO2 concentration","Column seasonally from file","Trend from stl function"),lty=1,col=c(1,"red","blue"),bty="n")
+
+```
+
+En zoomant nous voyons que la tendance que nous obtenons correspond à un lissage plus fort que la colonne 6.
+Les méthodes utilisées ne sont pas les mêmes.
+
+```{r}
+
+plot(data.trunc$Date,data.trunc$CO2.1,type="l",main="",xlab="Date (month)",
+     ylab="CO2 concentration (ppm)",xlim=as.Date(c("1980-01-01","1990-01-01")),
+     ylim=c(330,360))
+mtext("Mauna Loa Observatory, Hawaii", side=3,line=2,cex=1.25,adj=0)
+mtext("Monthly average carbone dioxide concentration", side=3,line=1,cex=1.25,adj=0)
+mtext("Data from Scripps CO2 Program", side=3,lin=0,cex=.75,adj=0)
+points(data.trunc$Date,data.trunc$seasonally,col="red",type="l")
+points(data.trunc$Date,data.trunc$trendSTL,col="blue",type="l")
+legend("topleft",c("CO2 concentration","Column seasonally from file","Trend from stl function"),lty=1,col=c(1,"red","blue"),bty="n")
+
+```
+
+### Modélisatin de la tendance
+
+Lorsque l'on zoom sur les données, un modèle linéaire semble convenir pour représenter la tendance d'augmentation du CO2 dans le temps.
+Cependant en observant l'ensemble des données il apparaît clairement que la concentration de CO2 augmente de plus en plus vite.
+Un premier modèle simple pourrait être d'ajuster un modèle linéaire ayant une composante linéaire et une composante quadratique.
+Pour simplifier nous allons ajuster ce modèle sur la tendance extraite précédemment.
+
+
+```{r}
+data.trunc$time<-as.numeric(data.trunc$Date)
+head(data.trunc)
+
+modeleSimple0<-lm(data=data.trunc, trendSTL ~ time + I((time)^2))
+
+data.trunc$modeleSimple0Fit<-fitted(modeleSimple0)
+data.trunc$modeleSimple0Res<-resid(modeleSimple0)
+
+par(mfrow=c(1,2))
+plot(data.trunc$Date,data.trunc$trendSTL,type="l",main="",xlab="Date (month)",ylab="CO2 concentration (ppm)")
+mtext("Modèle simple", side=3,line=2,cex=0.75,adj=0)
+mtext("Valeur ajustée", side=3,line=1,cex=0.75,adj=0)
+points(data.trunc$Date,data.trunc$modeleSimple0Fit,col="blue",type="l")
+legend("topleft",c("tendance","tendance ~ time + time^2"),lty=1,col=c("black","blue"),bty="n",cex=0.75)
+plot(data.trunc$Date,data.trunc$modeleSimple0Res,type="l",main="",xlab="Date (month)",ylab="CO2 concentration (ppm)")
+mtext("Modèle simple", side=3,line=2,cex=0.75,adj=0)
+mtext("Résidus", side=3,line=1,cex=0.75,adj=0)
+abline(h=0)
+```
+ce modèle est simpliste car par exemple nous n'avons pas tenu compte des observations répétées par années, c'est à dire de la présence de pseudoréplications, ni de l'autocorrélation temporelle.
+Néanmoins, même s'il n'est pas parfait, ce modèle très simple semble bien convenir aux données.
+
+### Prédiction jusqu'en 2025 à l'aide du modèle simple
+
+
+```{r}
+data.trunc$time<-as.numeric(data.trunc$Date)
+myNewData<-data.frame(time=as.numeric(seq.Date(from=as.Date("1958-03-15"),to=as.Date("2025-12-15"),by="month")))
+predictions<-data.frame(predict.lm(modeleSimple0,myNewData,interval="prediction",type="response"))
+myNewData<-cbind(myNewData,predictions)
+plot(data.trunc$Date,data.trunc$trendSTL,type="l",main="",xlab="Date (month)",
+     ylab="CO2 concentration (ppm)",col="red",xlim=as.Date(c("2000-01-01","2026-01-01")),
+     ylim=c(360,440))
+points(myNewData$time,myNewData$fit,col=1,type="l")
+points(myNewData$time,myNewData$lwr,col=1,type="l",lty=2)
+points(myNewData$time,myNewData$upr,col=1,type="l",lty=2)
+legend("topleft",c("tendance observée","valeurs prédites","intervalle de confiance des prédictions"),col=c("red","black","black"),lty=c(1,1,2),bty="n",cex=0.75)
+
+```
+
+```{r}
+modeleSimple0<-lm(data=data.trunc, CO2.1 ~ time + I((time)^2))
+
+data.trunc$modeleSimple0Fit<-fitted(modeleSimple0)
+data.trunc$modeleSimple0Res<-resid(modeleSimple0)
+
+par(mfrow=c(1,2))
+plot(data.trunc$Date,data.trunc$CO2.1,type="l",main="",xlab="Date (month)",ylab="CO2 concentration (ppm)")
+mtext("Mauna Loa Observatory, Hawaii", side=3,line=2,cex=1.25,adj=0)
+mtext("Monthly average carbone dioxide concentration", side=3,line=1,cex=1.25,adj=0)
+mtext("Data from Scripps CO2 Program", side=3,lin=0,cex=.75,adj=0)
+points(data.trunc$Date,data.trunc$modeleSimple0Fit,col="blue",type="l")
+legend("topleft",c("modèle simple CO2 ~ time + time^2"),lty=1,col="blue",bty="n")
+plot(data.trunc$Date,data.trunc$modeleSimple0Res,type="l",main="",xlab="Date (month)",ylab="CO2 concentration (ppm)")
+abline(h=0)
+```