# Concentration de CO2 dans l'atmosphère depuis 1958

In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import isoweek

 Les données sont disponibles du site Web du [l'Institut Scripps](https://scrippsco2.ucsd.edu/data/atmospheric_co2/primary_mlo_co2_record.html). Nous les récupérons sous forme d'un fichier en format CSV dont chaque ligne correspond à une semaine de la période demandée. Nous téléchargeons toujours le jeu de données complet, qui commence en 1991 et se termine avec une semaine récente.

In [2]:
data_url = "https://scrippsco2.ucsd.edu/assets/data/atmospheric/stations/in_situ_co2/monthly/monthly_in_situ_co2_mlo.csv"

Pour nous protéger contre une éventuelle disparition ou modification du serveur du Réseau Sentinelles, nous faisons une copie locale de ce jeux de données que nous préservons avec notre analyse. Il est inutile et même risquée de télécharger les données à chaque exécution, car dans le cas d'une panne nous pourrions remplacer nos données par un fichier défectueux. Pour cette raison, nous téléchargeons les données seulement si la copie locale n'existe pas.

In [3]:
data_file = "concentration-co2.csv"

import os
import urllib.request
if not os.path.exists(data_file):
    urllib.request.urlretrieve(data_url, data_file)

Le fichier de données contient 10 colonnes :  
1. Les colonnes 1 à 4 indiquent les dates dans plusieurs formats redondants. 
2. La colonne 5 ci-dessous indique les concentrations mensuelles de CO2 du Mauna Loa en micromoles de CO2 par mole (ppm), rapportées sur l'échelle de fraction molaire manométrique SIO 2008A. Il s'agit de la version standard des données les plus recherchées. Les valeurs mensuelles ont été ajustées à minuit le 15 de chaque mois.   
3. La colonne 6 donne les mêmes données après un ajustement saisonnier pour supprimer le cycle saisonnier quasi régulier. L'ajustement consiste à soustraire des données un ajustement à 4 harmoniques avec un facteur de gain linéaire.   
4. La colonne 7 est une version lissée des données générées à partir d'une fonction spline cubique rigide et de fonctions 4 harmoniques avec gain linéaire.   
5. La colonne 8 est la même version lissée avec le cycle saisonnier supprimé.   
6. La colonne 9 est identique à la colonne 5, sauf que les valeurs manquantes de la colonne 5 ont été remplies avec des valeurs de la colonne 7.   
7. La colonne 10 est identique à la colonne 6, sauf que les valeurs manquantes ont été remplies avec des valeurs de la colonne 8.   

Les valeurs manquantes sont indiquées par -99,99  

Les 54 premières lignes du fichier CSV est un commentaire, que nous ignorons en précisant `skiprows=54`.

In [9]:
raw_data = pd.read_csv(data_file, skiprows=54)
raw_data

Unnamed: 0,Yr,Mn,Date,Date.1,CO2,seasonally,fit,seasonally.1,CO2.1,seasonally.2
0,,,,,,adjusted,,adjusted fit,filled,adjusted filled
1,,,Excel,,[ppm],[ppm],[ppm],[ppm],[ppm],[ppm]
2,1958,01,21200,1958.0411,-99.99,-99.99,-99.99,-99.99,-99.99,-99.99
3,1958,02,21231,1958.1260,-99.99,-99.99,-99.99,-99.99,-99.99,-99.99
4,1958,03,21259,1958.2027,315.70,314.44,316.19,314.91,315.70,314.44
5,1958,04,21290,1958.2877,317.45,315.16,317.30,314.99,317.45,315.16
6,1958,05,21320,1958.3699,317.51,314.71,317.86,315.06,317.51,314.71
7,1958,06,21351,1958.4548,-99.99,-99.99,317.24,315.14,317.24,315.14
8,1958,07,21381,1958.5370,315.86,315.19,315.86,315.22,315.86,315.19
9,1958,08,21412,1958.6219,314.93,316.19,314.00,315.29,314.93,316.19


Vérifions si nous avons des points manquants dans ce jeu de données.

In [5]:
raw_data[raw_data.isnull().any(axis=1)]

Unnamed: 0,Yr,Mn,Date,Date.1,CO2,seasonally,fit,seasonally.1,CO2.1,seasonally.2


In [6]:
data = raw_data.dropna().copy()
data

Unnamed: 0,Yr,Mn,Date,Date.1,CO2,seasonally,fit,seasonally.1,CO2.1,seasonally.2
0,,,,,,adjusted,,adjusted fit,filled,adjusted filled
1,,,Excel,,[ppm],[ppm],[ppm],[ppm],[ppm],[ppm]
2,1958,01,21200,1958.0411,-99.99,-99.99,-99.99,-99.99,-99.99,-99.99
3,1958,02,21231,1958.1260,-99.99,-99.99,-99.99,-99.99,-99.99,-99.99
4,1958,03,21259,1958.2027,315.70,314.44,316.19,314.91,315.70,314.44
5,1958,04,21290,1958.2877,317.45,315.16,317.30,314.99,317.45,315.16
6,1958,05,21320,1958.3699,317.51,314.71,317.86,315.06,317.51,314.71
7,1958,06,21351,1958.4548,-99.99,-99.99,317.24,315.14,317.24,315.14
8,1958,07,21381,1958.5370,315.86,315.19,315.86,315.22,315.86,315.19
9,1958,08,21412,1958.6219,314.93,316.19,314.00,315.29,314.93,316.19


In [7]:
sorted_data['inc'].plot()

NameError: name 'sorted_data' is not defined