# Concentration de $CO_2$ dans l'atmosphère depuis 1958

Nous étudions l'évolution de la concentration de $CO_2$ dans l'atmosphère depuis 1958 à partir des données de l'[Institut Scripps](https://scrippsco2.ucsd.edu/data/atmospheric_co2/primary_mlo_co2_record.html). L'étude a été réalisée avec les données au 23 octobre 2020. 

## Chargement et pré-traitement du jeu de données

On importe les librairies python adéquates pour étudier le jeu de données, disponible au format CSV.

In [2]:
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd

Le jeu de données sont récupérées sur le site de l'institut Scripps, les données recouvrent la période de janvier 1958 à décembre 2020.

In [4]:
data_url = "https://scrippsco2.ucsd.edu/assets/data/atmospheric/stations/in_situ_co2/monthly/monthly_in_situ_co2_mlo.csv"

Les 53 premières lignes sont une présentation du jeu de données, on les passe pour ne traiter que le jeu de données à proprement parler. Voici ci-dessous un extrait de ce jeu de données.

In [41]:
raw_data = pd.read_csv(data_url, skiprows=54)
raw_data

Unnamed: 0,Yr,Mn,Date,Date.1,CO2,seasonally,fit,seasonally.1,CO2.1,seasonally.2
0,,,,,,adjusted,,adjusted fit,filled,adjusted filled
1,,,Excel,,[ppm],[ppm],[ppm],[ppm],[ppm],[ppm]
2,1958,01,21200,1958.0411,-99.99,-99.99,-99.99,-99.99,-99.99,-99.99
3,1958,02,21231,1958.1260,-99.99,-99.99,-99.99,-99.99,-99.99,-99.99
4,1958,03,21259,1958.2027,315.70,314.44,316.18,314.90,315.70,314.44
5,1958,04,21290,1958.2877,317.45,315.16,317.29,314.98,317.45,315.16
6,1958,05,21320,1958.3699,317.51,314.71,317.86,315.06,317.51,314.71
7,1958,06,21351,1958.4548,-99.99,-99.99,317.24,315.14,317.24,315.14
8,1958,07,21381,1958.5370,315.86,315.19,315.86,315.21,315.86,315.19
9,1958,08,21412,1958.6219,314.93,316.19,313.99,315.28,314.93,316.19


On vérifie les clés de la table:

In [42]:
raw_data.keys()


Index(['  Yr', ' Mn', '    Date', '      Date', '     CO2', 'seasonally',
       '        fit', '  seasonally', '      CO2', ' seasonally'],
      dtype='object')

On constate des espaces intempestifs dans le nom des clés, il faudra les prendre en compte pour les requetes. on observe également que quand certaines données sont manquantes, la valeur -99,99 est mise à la place. On va donc filtrer les lignes où les valeurs sont manquantes pour le taux de CO2.

In [43]:
raw_data[raw_data['     CO2'] == '     -99.99']

Unnamed: 0,Yr,Mn,Date,Date.1,CO2,seasonally,fit,seasonally.1,CO2.1,seasonally.2


On drop ces lignes et également les deux premières lignes qui contiennent les unités de mesures mais pas des données en tant que telles.

In [44]:
data = raw_data.drop(raw_data[raw_data['      CO2'] == '     -99.99'].index)
data = data.drop([0,1])
data

Unnamed: 0,Yr,Mn,Date,Date.1,CO2,seasonally,fit,seasonally.1,CO2.1,seasonally.2
4,1958,03,21259,1958.2027,315.70,314.44,316.18,314.90,315.70,314.44
5,1958,04,21290,1958.2877,317.45,315.16,317.29,314.98,317.45,315.16
6,1958,05,21320,1958.3699,317.51,314.71,317.86,315.06,317.51,314.71
7,1958,06,21351,1958.4548,-99.99,-99.99,317.24,315.14,317.24,315.14
8,1958,07,21381,1958.5370,315.86,315.19,315.86,315.21,315.86,315.19
9,1958,08,21412,1958.6219,314.93,316.19,313.99,315.28,314.93,316.19
10,1958,09,21443,1958.7068,313.21,316.08,312.45,315.35,313.21,316.08
11,1958,10,21473,1958.7890,-99.99,-99.99,312.43,315.40,312.43,315.40
12,1958,11,21504,1958.8740,313.33,315.20,313.61,315.46,313.33,315.20
13,1958,12,21534,1958.9562,314.67,315.43,314.76,315.51,314.67,315.43
