# Sujet 1 : Concentration de CO2 dans l'atmosphère depuis 1958

En 1958, Charles David Keeling  a initié une mesure de la concentration de CO2 dans l'atmosphère à l'observatoire de Mauna Loa, Hawaii, États-Unis qui continue jusqu'à aujourd'hui. L'objectif initial était d'étudier la variation saisonnière, mais l'intérêt s'est déplacé plus tard vers l'étude de la tendance croissante dans le contexte du changement climatique. En honneur à Keeling, ce jeu de données est souvent appelé "Keeling Curve" (voir https://en.wikipedia.org/wiki/Keeling_Curve pour l'histoire et l'importance de ces données).

Les données sont disponibles sur le site Web de l'institut Scripps. Utilisez le fichier avec les observations hebdomadaires. Attention, ce fichier est mis à jour régulièrement avec de nouvelles observations. Notez donc bien la date du téléchargement, et gardez une copie locale de la version précise que vous analysez. Faites aussi attention aux données manquantes.

Votre mission si vous l'acceptez :
1. Réalisez un graphique qui vous montrera une oscillation périodique superposée à une évolution systématique plus lente.
2. Séparez ces deux phénomènes. Caractérisez l'oscillation périodique. Proposez un modèle simple de la contribution lente, estimez ses paramètres et tentez une extrapolation jusqu'à 2025 (dans le but de pouvoir valider le modèle par des observations futures).
3. Déposer dans FUN votre résultat

**Librairies**

In [1]:
import os
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

## Import des données

In [2]:
filename = 'weekly_in_situ_co2_mlo.csv'

if os.path.exists(filename):
    print('Using local file')
    data_path = filename
else:
    print('Downloading data from url')
    data_path = 'https://scrippsco2.ucsd.edu/assets/data/atmospheric/stations/in_situ_co2/weekly/weekly_in_situ_co2_mlo.csv'

Using local file


On importe les données en supprimant toutes les lignes de commentaires qui existent au début du fichier. La série de donnée commence la semaine du 29 Mars 1958. La 2ème colonne est renommée pour plus de lisibilité.

In [3]:
raw_data = pd.read_csv(data_path, skiprows=43, delimiter=',')
raw_data.columns = ['ppm']
raw_data.head()

Unnamed: 0,ppm
1958-03-29,316.19
1958-04-05,317.31
1958-04-12,317.69
1958-04-19,317.58
1958-04-26,316.48


In [4]:
raw_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3332 entries, 1958-03-29 to 2023-07-01
Data columns (total 1 columns):
ppm    3332 non-null float64
dtypes: float64(1)
memory usage: 52.1+ KB


On vérifie si des données sont mal renseignées : Non

In [5]:
print(raw_data['ppm'].isna().any())
raw_data[raw_data.isnull().any(axis=1)]

False


Unnamed: 0,ppm


In [6]:
data = raw_data.copy()
data.head()

Unnamed: 0,ppm
1958-03-29,316.19
1958-04-05,317.31
1958-04-12,317.69
1958-04-19,317.58
1958-04-26,316.48


## Affichage des données à décomposer

In [None]:
fig = plt.subplots(1, 1, figsize=(12, 7))
plt.plot(data)

[<matplotlib.lines.Line2D at 0x7fe4d35c0828>]