{ "cells": [ { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "#
Concentration de CO2 dans l'atmosphère depuis 1958
" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "##
Rémy MARION
" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "##
Avril 2020
" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "### 1. Préambule" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "Dès 1958, Charles David Keeling a débuté la mesure précise du taux de CO2 dans l'atmosphère à l'observatoire de Mauna Loa, Hawaii, États-Unis. \n", "Ces mesures, qui continuent aujourd'hui, ont permis de montrer une évolution tout au long de l'année du taux de CO2 dans l'hémisphère Nord. Celle-ci étant provenant du cycle de vie des plantes. \n", "De même, ces données ont montrés une évolution continue du taux de CO2 dans l'atmosphère depuis 1958." ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "### 2. Travail à faire" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "Le but de l'exercide est de réaliser un document computationnel pour :\n", "* Réaliser un graphique qui montrera une oscillation périodique superposée à une évolution systématique plus lente.\n", "* Séparer ces deux phénomènes. Caractériser l'oscillation périodique et proposer un modèle simple de la contribution lente\n", "* Estimer ses paramètres et tenter une extrapolation jusqu'à 2025 (dans le but de pouvoir valider le modèle par des observations futures).\n", "* Déposer dans FUN le résultat." ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "### 3. Base de données" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "Les données sont disponibles sur le site Web de l'institut Scripps à l'adresse suivante: \n", "https://scrippsco2.ucsd.edu/data/atmospheric_co2/primary_mlo_co2_record.html\n", "\n", "Pour notre étude, nous prendrons les relevés hebdomadaires : *weekly_in_situ_co2_mlo.csv* que l'on peut télécharger à l'adresse suiavnte : https://scrippsco2.ucsd.edu/data/atmospheric_co2/mlo.html\n", "\n", "Nous travaillerons sur une base locale (copiée sur le serveur *Jupyter* de l'INRIA) téléchargée le 13 avril 2020.\n", "La totalité des documents nécessaires à cette étude seront committés sur le serveur *GitLab* de l'INRIA." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 4. Vérification de la base de données" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "#### a. Exploration des données" ] }, { "cell_type": "markdown", "metadata": { "hideCode": false, "hidePrompt": false }, "source": [ "Nous commencerons par analyser le contenu du fichier de données (fichier structuré *CSV*) pour ensuite faire un premier tracé de l'ensemble de la base de données. \n", "Nous utiliserons les libraries *pandas* et *matplotlib* pour *python 3.6*." ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "hideCode": false, "hidePrompt": false }, "outputs": [], "source": [ "# Import des librairies\n", "import pandas as pd\n", "import matplotlib.pyplot as plt" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "hideCode": false, "hidePrompt": false }, "outputs": [ { "data": { "text/plain": [ "(3156, 1)" ] }, "execution_count": 2, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Chargement de la base de données (CSV)\n", "# Les lignes de commentaires sont ignorées\n", "# Le séparateur de champs utilisé dans la base de données est la virgule (,)\n", "# La colonne des dates est parsé et mise en index\n", "date_parser = lambda dates: [pd.datetime.strptime(d, '%Y-%m-%d') for d in dates]\n", "\n", "data = pd.read_csv('weekly_in_situ_co2_mlo.csv', sep=',', comment='\"', header=None,\n", " names=[\"date\", \"CO2\"])\n", "data['date'] = pd.to_datetime(data['date'], format='%Y-%m-%d')\n", "\n", "# Les dates sont passées à l'index du dataframe\n", "data.set_index('date', inplace=True)\n", "data.shape" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Les 44 premières lignes de commentaires du fichier brut n'ont pas été prises en compte (commande `comment='\"'`). \n", "La base de données est composée de 3156 mesures et de 2 colonnes :\n", "* date : date de relevé. Avec un relevé par semaine.\n", "* CO2 : concentration de CO2 en *ppm*." ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "hideCode": false, "hidePrompt": false }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
CO2
date
1958-03-29316.19
1958-04-05317.31
1958-04-12317.69
1958-04-19317.58
1958-04-26316.48
\n", "
" ], "text/plain": [ " CO2\n", "date \n", "1958-03-29 316.19\n", "1958-04-05 317.31\n", "1958-04-12 317.69\n", "1958-04-19 317.58\n", "1958-04-26 316.48" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Affichage partiel de la base de données mise en forme\n", "data.head(5)" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# Graph de la base de données complètes\n", "data.plot()\n", "#plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "L'inspection visuelle de la base de données complète montre que le fichier est bien formé et ne semble pas comporter pas de valeurs manquantes ou aberrantes." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### b. Vérification de la \"structure\" de la base de données" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Vérifions tout de même avec un code de validation la robustesse de la base de données. Nous vérifions la présence de valeurs manquantes et le type des variables (date, float)." ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "CO2 0\n", "dtype: int64" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Isolation des lignes comportant des données absentes\n", "data[pd.isnull(data).any(axis=1)].count()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Il n'y a aucune valeur manquante." ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "CO2 float64\n", "dtype: object" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Vérification du type de la variable CO2\n", "data.dtypes" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "dtype('