{ "cells": [ { "cell_type": "markdown", "metadata": { "collapsed": true, "pycharm": { "name": "#%% md\n" } }, "source": [ "# Sujet 1 : Concentration de CO2 dans l'atmosphère depuis 1958 \n", "\n", "## Récupération des données \n", "\n", "Les données ont été téléchargées sur le [site Web de l'institut Scripps](https://scrippsco2.ucsd.edu/data/atmospheric_co2/primary_mlo_co2_record.html), dans le fichier \"`monthly_in_situ_c02_mlo.csv`\".\n", "\n" ] }, { "cell_type": "code", "execution_count": 16, "outputs": [], "source": [ "import wget\n", "\n", "# url = \"https://scrippsco2.ucsd.edu/assets/data/atmospheric/stations/in_situ_co2/monthly/monthly_in_situ_co2_mlo.csv\"\n", "# wget.download(url, '.')\n" ], "metadata": { "collapsed": false, "pycharm": { "name": "#%%\n", "is_executing": false } } }, { "cell_type": "markdown", "source": [ "Formattons le fichier pour ne garder que les données, et non les commentaires (gardons les dans une variable, au cas où).\n", "Nous allons ici créer un fichier `raw_data.csv` dans lequel nous stockons les données.\n" ], "metadata": { "collapsed": false, "pycharm": { "name": "#%% md\n" } } }, { "cell_type": "code", "execution_count": 17, "outputs": [], "source": [ "with open(\"monthly_in_situ_co2_mlo.csv\", 'r') as data_file:\n", " lines = [line for line in data_file]\n", "\n", "commentary = []\n", "with open(\"raw_data.csv\", 'w') as raw_data_file:\n", " for line in lines:\n", " if line.startswith('\"'):\n", " commentary.append(lines)\n", " else:\n", " raw_data_file.write(line)" ], "metadata": { "collapsed": false, "pycharm": { "name": "#%%\n", "is_executing": false } } }, { "cell_type": "markdown", "source": [ "Chargeons donc les données avec pandas :" ], "metadata": { "collapsed": false, "pycharm": { "name": "#%% md\n" } } }, { "cell_type": "code", "execution_count": 18, "outputs": [ { "name": "stderr", "text": [ "/home/baptiste/Documents/venvs/develop/lib/python3.6/site-packages/ipykernel_launcher.py:3: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'.\n", " This is separate from the ipykernel package so we can avoid doing imports until\n" ], "output_type": "stream" } ], "source": [ "import pandas as pd\n", "\n", "raw_dataframe = pd.read_csv(\"raw_data.csv\", delimiter=', ', index_col=False)\n" ], "metadata": { "collapsed": false, "pycharm": { "name": "#%%\n", "is_executing": false } } }, { "cell_type": "markdown", "source": [ "On va traiter le dataframe pour mettre en forme le header et vérifier les données.\n", "Le dataframe ne comporte que 4 colonnes que nous allons utiliser :\n", "\n", "* Years \n", "* Months\n", "* CO2\n", "* Seasonally adjusted\n", "\n", "Les deux premières seront utilisées pour générer un tableau de dates qui serront des objets datetime, initialisés au premier jour de chacun des mois du dataset.\n", "\n", "Les deux autres colonnes sont les données qui ont être utilisées pour le premier graphique. \n", "\n", "**CO2** contient les quantité brutes de CO2 relevées, et **seasonally adjusted** est le résultat d'un traitement de **CO2** pour retirer les variations saisonnières." ], "metadata": { "collapsed": false, "pycharm": { "name": "#%% md\n" } } }, { "cell_type": "code", "execution_count": 19, "outputs": [], "source": [ "\n", "import matplotlib.pyplot as plt\n", "import datetime\n", "co2_raw_vals = raw_dataframe.iloc[2:, 4].astype(float)\n", "co2_adjusted_vals = raw_dataframe.iloc[2:, 5].astype(float)\n", "dates = [datetime.date(year=int(year), month=int(month), day=1) for year, month in zip(raw_dataframe.iloc[2:, 0], raw_dataframe.iloc[2:, 1])]" ], "metadata": { "collapsed": false, "pycharm": { "name": "#%% \n", "is_executing": false } } }, { "cell_type": "markdown", "source": [ "## Première analyse \n", "\n", "Pour réaliser le premier graphique montrant une oscillation périodique superposée à une évolution systématique plus lente, nous plottons tout d'abord les données brutes de la colonne **CO2** pour pouvoir distinguer les oscillations péridoques et la croissance lente systématique. \n", "\n", "Nous n'avons sélectionné que les 100 premiers points pour plus de lisibilité sur le graphique.\n", "\n", "De plus, l'axe des ordonnées a été forcé entre 300 et 340 pour ne pas afficher les données manquantes, remplacées par des valeurs à -99. " ], "metadata": { "collapsed": false, "pycharm": { "name": "#%% md\n" } } }, { "cell_type": "code", "execution_count": 20, "outputs": [ { "data": { "text/plain": "
", "image/png": "\n" }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "%matplotlib inline\n", "fig, ax=plt.subplots(1)\n", "ax.scatter(dates[:100], co2_raw_vals[:100])\n", "lim = ax.set_ylim(300,340)" ], "metadata": { "collapsed": false, "pycharm": { "name": "#%%\n", "is_executing": false } } }, { "cell_type": "markdown", "source": [ "## Séparation des phénomènes\n", "\n", "### Périodicité uniquement\n", " \n", "Nous allons maintenant séparer la périodicité. Pour ce faire, il suffit de tracer la différence entre les données ajustées et le données brutes, car la correciton a pour but de gommer la périodicité.\n", "\n", "De la même manière que précédemment, nous avons tracé que les 100 premiers points et nous avons adapté l'échelle des ordonnées pour plus de clarté visuelle." ], "metadata": { "collapsed": false, "pycharm": { "name": "#%% md\n" } } }, { "cell_type": "code", "execution_count": 21, "outputs": [ { "data": { "text/plain": "
", "image/png": "\n" }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "%matplotlib inline\n", "\n", "fig, ax=plt.subplots(1)\n", "ax.scatter(dates[:200], co2_adjusted_vals[:200]-co2_raw_vals[:200])\n", "lim = ax.set_ylim(-10,10)" ], "metadata": { "collapsed": false, "pycharm": { "name": "#%% \n", "is_executing": false } } }, { "cell_type": "markdown", "source": [ "### Contribution lente uniquement \n", "\n", "Pour permettre de faire un modèle simple de la contribution lente jusqu'en 2025, il nous faut d'abord l'estimer avec une fonction. Pour ce faire, analysons le comportement de la contribution simple sur toute la durée disponible : " ], "metadata": { "collapsed": false, "pycharm": { "name": "#%% md\n" } } }, { "cell_type": "code", "execution_count": 22, "outputs": [ { "data": { "text/plain": "
", "image/png": "\n" }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "%matplotlib inline\n", "\n", "fig, ax=plt.subplots(1)\n", "ax.scatter(dates, co2_adjusted_vals)\n", "lim = ax.set_ylim(310,420)" ], "metadata": { "collapsed": false, "pycharm": { "name": "#%% \n", "is_executing": false } } }, { "cell_type": "markdown", "source": [ "On peut voir sur ce graphe que la croissance n'est pas linéaire, on pourrait donc l'esitmer avec un polynome de degré 2." ], "metadata": { "collapsed": false, "pycharm": { "name": "#%% md\n" } } }, { "cell_type": "code", "execution_count": 23, "outputs": [ { "data": { "text/plain": "
", "image/png": "\n" }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "import numpy as np\n", "\n", "a = 0.0001\n", "b = 0.055\n", "c = 315\n", "xs = np.arange(len(dates))\n", "ys = a*(xs**2)+b*xs+c\n", "\n", "fig, ax=plt.subplots(1)\n", "ax.scatter(dates, co2_adjusted_vals)\n", "ax.scatter(dates, ys)\n", "lim = ax.set_ylim(310,420)" ], "metadata": { "collapsed": false, "pycharm": { "name": "#%%\n", "is_executing": false } } }, { "cell_type": "markdown", "source": [ "En prenant une unité mensuelle, et avec le polynome $y = 0.0001 x^2 + 0.055 y + 315$, nous arrivons a générer un modèle qui représente bien la courbe de l'augmentation de CO2 pour la durée du dataset (ces valeurs ont été trouvé par methode trial and error). \n", "Selon notre modèle naif, la valeur de la quantité de C02 jusqu'en 2045 peut être extrapolée. Pour ce faire, nous allons générer tous les mois jusqu'en 2045 : " ], "metadata": { "collapsed": false, "pycharm": { "name": "#%% md\n" } } }, { "cell_type": "code", "execution_count": 24, "outputs": [], "source": [ "dates_large = dates+[datetime.date(year=year+2021, month=month+1, day=1) for year in range(25) for month in range(12)]" ], "metadata": { "collapsed": false, "pycharm": { "name": "#%%\n", "is_executing": false } } }, { "cell_type": "markdown", "source": [ "Puis appliquer la fonction d'extrapolation :" ], "metadata": { "collapsed": false, "pycharm": { "name": "#%% md\n" } } }, { "cell_type": "code", "execution_count": 25, "outputs": [ { "data": { "text/plain": "
", "image/png": "\n" }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "xs = np.arange(len(dates_large))\n", "ys = a*(xs**2)+b*xs+c\n", "\n", "fig, ax=plt.subplots(1)\n", "ax.scatter(dates_large, ys, color=\"tab:orange\")\n", "ax.scatter(dates, co2_adjusted_vals, color=\"tab:blue\")\n", "lim = ax.set_ylim(310,500)" ], "metadata": { "collapsed": false, "pycharm": { "name": "#%% \n", "is_executing": false } } } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 2 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython2", "version": "2.7.6" }, "pycharm": { "stem_cell": { "cell_type": "raw", "source": [], "metadata": { "collapsed": false } } } }, "nbformat": 4, "nbformat_minor": 0 }