"Les données ont été extraites le 11/05/2020. \n",
"Les 54 premières lignes correspondent à du texte contenant les références à citer, des explications sur la forme des données ... On les supprime donc pour permettre à Pandas de lire les données sous forme de tableau. "
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {},
"outputs": [],
"source": [
"#raw_data"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Les deux premières lignes contiennent des unités et non des valeurs, on les retire du tableau pour l'instant."
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {},
"outputs": [],
"source": [
"data = raw_data.iloc[2:]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Pour ce jeu de données, les 4 premières colonnes sont des dates, et seule la colonne 5 contient des mesures brutes. Nous allons conserver uniquement les informations sur l'année, la date, et la valeur brute de la mesure."
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {},
"outputs": [],
"source": [
"useful_data = data.iloc[0:758, [0,1,4]]\n",
"#useful_data"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"On vérifie que les données ont un type approprié."
"Les explications jointes au fichier indiquent que les valeurs manquantes sont remplacées par la valeur -99.99. On souhaite donc supprimer chaque ligne comportant cette valeur."