# Extraction, lecture et vérification des données

## Extraction et lecture

On commence par récupérer les jeux de données et on les sauvegarde en local pour une utilisation ultérieure.

In [1]:
%matplotlib inline
import urllib
import os, gzip
data_url = ["http://mescal.imag.fr/membres/arnaud.legrand/teaching/2014/RICM4_EP_ping/liglab2.log.gz",
 "http://mescal.imag.fr/membres/arnaud.legrand/teaching/2014/RICM4_EP_ping/stackoverflow.log.gz"]
filenames = []
raw_data = {}
for url in data_url:
 fname = url.split('/')[-1] ## get file name from url, which is everything after the last '/'
 filenames.append(fname)
 if os.path.isfile(fname):
 print("Reading local version of", fname)
 else:
 print("Downloading remote version for", url)
 urllib.request.urlretrieve(url, fname) ## this downloads url and save file to fname
 
 with gzip.open(fname, 'rt') as file:
 raw_data[fname] = file.readlines()
 print(raw_data[fname][0]) ## print first line to check it worked

Reading local version of liglab2.log.gz
[1421761682.052172] 665 bytes from lig-publig.imag.fr (129.88.11.7): icmp_seq=1 ttl=60 time=22.5 ms

Reading local version of stackoverflow.log.gz
[1421771203.082701] 1257 bytes from stackoverflow.com (198.252.206.140): icmp_seq=1 ttl=50 time=120 ms



## Vérification des données

Les données sont des fichiers textes où chaque ligne est de la forme:

\[**timestamp**\] **size** bytes from **url** (**ip**): icmp_seq=**icmp_seq** ttl=**ttl** time=**time**

- **timestamp** est l'instant d'émission de la requête (flottant);
- **size** est la taille de la requête en octets (entier);
- **url** est l'url vers laquelle la requête a été envoyée (chaîne de caractères);
- **ip** est l'adresse ip de l'url précédente (chaîne de caractères);
- **icmp_seq** et **ttl** sont ignorées;
- **time** est le temps aller-retour entre l'ordinateur d'envoi et l'url spécifiée (flottant + chaîne de caractères).

Pour vérifier les données, nous utilisons des expressions régulières. Les données vérifiées sont ensuites insérées dans un DataFrame de pandas pour traitement.

In [None]:
import re
import pandas as pd

pingoutput = re.compile(r'\[(?P\d*\.\d*)\]' ## match timestamp as floating number
 r' (?P\d*) bytes from ' ## match size as integer
 r'(?P(\w[\w\-]*\.)*\w*) ' ## match simple urls
 r'\((?P\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\)' ## match ips
 r': icmp_seq=(?P\d*) '## match icmp_seq
 r'ttl=(?P\d*) ' ## match ttl
 r'time=(?P\d*\.?\d*) ms' ## match time with unit
 , flags=re.ASCII|re.IGNORECASE)
data = {}
for fname in filenames:
 data[fname] = pd.DataFrame(columns=['timestamp', 'size', 'url', 'ip',
 'icmp_seq', 'ttl', 'ping'])
 rdata = []
 errors = 0
 for i, line in enumerate(raw_data[fname]):
 m = pingoutput.match(line)
 if m is None:
 errors = errors + 1
 continue
 rdata.append({'timestamp':pd.Timestamp(float(m.group('timestamp')), unit='s'),
 'size':int(m.group('size')), 'url':m.group('url'),
 'ip':m.group('ip'),'icmp_seq':int(m.group('icmp_seq')),
 'ttl':int(m.group('ttl')), 'ping':float(m.group('ping'))})
 data[fname] = pd.DataFrame(rdata)
 print('{:d} lines failed parsing in {:s}'.format(errors, fname))

Nous pouvons désormais observer l'évolution du ping en fonction du temps, ici dans le cas du premier fichier.

In [1]:
mydata = data[filenames[0]]
mydata.plot(x="timestamp", y="ping")

NameError: name 'data' is not defined