"~~À première vue, ce n'est pas flagrant mais bon, essayons quand même\n",
"d'estimer l'impact de la température $t$ sur la probabilité de\n",
"dysfonctionnements d'un joint. ~~Beaucoup plus de points que lors de l'analyse fournie au début de l'exercice en incluant ceux correspondants aux essais réussis. On poursuit avec une estimation de la probabilité de défaillance.\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Estimation de l'influence de la température\n",
"\n",
"Supposons que chacun des 6 joints toriques est endommagé avec la même\n",
"probabilité et indépendamment des autres et que cette probabilité ne\n",
"dépend que de la température. Si on note $p(t)$ cette probabilité, le\n",
"nombre de joints $D$ dysfonctionnant lorsque l'on effectue le vol à\n",
"température $t$ suit une loi binomiale de paramètre $n=6$ et\n",
"$p=p(t)$. Pour relier $p(t)$ à $t$, on va donc effectuer une\n",
"régression logistique."
]
},
{
"cell_type": "code",
"execution_count": 17,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<table class=\"simpletable\">\n",
"<caption>Generalized Linear Model Regression Results</caption>\n",
"~~Comme on pouvait s'attendre au vu des données initiales, la\n",
"température n'a pas d'impact notable sur la probabilité d'échec des\n",
"joints toriques. Elle sera d'environ 0.2, comme dans les essais\n",
"précédents où nous il y a eu défaillance d'au moins un joint. Revenons\n",
"à l'ensemble des données initiales pour estimer la probabilité de\n",
"défaillance d'un joint:~~La température semble avoir un effet vraiment important, puisque la fréquence d'échec du joint semble être de l'ordre de 0.85 avec cependant de grandes incertitudes. **Ne pas tenir compte de ce qui se trouve ci-dessous.**\n"
"On commence par récupérer les données depuis le site [Réseau Sentinelles](https://www.sentiweb.fr/france/fr/?) en naviguant dans le menu de gauche: `Surveillance continue`-> `Bases de données` puis `Accès aux données`. On sélectionne `Varicelle (1991 - en cours)` dans le menu déroulant intitulé `Maladie/Indicateur` puis, dans l'onglet `Télécharger` on prend soin de télécharger les données au format CSV afin de déterminer l'URL permettant d'accéder à ces données. Celle-ci est stockée sous la forme d'une chaîne de caractères dans la variable suivante:"
"On voit que la variable `missing_lines` est vide, ce qui indique que le jeux de données ne souffre pas de \"trous\". On copie le jeu de données dans une nouvelle variable, qui est celle sur laquelle les traitements seront effectués:"
]
},
{
"cell_type": "code",
"execution_count": 36,
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"outputs": [],
"source": [
"data = raw_data"
]
},
{
"cell_type": "markdown",
"metadata": {
"hideCode": false,
"hidePrompt": false
},
"source": [
"Ensuite, on reformule la numérotation des semaines. En effet, dans le tableau ci-dessus, les semaines sont numérotées avec six chiffres: les quatres premiers chiffres correspondent à l'année, et les deux derniers au numéro de la semaine, ce qui donne l'impression à `pandas` qu'il s'agit d'un entier alors que ce n'est pas le cas. De plus, une telle numérotation ne peut pas être interprétée par `pandas`, il faut donc la reformuler. Cela est réalisé avec la librairie `isoweek`. On écrit une fonction `conversionDate`qui sera appliquée à l'ensemble de la première colonne du jeu de données:"