Chapitre VII

Chapitre VII
probabilités :
variables aléatoires à densité
convergences et approximations

Introduction

La figure ci-dessus représente :

* en bleu, l'histogramme de la loi binomiale de paramètres 100 et 0,5 c'est à dire les valeurs deP(X = k), avec k entier compris entre 0 et 100, et X qui suit la loi binomiale B(100 ; 0,5) ;
* en rouge, la courbe représentative de la fonction f de R dans R définie par :

L'axe horizontal est gradué de 10 en 10 ;
L'axe vertical est gradué de 0,01 en 0,01 ;
A la précision du dessin, la courbe en rouge semble donner des approximations excellentes des valeurs de la loi binomiale B(100 ; 0,5). C'est effectivement le cas...
La somme des longueurs des bâtons bleus est égale à 1 (pourquoi ?). Le pas de la subdivision étant de 1, la "somme de Riemann" correspondante devrait donner une bonne approximation de l'intégrale de f sur ]-¥ , +¥ [. C'est effectivement le cas, cette intégrale est elle-même égale à 1...
Soit à calculer la probabilité d'obtenir un nombre de "pile" compris entre 40 et 60 quand on lance une pièce de monnaie équilibrée. Le résultat exact est :

et avec une bonne approximation :

On considère maintenant des variables aléatoires prenant leurs valeurs dans R "tout entier". On peut considérer par exemple une variable aléatoire Y dont la "loi" (on dit plutôt densité) est précisément la fonction f définie ci-dessus. Par cela on entend que pour tout a, b tels que -¥ £ a £ b £ +¥ :

En particulier :

I. Variables aléatoires à densité : généralités

1°) Densité. Variables aléatoires à densité.

Définitions. Soit f une fonction de R dans R. On dit que f est une densité de probabilité ssi :
* f ³ 0 sur R ;
* f est continue sur R sauf en un nombre fini de points ;

Soit f une densité. On dit que la v.a X : W ® R admet f pour densité ssi, pour tout a, b réels tels que -¥ £ a £ b £ +¥ , on a

Propriétés. Soit X de densité f.
* Pour tout a appartenant à R : P(X = a) = 0.
* Pour tout a, b tels que -¥ £ a £ b £ +¥ :
P(a £ X £ b) = P(a < X £ b) = P( a £ X < b) = P(a < X < b).

2°) Fonction de répartition d'une v.a à densité.

Définition. On rappelle que, pour toute v.a X, la fonction de répartition F_X de X est définie, pour tout x réel, par :
F_X(x) = P(X £ x).

Pour les v.a à densité, la fonction de répartition (f.r) revêt une importance particulière.

Soit X une v.a de densité f , de f.r F_X : F_x(x) = P(X £ x) pour tout x dans R.

Propriétés.

Théorème (admis) :
* F est continue sur R.
* Partout où f est continue (c'est à dire sur R privé d'un nombre fini de points), F est dérivable, et F' = f.
* F est donc de classe C¹ sur R privé d'un nombre fini de points.
* F est croissante sur R.

Réciproquement :
Soit F une fonction de R dans R telle que :
* F est continue sur R.
* F est de classe C¹ sur R privé d'un nombre fini de points. En tout point où F' n'est pas continue, F' admet des limites finies ou égales à +¥ à gauche et à droite.
* F est croissante sur R.

Alors F est la fonction de répartition d'une v.a à densité X.

3°) Espérance, variance.
Soit X de densité f.

* Par définition, X admet pour espérance :

ssi l'intégrale à droite est convergente.

* Si j est une fonction strictement monotone et de classe C¹ sur R, alors :

sous réserve que l'intégrale à droite converge.

* Par définition X admet pour moment d'ordre 2 :

sous réserve que l'intégrale à droite converge.

* Soit X admettant une espérance E(X). Par définition, la variance V(X) est :
V(X) = E( [X - E(X)]² )
sous réserve que l'intégrale à droite converge.

* Théorème : On suppose que la v.a X admet un moment d'ordre 2. Alors X admet une espérance et une variance, et on a :
V(X) = E(X²) - E(X)²

* Si X et Y sont des v.a à densité admettant des espérances, alors X + Y admet une espérance, et :
E(X + Y) = E(X) + E(Y)
E(aX + b) = aE(X) + b.

* Si X admet une variance :
V(aX + b) = a²V(X)

Le plus simple pour mémoriser est de mettre en parallèle le cas discret et le cas continu, voir aide-mémoire dans une nouvelle fenêtre.

II. Variables aléatoires à densité usuelles

1°) Loi exponentielle

La loi exponentielle modélise la durée de fonctionnement "normal" (ou la durée qui sépare deux pannes) de certains appareils. Elle modélise aussi l'intervalle de temps qui sépare l'arrivée de deux clients à un guichet.

Définition. Soit a > 0. On dit que X suit la loi exponentielle de paramètre a ssi X admet pour densité f telle que :

Tout est à retenir, et à savoir faire... :

* f est bien une densité...
* E(X) = 1/a ; V(X) = 1/a²
* La fonction de répartition F_X de X est :

Propriété caractéristique de la loi exponentielle.

Proposition. Soit X une v.a qui suit la loi exponentielle de paramètre a , a > 0.
Alors pour tout t, t' ³ 0 : P( X > t + t' / X > t ) = P( X > t' ).
Réciproquement, soit X une variable aléatoire à densité à valeurs dans [0, +¥ [ (c'est à dire de densité nulle en dehors de l'intervalle [0, +¥ [ ). On suppose que l'on a :
Pour tout t, t' ³ 0 : P(X > t) > 0, et P( X > t + t' / X > t ) = P( X > t' ).
Alors X suit une loi exponentielle.

On dit que la loi exponentielle est une loi sans mémoire, et que ceci est caractéristique de la loi exponentielle (pour les v.a à densité.)

Dem : Pour la partie directe, il s'agit d'une simple vérification. Pour la réciproque, on considère la fonction G définie sur [0, + ¥ [ par G(t) = P(X > t). G est positive, dérivable sur [0, +¥ [ privé d'un nombre fini de points, car G(t) = 1 - F(t), avec F f.r de X. D'autre part, G vérifie :
Pour tout t, q ³ 0 : G(t + q ) = G(t) G(q ).
* Avec t = 0, il vient : G(0 + q ) = G(0) G(q ), donc G(0) = 1 (car G est positive).
* On admet que la fonction G est dérivable partout sur [0, +¥ [. En dérivant par rapport à t :
G '(t +q ) = G '(t) G(q )
ou encore :

Avec t = 0, il vient :

Soit, en considérant les primitives de ces deux fonctions égales :
ln( G(q ) ) = G'(0) q + k
Par conséquent :
G(q ) = exp( G'(0)q + k) ) = C exp( G'(0)q )
G(0) = 1, donc C = 1, donc G(q ) = exp( G'(0)q )
F(q ) = 1 - exp( G'(0)q )
La fonction de répartition de X est bien celle d'une v.a suivant une loi exponentielle, de paramètre a = - G'(0).

Loi exponentielle et loi géométrique.
Soit X une v.a qui suit la loi exponentielle de paramètre a , a > 0. On considère la v.a T définie sur N* par :
{T = n } = {n - 1 £ X £ n}. On a :

Donc P({T = n}) = (e^-a )^{n- 1} (1 - e^-a ) : T suit la loi géométrique de paramètre 1 - e^-a .

Loi exponentielle et loi de Poisson.
Des clients se présentent à un guichet. On suppose que le nombre N_t de clients qui se présentent au guichet durant un intervalle de temps t suit une loi de Poisson de paramètre l t.
Soit Y l'intervalle de temps qui sépare l'arrivée de deux clients consécutifs au guichet. Y est à valeurs dans R⁺, et on a (Y > t) = (N_t = 0). Donc, pour tout t ³ 0 :

Par conséquent, P(Y £ t) = 1 - exp(-l t) pour t ³ 0, et P(Y £ t) = 0 pour t < 0 : Y suit la loi exponentielle de paramètre l .

2°) Loi uniforme sur [a, b].

La loi uniforme est susceptible de modéliser des expériences aléatoires telles que : "on choisit un nombre au hasard entre 0 et 1" (loi uniforme sur [0, 1], "on fait tourner une roue de loterie" (loi uniforme sur [0, 2p ] ou sur [0, 360]), e.t.c.

Définition. Soit a, b appartenant à R tels que a < b. On dit que X suit la loi uniforme sur [a,b] ssi X admet pour densité f telle que :

A savoir faire :
* f est bien une densité : l'aire du rectangle de longueur b - a et de hauteur 1/(b - a) est égale à 1.
* X admet pour f.r F telle que :

* A retenir, et à savoir faire : l'espérance de X est :

* Des calculs instructifs conduisent à :

3°) Loi normale

Modélise d'innombrables séries statistiques : taille des individus d'une population, poids des nouveau-nés dans une maternité, Q.I...

Définition. Soit m appartenant à R et s > 0. On dit que X suit la loi normale de paramètres m et s ssi X admet pour densité f telle que, pour tout x appartenant à R :

Propriétés.
* Il s'agit bien d'une densité (admis).
* X a pour fonction de répartition :

* E(X) = m ; V(X) = s² (à retenir.)

Loi normale centrée réduite.
Proposition. Soit X une v.a qui suit la loi normale de paramètres m et s . Alors la v.a centrée réduite X*, définie par :

suit la loi normale de paramètres 0 et 1 : la loi normale centrée réduite.

Dem. Il s'agit de déterminer y , fonction de répartition de X*. Par définition, on a :
.
On obtient donc :

On effectue le changement de variable y = (t - m)/s dans cette intégrale.
On a dy =dt/s , et si t varie de -¥ à m + s x, alors y varie de -¥ à x ; donc :

c'est à dire la fonction de répartition de la loi normale de paramètre 0 et 1.

Propriétés de la loi normale centrée réduite.
Soit X* suivant la loi normale centrée réduite.
-- X* a pour densité la fonction j telle que :

-- X* a pour f.r la fonction y telle que :

-- j est bien une densité (admis) ; en d'autres termes :

(intégrale de Gauss.)

-- E(X*) = 0, V(X*) = 1. Démonstration. Pour l'espérance, la fonction qui à t associe t exp(- t²/2) est continue sur R,et au voisinage de +¥ , t exp(- t²/2) est positive et négligeable devant 1/t². Par comparaison avec une intégrale de Riemann convergente, on déduit :

car la fonction qui à t associe t exp(- t²/2) est impaire.
Pour E(X*²), la fonction qui à t associe t² exp(- t²/2) est continue, paire, positive ou nulle, et négligeable devant 1/t² au voisinage de +¥ . X* admet bien un moment d'ordre 2, et on a :
.
On effectue alors une intégration par partie avec :
u = t u' = 1
v' = t exp(- t²/2) v = - exp(- t²/2)
u et v sont de classe C¹ sur [0, x] . La partie toute intégrée tend vers 0 quand x tend vers +¥ , et :

D'où la conclusion.

* Ci dessous, sur le même graphique : en bleu la densité de X*, en rouge la f.r de X*. Les axes sont gradués de 1 en 1. On observe, et le calcul confirme, que le point de coordonnées (0, 1/2) est centre de symétrie de Cy . En d'autres termes :
" x Î R, y (- x) = 1 -y (x)

Utilisation de la loi normale centrée réduite
Proposition.
a) Soit X qui suit la loi normale de paramètres m et s . Alors, pour tout x dans R :

Avec y f.r de la loi normale centrée réduite.
b) " x ÎR, y (- x) = 1 -y (x)

Cette proposition permet de ramener les calculs de probabilités portant sur des variables "gaussiennes" à des calculs portant sur y (les valeurs en sont tabulées.)

III. convergences et approximations

1°) Inégalité de Bienaymé -Tchebicheff. Loi faible des grands nombres. Convergence en probabilité.

Inégalité de Bienaymé -Tchebicheff

Théorème. Soit X une variable aléatoire discrète ou à densité, d'espérance E(X) = m, de variance V(X) = s². Alors :

La probabilité qu'une v.a s' écarte de plus de e de sa valeur moyenne est d'autant plus faible que sa variance est petite et que e est grand.

Exemple. Soit X qui suit la loi binomiale de paramètre 10 et 1/2. E(X) = 5 et V(X) = 2,5. L'inégalité de B.T fournit, avec e = 4 :
P(½ X - 5½ ³ 4) £ (2,5)/4² » 0,157.
Et le résultat serait le même pour n'importe quelle v.a d'espérance 5 et de variance 2,5. Ici on connaît la loi de X, on peut calculer la probabilité effective P(½ X - 5½ ³ 4) :
½ X - 5½³ 4 Û X - 5 ³ 4 ou X - 5 £- 4 Û X ³ 9 ou X £ 1 Û X Î {0, 1, 9, 10}. On obtient :
P(½ X - 5½ ³ 4) = 22.(0,5)¹⁰ » 0,021
La majoration fournie par l'inégalité de B.T est donc très médiocre, mais elle est universelle, et d'une importance théorique considérable...

Dem de l'inégalité de B.T :
Cas discret : X(W ) = {x₁, x₂, ... }

Cas continu : X de densité f.

Loi faible des grands nombres

Théorème. Soit (X_n) une suite de v.a indépendantes et de même loi, d'espérance m et de variance s²positive.

Alors, pour tout e > 0 :

Et par conséquent :

Exemple. On lance une pièce de monnaie indéfiniment, la probabilité d'obtenir "pile" étant p.
Avec X_i = 1 si on obtient pile au i-ème jet, 0 sinon, la somme de X_i de i = 1 à i = n est le nombre de "pile" obtenu au cours des n premiers jets, et Z_n la fréquence d'apparition de "pile" au cours des n premiers jets. On a m = p et s² = p(1 - p). La loi faible des grands nombres fournit dans ce cas-là :

(la dernière inégalité car p(1 - p) £ 1/4 sur [0, 1], comme on s'en persuade en étudiant la fonction.)
C'est à dire que la probabilité que la fréquence observée d'apparition du "pile" s'écarte de la fréquence théorique d'apparition du "pile" (sa probabilité) de plus de e tend vers 0 quand le nombre de jets tend vers +¥ , même si e est très petit : la fréquence observée a toutes les chances de converger vers la fréquence théorique, ce que confirme l'expérience.

Démonstration de la loi faible des grands nombres : on applique B.T à Z_n, dont l'espérance est égale à m, et la variance à s²/n.

Convergence en probabilité

On dit que la suite de v.a (X_n) converge en probabilité vers la v.a X ssi :

De la loi faible des grands nombres, on déduit alors :
Soit (X_n) une suite de v.a indépendantes et de même loi, d'espérance m et de variance s²positive.
Alors la suite (Z_n) des moyennes empiriques définies par

converge en probabilité vers la v.a certaine m.

2°) convergence en loi. Approximations. Théorème de la limite centrée.

Convergence en loi.
Définition : On dit que la suite (X_n) de v.a converge en loi vers la v.a X ssi :

en tout point x où la fonction de répartition de X est continue.

Proposition : Soit X_n et X des v.a prenant leurs valeurs dans N. Alors la suite (X_n) converge en loi vers X ssi :

Exemple : On a vu au chapitre III que, avec X_n qui suit la loi B(n, l /n), la suite (X_n) converge en loi vers X qui suit la loi de Poisson de paramètre l .

Approximations
Quand la suite (X_n) converge en loi vers X, pour n assez grand, P(X_n = k) est une approximation de P(X = k). Les approximations suivantes ont une grande importance pratique :

* Si n /N < 1/10, la loi H(N, n, p) peut être approchée par la loi B(n, p) (n/N est le taux de sondage.)
* Si n est petit et N grand, la loi B(n, p) peut être approchée par la loi P(np).
* Si n est proche de 1/2 et si N est grand, la loi B(n, p) peut être approchée par la loi N(np, Ö (np(1-p)) )
* si l est grand, la loi de Poisson P(l ) peut être approchée par la loi normale N(l ,Öl ).

On remarquera que dans les trois derniers exemples, on approche une loi par une autre loi ayant même espérance, et même variance s'il y a besoin d'ajuster deux paramètres.

Les expressions "petit", "grand", "proche de 1/2", ... n'ont aucune signification rigoureuse. Il existe des critères plus précis. L'énoncé devrait vous donner la loi approximante, à charge pour vous de préciser ses paramètres.

Théorème de la limite centrée

Théorème (admis). Soit (X_n) une suite de v.a indépendantes et de même loi, d'espérance m et de variance s² positive. Alors la variable centrée réduite S_n* associée à S_n = X₁ + X₂ + ... + X_n converge en loi vers une v.a X qui suit la loi normale centrée réduite.

On a E(S_n) = nm, V(S_n) = ns². Donc par définition de "variable centrée réduite" :
.
Le théorème de la limite centrée signifie donc que, pour tout a, b dans R tels que a < b :

Il est remarquable que la loi de X_n n'intervienne pas. Ce théorème "explique" en grande partie l'ubiquité de la loi normale.

retour début
retour index cours