Statistique exhaustive

Les statistiques exhaustives sont liées à la notion d'information et en particulier à l'information de Fisher. Elles servent entre autres à améliorer des estimateurs grâce à l'usage du théorème de Rao-Blackwell et du théorème de Lehmann-Scheffé.

Intuitivement, parler d'une statistique exhaustive revient à dire que cette statistique contient l'ensemble de l'information sur le(s) paramètre(s) de la loi de probabilité.

Définition

Soit X {\displaystyle X} un vecteur d'observation de taille n {\displaystyle n} , dont les composantes X i {\displaystyle X_{i}} sont indépendantes et identiquement distribués (iid). Soit θ {\displaystyle \theta } un paramètre influant sur la loi de probabilité à laquelle sont soumis les X i {\displaystyle X_{i}} . Une statistique S ( X ) {\displaystyle S(X)} est dite exhaustive (pour le paramètre θ {\displaystyle \theta } ) si la probabilité conditionnelle d'observer X {\displaystyle X} sachant S ( X ) {\displaystyle S(X)} est indépendante de θ {\displaystyle \theta } . Cela peut se traduire par la formule suivante :

P ( X = x | S ( X ) = s , θ ) = P ( X = x | S ( X ) = s ) , {\displaystyle \mathbb {P} (X=x|S(X)=s,\theta )=\mathbb {P} (X=x|S(X)=s),\,}

En pratique l'on se sert peu de cette formule pour montrer qu'une statistique est exhaustive et l'on préfère en règle générale utiliser le critère suivant appelé critère de factorisation (parfois aussi appelé critère de Fisher-Neyman):

Soit f θ ( x ) {\displaystyle f_{\theta }(x)} la densité de probabilité du vecteur d'observation X {\displaystyle X} . Une statistique S {\displaystyle S} est exhaustive si et seulement s'il existe deux fonctions g et h mesurables telles que:

f θ ( x ) = h ( x ) g ( θ , S ( x ) ) , {\displaystyle f_{\theta }(x)=h(x)\,g(\theta ,S(x)),\,\!}

Premier exemple : modèle exponentiellement distribué

Si X {\displaystyle X} est un vecteur d'observation de n {\displaystyle n} variables iid de loi exponentielle de paramètre θ {\displaystyle \theta } alors S ( X ) = i = 1 n X i {\displaystyle S(X)=\sum _{i=1}^{n}X_{i}} est une statistique exhaustive.

En effet la densité de X {\displaystyle X} est donné par: f θ ( x ) = i = 1 n θ 1 e x i θ {\displaystyle f_{\theta }(x)=\prod _{i=1}^{n}{\theta }^{-1}\mathrm {e} ^{-{\frac {x_{i}}{\theta }}}} qui peut se factoriser comme: f θ ( x ) = θ n e i = 1 n x i θ = θ n e S ( x ) θ {\displaystyle f_{\theta }(x)={\theta ^{-n}}\mathrm {e} ^{-{\frac {\sum _{i=1}^{n}x_{i}}{\theta }}}={\theta ^{-n}}\mathrm {e} ^{-{\frac {S(x)}{\theta }}}} .

Ici on a h ( x ) = 1 {\displaystyle h(x)=1} mais ce n'est pas toujours le cas.

Deuxième exemple : distribution de Poisson

Soient X 1 , . . . . , X n {\displaystyle X_{1},....,X_{n}} des variables iid de distribution de Poisson d'espérance λ {\displaystyle \lambda } , alors S ( X ) = i = 1 n X i {\displaystyle S(X)=\sum _{i=1}^{n}X_{i}} est une statistique exhaustive.

La densité de la loi de X i {\displaystyle X_{i}} est : e λ λ x i x i ! {\displaystyle {e^{-\lambda }\lambda ^{x_{i}} \over x_{i}!}\cdot }

La densité de la loi de X {\displaystyle X} est le produit des densités des X i {\displaystyle X_{i}} car ils sont iid donc : e n λ λ i = 1 n x i 1 x 1 ! x 2 ! x n ! {\displaystyle e^{-n\lambda }\lambda ^{\sum _{i=1}^{n}x_{i}}\cdot {1 \over x_{1}!x_{2}!\cdots x_{n}!}\,\!}

Le critère de factorisation est satisfait avec h ( x ) = 1 x 1 ! x 2 ! x n ! {\displaystyle h(x)={1 \over x_{1}!x_{2}!\cdots x_{n}!}\,\!}

Information apportée par une statistique exhaustive

Dans le cadre de l'information de Fisher pour une statistique on a les deux résultats suivants :

  • Pour une statistique exhaustive on a I S ( θ ) = I ( θ ) {\displaystyle I_{S}(\theta )=I(\theta )} ce qui permet de voir une statistique exhaustive comme une statistique comprenant toute l'information du modèle. On a aussi la réciproque à savoir que si I S ( θ ) = I ( θ ) {\displaystyle I_{S}(\theta )=I(\theta )} alors S est exhaustif bien que cette caractérisation soit rarement utilisée dans ce sens. La définition reposant sur le critère de factorisation des statistiques exhaustives est souvent plus maniable.
  • Quelle que soit la statistique S, I S ( θ ) I ( θ ) {\displaystyle I_{S}(\theta )\leq I(\theta )} avec un cas d'égalité uniquement pour des statistiques exhaustives. On ne peut donc récupérer plus d'information que celle contenue dans une statistique exhaustive. Ceci explique en grande partie l'intérêt des statistiques exhaustives pour l'estimation. La relation d'ordre est ici la relation d'ordre partielle sur les matrices symétriques à savoir qu'une matrice A B {\displaystyle A\leq B} si B A {\displaystyle B-A} est une matrice symétrique positive.

Voir aussi

  • icône décorative Portail des probabilités et de la statistique