Normalité asymptotique locale

La normalité asymptotique locale, souvent abrégé en NAL ou LAN (de l'Anglais Local Asymptotic Normality) est une propriété de certains modèles statistiques. Informellement, un modèle statistique localement asymptotiquement normal a un rapport de vraisemblance dont la distribution peut être approximée par une loi normale sous certaines conditions, cette approximation découlant typiquement d'un développement limité d'ordre deux de la log-vraisemblance. Cette notion a été introduite par le mathématicien Lucien Le Cam, elle est exposée dans un article[1] publié en 1960 coécrit avec Grace Lo Yang.

Définition informelle

Considérons un modèle statistique générant n {\displaystyle n} données, dénotées par un vecteur X n {\displaystyle X_{n}} de taille n {\displaystyle n} , et dépendant d'un paramètre θ {\displaystyle \theta } . Notons n {\displaystyle \ell _{n}} la fonction de log-vraisemblance de ce modèle. Considérons deux valeurs du paramètre : θ 0 {\displaystyle \theta _{0}} et θ {\displaystyle \theta '} . Supposons que les données X n {\displaystyle X_{n}} soient générées par ce modèle avec θ 0 {\displaystyle \theta _{0}} comme valeur de paramètre, et définissons la variables aléatoire δ θ , θ 0 ( X n ) = n ( X n , θ ) n ( X n , θ ) {\displaystyle \delta \ell _{\theta ',\,\theta _{0}}(X_{n})=\ell _{n}(X_{n},\theta ')-\ell _{n}(X_{n},\theta )} , correspondant à la différence des log-vraisemblances évaluées en θ {\displaystyle \theta '} et en θ {\displaystyle \theta } .

Si le modèle considéré est asymptotiquement localement normal en θ 0 {\displaystyle \theta _{0}} , alors la loi de la variable aléatoire δ θ , θ 0 ( X n ) {\displaystyle \delta \ell _{\theta ',\,\theta _{0}}(X_{n})} peut être approximée par une loi normale. Cette approximation est valable pour n {\displaystyle n} grand (d'où le asymptotiquement) et pour tout θ {\displaystyle \theta '} proche de θ 0 {\displaystyle \theta _{0}} (d'où le localement).

La condition n {\displaystyle n} grand est rendue rigoureuse en utilisant la notion de convergence en loi. La condition et θ {\displaystyle \theta '} proche de θ 0 {\displaystyle \theta _{0}} est quant à elle traduite par le fait que et θ {\displaystyle \theta '} est de la forme θ 0 + r n h {\displaystyle \theta _{0}+r_{n}h} avec r n {\displaystyle r_{n}} une suite de constantes tendant vers 0 (par exemple r n = 1 / n {\displaystyle r_{n}=1/{\sqrt {n}}} dans le cas de données indépendantes et identiquement distribuées), de sorte que plus n {\displaystyle n} est grand, plus θ {\displaystyle \theta '} est proche de θ 0 {\displaystyle \theta _{0}} .

La variable aléatoire δ θ , θ 0 ( X n ) {\displaystyle \delta \ell _{\theta ',\,\theta _{0}}(X_{n})} est la statistique utilisée pour faire un test du rapport de vraisemblance. Elle souvent abusivement appelée rapport de vraisemblance même s'il s'agit en réalité du logarithme du rapport de vraisemblance.

Cas de données indépendantes et identiquement distribuées

Définition de la normalité asymptotique locale

Soit n {\displaystyle n} variables aléatoires X 1 , , X n {\displaystyle X_{1},\cdots ,X_{n}} indépendantes et identiquement distribuées (iid) selon une distribution P θ {\displaystyle P_{\theta }} , dépendant d'un paramètre θ R k {\displaystyle \theta \in \mathbb {R} ^{k}} . Notons sa fonction de vraisemblance p θ ( X ) {\displaystyle p_{\theta }(X)} . La log-vraisemblance ( θ ; X 1 , , X n ) {\displaystyle \ell (\theta ;X_{1},\cdots ,X_{n})} de l'échantillon aléatoire X 1 , , X n {\displaystyle X_{1},\cdots ,X_{n}} s'écrit comme la somme des log-vraisemblances de chaque observation, ( θ ; X 1 , X n ) = i = 1 n log ( p θ ( X i ) ) {\displaystyle \ell (\theta ;X_{1}\cdots ,X_{n})=\sum _{i=1}^{n}\log \left(p_{\theta }(X_{i})\right)} , car les données sont iid.

Appelons P θ n {\displaystyle P_{\theta }^{n}} le modèle statistique générant ces n {\displaystyle n} variables aléatoires. P θ n {\displaystyle P_{\theta }^{n}} est localement asymptotiquement normal si lorsque X 1 , , X n {\displaystyle X_{1},\cdots ,X_{n}} est distribué selon P θ n {\displaystyle P_{\theta }^{n}} ,

h R k {\displaystyle \forall h\in \mathbb {R} ^{k}} , ( θ + h / n ; X 1 , , X n ) ( θ ; X 1 , , X n ) L N ( 1 2 h T I θ h ; h T I θ h ) {\displaystyle \ell \left(\theta +h/{\sqrt {n}};X_{1},\cdots ,X_{n}\right)-\ell \left(\theta ;X_{1},\cdots ,X_{n}\right)\xrightarrow {\mathcal {L}} {\mathcal {N}}\left(-{\frac {1}{2}}h^{T}I_{\theta }h\,;h^{T}I_{\theta }h\right)} ,

L {\displaystyle \xrightarrow {\mathcal {L}} } désigne la converge en loi et N ( 1 2 h T I θ h ; h T I θ h ) {\displaystyle {\mathcal {N}}\left(-{\frac {1}{2}}h^{T}I_{\theta }h\,;h^{T}I_{\theta }h\right)} désigne une loi normale d'espérance h T I θ {\displaystyle h^{T}I_{\theta }} et de variance h T I θ h {\displaystyle h^{T}I_{\theta }h} . La matrice I θ {\displaystyle I_{\theta }} est l'information de Fisher du modèle, définie comme I θ = E θ [ 2 log ( p θ ( X ) ) θ 2 ] {\displaystyle I_{\theta }=-\mathbb {E} _{\theta }\left[{\frac {\partial ^{2}\log(p_{\theta }(X))}{\partial \theta ^{2}}}\right]} .

Distribution, pour différentes tailles d'échantillon n {\displaystyle n} , du log-rapport de vraisemblance évalué en θ = 1 {\displaystyle \theta =1} et θ = 1 + 1 / n {\displaystyle \theta =1+1/{\sqrt {n}}} , lorsque les données sont générées par loi exponentielle d'intensité θ = 1 {\displaystyle \theta =1} . Le log-rapport de vraisemblanceconverge en loi vers une loi normale N ( 1 / 2 , 1 ) {\displaystyle {\mathcal {N}}(-1/2,1)} (en pointillés) car la loi exponentielle est localement asymptotiquement normale.

Établissement non rigoureux de la normalité asymptotique locale

Donnons ici l'intuition, informelle, de la normalité asymptotique locale dans le cas de données iid. Plaçons nous dans le cas k = 1 {\displaystyle k=1} (c'est-à-dire θ {\displaystyle \theta } univarié) et effectuons un développement de Taylor de la log-vraisemblance en θ {\displaystyle \theta }

( θ + h / n ; X 1 , , X n ) = i = 1 n log ( p θ + h n ( X i ) ) i = 1 n log ( p θ ( X i ) ) + h n θ log ( p θ ( X i ) ) + h 2 2 n 2 θ 2 log ( p θ ( X i ) ) = ( θ ; X 1 , , X n ) + h 1 n i = 1 n θ log ( p θ ( X i ) ) h 2 2 1 n i = 1 n 2 θ 2 log ( p θ ( X i ) ) . {\displaystyle {\begin{array}{ccl}\ell (\theta +h/{\sqrt {n}};X_{1},\cdots ,X_{n})&=&\sum _{i=1}^{n}\log \left(p_{\theta +h{\sqrt {n}}}(X_{i})\right)\\&\approx &\sum _{i=1}^{n}\log \left(p_{\theta }(X_{i})\right)+{\frac {h}{\sqrt {n}}}{\frac {\partial }{\partial \theta }}\log \left(p_{\theta }(X_{i})\right)+{\frac {h^{2}}{2n}}{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log \left(p_{\theta }(X_{i})\right)\\&=&\ell (\theta ;X_{1},\cdots ,X_{n})+h{\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}{\frac {\partial }{\partial \theta }}\log \left(p_{\theta }(X_{i})\right)-{\frac {h^{2}}{2}}{\frac {1}{n}}\sum _{i=1}^{n}-{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log \left(p_{\theta }(X_{i})\right)\,.\end{array}}}

De sorte que

l ( θ + h / n ; X 1 , X n ) l ( θ ; X 1 , X n ) h 1 n i = 1 n θ log ( p θ ( X i ) ) h 2 2 1 n i = 1 n 2 θ 2 log ( p θ ( X i ) ) . {\displaystyle l(\theta +h/{\sqrt {n}};X_{1},\ldots X_{n})-l(\theta ;X_{1},\ldots X_{n})\approx h{\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}{\frac {\partial }{\partial \theta }}\log \left(p_{\theta }(X_{i})\right)-{\frac {h^{2}}{2}}{\frac {1}{n}}\sum _{i=1}^{n}-{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log \left(p_{\theta }(X_{i})\right)\,.}

Comme X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} sont iid, le premier terme de cette différence , 1 n i = 1 n θ log ( p θ ( X i ) ) {\displaystyle {\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}{\frac {\partial }{\partial \theta }}\log \left(p_{\theta }(X_{i})\right)} est une somme de variables aléatoires iid, θ log ( p θ ( X 1 ) ) , , θ log ( p θ ( X n ) ) {\displaystyle {\frac {\partial }{\partial \theta }}\log \left(p_{\theta }(X_{1})\right),\ldots ,{\frac {\partial }{\partial \theta }}\log \left(p_{\theta }(X_{n})\right)} , divisée par n {\displaystyle {\sqrt {n}}} . Ces variables ont pour espérance E [ θ log ( p θ ( X i ) ) ] = 0 {\displaystyle \mathbb {E} \left[{\frac {\partial }{\partial \theta }}\log \left(p_{\theta }(X_{i})\right)\right]=0} (d'après la première identité de Bartlett) et pour variance v a r ( θ log ( p θ ( X ) ) ) = I θ {\displaystyle \mathrm {var} \left({\frac {\partial }{\partial \theta }}\log(p_{\theta }(X))\right)=I_{\theta }} (d'après la seconde identité de Bartlett), où comme précédemment, I θ {\displaystyle I_{\theta }} désigne l'information de Fisher. Le théorème central limite implique alors que 1 n i = 1 n θ log ( p θ ( X i ) ) {\displaystyle {\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}{\frac {\partial }{\partial \theta }}\log \left(p_{\theta }(X_{i})\right)} converge en distribution vers une loi normale d'espérance nulle et de variance I θ {\displaystyle I_{\theta }} :

1 n i = 1 n θ log ( p θ ( X i ) ) L N ( 0 , I θ ) {\displaystyle {\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}{\frac {\partial }{\partial \theta }}\log \left(p_{\theta }(X_{i})\right)\xrightarrow {\mathcal {L}} {\mathcal {N}}(0,I_{\theta })} .

Comme X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} sont iid, second terme du développement de Taylor, 1 n i = 1 n 2 θ 2 log ( p θ ( X i ) ) {\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}-{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log \left(p_{\theta }(X_{i})\right)} , est aussi une somme de variables aléatoires iid, divisée par n {\displaystyle n} . Ces variables aléatoires ont pour espérance E θ [ 2 log ( p θ ( X ) ) θ 2 ] = I θ {\displaystyle \mathbb {E} _{\theta }\left[-{\frac {\partial ^{2}\log(p_{\theta }(X))}{\partial \theta ^{2}}}\right]=I_{\theta }} . La loi des grands nombres implique donc que ce terme converge en probabilité vers I θ {\displaystyle I_{\theta }} :

1 n i = 1 n 2 θ 2 log ( p θ ( X i ) ) P I θ {\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}-{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log \left(p_{\theta }(X_{i})\right)\xrightarrow {\mathbb {P} } I_{\theta }}

On a donc asymptotiquement ( θ + h / n ; X 1 , , X n ) ( θ ; X 1 , , X n ) h Z h 2 2 I θ {\displaystyle \ell (\theta +h/{\sqrt {n}};X_{1},\cdots ,X_{n})-\ell (\theta ;X_{1},\cdots ,X_{n})\approx hZ-{\frac {h^{2}}{2}}I_{\theta }} Z {\displaystyle Z} est une variable aléatoire normale d'espérance nulle et de variance I θ {\displaystyle I_{\theta }} , ce qui implique que, asymptotiquement, ( θ + h / n ; X 1 , , X n ) ( θ ; X 1 , , X n ) {\displaystyle \ell (\theta +h/{\sqrt {n}};X_{1},\cdots ,X_{n})-\ell (\theta ;X_{1},\cdots ,X_{n})} suit approximativement une loi normale d'espérance h 2 2 I θ {\displaystyle {\frac {h^{2}}{2}}I_{\theta }} et de variance h 2 I θ {\displaystyle h^{2}I_{\theta }} .

Si le développement précédent avait été fait plus rigoureusement et qu'une convergence en loi avait été établie au lieu du "suit approximativement" de la phrase précédente, cela correspondrait à la définition de la normalité asymptotique locale.

Ce développement, fait sans rigueur dans le but de donner une intuition de la normalité asymptotique locale, peut être rendu rigoureux si le modèle P θ {\displaystyle P_{\theta }} satisfait certaines conditions. Il faut en particulier, pour que les formules écrites ci-dessus aient du sens, que sa log-vraisemblance soit deux fois dérivable, et que ces dérivées aient des moments finis, mais ces conditions seules ne sont pas suffisantes. Une condition suffisante (mais pas nécessaire) est la différentiabilité en moyenne quadratique.

Différentiabilité en moyenne quadratique

Si le modèle statistique P θ {\displaystyle P_{\theta }} est différentiable en moyenne quadratique, alors, le modèle P θ n {\displaystyle P_{\theta }^{n}} , générant n {\displaystyle n} variables aléatoires iid selon P θ {\displaystyle P_{\theta }} est localement asymptotiquement normal.

Un modèle est différentiable en moyenne quadratique en θ {\displaystyle \theta } s'il existe ˙ ( θ ) R k {\displaystyle {\dot {\ell }}(\theta )\in \mathbb {R} ^{k}} tel que pour tout h {\displaystyle h} , ( p θ + h p θ 1 2 h T ˙ ( θ ) p θ ) 2 = o ( h 2 ) {\displaystyle \int \left({\sqrt {p_{\theta }+h}}-{\sqrt {p_{\theta }}}-{\frac {1}{2}}h^{T}{\dot {\ell }}(\theta ){\sqrt {p_{\theta }}}\right)^{2}=o(\lVert h\rVert ^{2})} p θ {\displaystyle p_{\theta }} est la vraisemblance du modèle P θ {\displaystyle P_{\theta }} et l'intégrale est prise sur le support de p θ {\displaystyle p_{\theta }} et le o {\displaystyle o} désigne la notation de Landau au voisinage de 0[2].

Beaucoup de modèles classiques (par exemple le modèle normal, exponentiel, Poisson) sont différentiables en moyenne quadratique, et le vecteur ˙ ( θ ) {\displaystyle {\dot {\ell }}(\theta )} correspond à la dérivée de la log-vraisemblance. Une exception notable est la loi uniforme sur un intervalle [ 0 , θ ] {\displaystyle [0,\theta ]} qui n'est pas différentiable en moyenne quadratique, et n'est d'ailleurs pas non plus localement asymptotiquement normal.

Définition générale

La définition ci-dessous donne une notion de la normalité asymptotique locale plus générale, qui ne s'applique pas qu'à des variables aléatoires iid.

Une suite P θ n {\displaystyle P_{\theta }^{n}} de modèles statistiques de paramètre θ R k {\displaystyle \theta \in \mathbb {R} ^{k}} est localement asymptotiquement normale si il existe :

  • une suite de matrices carrées inversibles r n M k ( R ) {\displaystyle r_{n}\in {\mathcal {M}}_{k}(\mathbb {R} )} ,
  • une matrice carrée I θ M k ( R ) {\displaystyle I_{\theta }\in {\mathcal {M}}_{k}(\mathbb {R} )} ,
  • une suite vecteurs aléatoires Δ n , θ {\displaystyle \Delta _{n,\theta }} telle que Δ n , θ L N ( 0 , I θ ) {\displaystyle \Delta _{n,\theta }\xrightarrow {\mathcal {L}} {\mathcal {N}}(0,I_{\theta })} ,

tels que pour toute suite h n {\displaystyle h_{n}} de R k {\displaystyle \mathbb {R} ^{k}} convergeant vers h R k {\displaystyle h\in \mathbb {R} ^{k}} , on ait

log [ d P θ + r n 1 h n n d P θ n ( X 1 , , X n ) ] = h T Δ n , θ 1 2 h T I θ h + o P ( 1 ) {\displaystyle \log \left[{\frac {\mathrm {d} P_{\theta +r_{n}^{-1}h_{n}}^{n}}{\mathrm {d} P_{\theta }^{n}}}(X_{1},\ldots ,X_{n})\right]=h^{T}\Delta _{n,\theta }-{\frac {1}{2}}h^{T}I_{\theta }h+o_{P}(1)}

lorsque X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} sont générés par P θ n {\displaystyle P_{\theta }^{n}} [3].

Ici, la notation d P θ + r n 1 h n n d P θ n {\displaystyle {\frac {\mathrm {d} P_{\theta +r_{n}^{-1}h_{n}}^{n}}{\mathrm {d} P_{\theta }^{n}}}} désigne la dérivée de Radon-Nykodym de la mesure de probabilité du modèle P θ + r n 1 h n n {\displaystyle P_{\theta +r_{n}^{-1}h_{n}}^{n}} par rapport à la mesure du modèle P θ n {\displaystyle P_{\theta }^{n}} . Le modèle P θ + r n 1 h n n {\displaystyle P_{\theta +r_{n}^{-1}h_{n}}^{n}} correspond au modèle P θ n {\displaystyle P_{\theta }^{n}} à la différence que le paramètre θ {\displaystyle \theta } est changé en θ + r n 1 h n {\displaystyle \theta +r_{n}^{-1}\,h_{n}} , la suite r n {\displaystyle r_{n}} étant typiquement de norme tendant vers l'infini. En pratique, d P θ + r n 1 h n n d P θ n {\displaystyle {\frac {\mathrm {d} P_{\theta +r_{n}^{-1}h_{n}}^{n}}{\mathrm {d} P_{\theta }^{n}}}} correspond au rapport de la vraisemblance du modèle évaluée en θ + r n 1 h n {\displaystyle \theta +r_{n}^{-1}\,h_{n}} sur la vraisemblance du modèle évaluée en θ {\displaystyle \theta } .

La notation o P ( 1 ) {\displaystyle o_{P}(1)} désigne ici une variable aléatoire tendant vers 0 en probabilités. Même si cela n'est pas rendu explicite, il faut noter que ce terme o P ( 1 ) {\displaystyle o_{P}(1)} peut dépendre de θ {\displaystyle \theta } , de sorte que la convergence n'es pas uniforme par rapport à θ {\displaystyle \theta } .

Comme le vecteur h T Δ n , θ 1 2 h T I θ h {\displaystyle h^{T}\Delta _{n,\theta }-{\frac {1}{2}}h^{T}I_{\theta }h} suit une loi normale d'espérance 1 2 h T I θ h {\displaystyle -{\frac {1}{2}}h^{T}I_{\theta }h} et de variance h T I θ h {\displaystyle h^{T}I_{\theta }h} , cette définition s'interprète souvent comme imposant que le log du rapport de vraisemblance suive asymptotiquement une loi normale N ( 1 2 h T I θ h , h T I θ h ) {\displaystyle {\mathcal {N}}(-{\frac {1}{2}}h^{T}I_{\theta }h\,,\,h^{T}I_{\theta }h)} d'espérance 1 2 h T I θ h {\displaystyle -{\frac {1}{2}}h^{T}I_{\theta }h} et de variance h T I θ h {\displaystyle h^{T}I_{\theta }h} .

Dans le cas de données iid, I θ {\displaystyle I_{\theta }} correspond à l'information de Fisher et la suite de matrice r n {\displaystyle r_{n}} est simplement r n = n I k {\displaystyle r_{n}={\sqrt {n}}\,I_{k}} I k {\displaystyle I_{k}} est la matrice identité de R k {\displaystyle \mathbb {R} ^{k}} .

Lien avec la contiguïté

En reprenant les notations précédentes, la normalité asymptotique locale d'un modèle statistique P θ {\displaystyle P_{\theta }} implique la contiguïté mutuelle des mesures P θ {\displaystyle P_{\theta }} et P θ + r n 1 h n {\displaystyle P_{\theta +r_{n}^{-1}h_{n}}} (ou P θ + h / n {\displaystyle P_{\theta +h/{\sqrt {n}}}} dans le cas d'un modèle iid).

Théorème — Soit P θ {\displaystyle P_{\theta }} un modèle statistique de paramètre θ R k {\displaystyle \theta \in \mathbb {R} ^{k}} . Si P θ {\displaystyle P_{\theta }} est localement asymptotiquement normal, alors P θ P θ + r n 1 h n {\displaystyle P_{\theta }\triangleleft \triangleright P_{\theta +r_{n}^{-1}h_{n}}} , où h n {\displaystyle h_{n}} est une suite de R k {\displaystyle \mathbb {R} ^{k}} convergeant vers k R k {\displaystyle k\in \mathbb {R} ^{k}} et r n {\displaystyle r_{n}} est la suite de matrice telle que définie dans la définition générale de la normalité asymptotique locale de P θ {\displaystyle P_{\theta }} .

La preuve de ce résultat découle du premier lemme de Le Cam.

Démonstration

Comme P θ {\displaystyle P_{\theta }} est localement asymptotiquement normal, il existe une suite de matrices inversibles r n {\displaystyle r_{n}} et une matrice I θ {\displaystyle I_{\theta }} telles que pour toute suite h n {\displaystyle h_{n}} convergeant vers un h R k {\displaystyle h\in \mathbb {R} ^{k}} , log ( d P θ + r n 1 h n d P θ ) {\displaystyle \log \left({\frac {\mathrm {d} P_{\theta +r_{n}^{-1}h_{n}}}{\mathrm {d} P_{\theta }}}\right)} converge en distribution vers une loi normale N ( 1 2 h T I θ h , h T I θ h ) {\displaystyle {\mathcal {N}}(-{\frac {1}{2}}h^{T}I_{\theta }h\,,\,h^{T}I_{\theta }h)} . Cela implique, puisque l'application exponentielle est continue, que d P θ + r n 1 h n d P θ {\displaystyle {\frac {\mathrm {d} P_{\theta +r_{n}^{-1}h_{n}}}{\mathrm {d} P_{\theta }}}} converge en distribution vers une loi log-normale de paramètres μ = 1 2 h T I θ h {\displaystyle \mu =-{\frac {1}{2}}h^{T}I_{\theta }h} et σ 2 = h T I θ h {\displaystyle \sigma ^{2}=h^{T}I_{\theta }h} . On a donc que l'espérance de la limite en loi de d P θ + r n 1 h n d P θ {\displaystyle {\frac {\mathrm {d} P_{\theta +r_{n}^{-1}h_{n}}}{\mathrm {d} P_{\theta }}}} vaut e μ + σ 2 / 2 = e 0 = 1 {\displaystyle e^{\mu +\sigma ^{2}/2}=e^{0}=1} . Par ailleurs, On a donc, pour reprendre les termes exacts du lemme, que si une sous suite de d P θ + r n 1 h n d P θ {\displaystyle {\frac {\mathrm {d} P_{\theta +r_{n}^{-1}h_{n}}}{\mathrm {d} P_{\theta }}}} convergeant en loi vers une variable U {\displaystyle U} , alors E [ U ] = 1 {\displaystyle E[U]=1} (puisque U {\displaystyle U} est de loi log-normale), et donc P θ + r n 1 h n P θ {\displaystyle P_{\theta +r_{n}^{-1}h_{n}}\triangleleft P_{\theta }} . Par ailleurs, comme la loi log-normale à pour support ] 0 ; + [ {\displaystyle ]0;+\infty [} , U {\displaystyle U} vérifie nécessairement que P ( U > 0 ) = 1 {\displaystyle P(U>0)=1} , et donc, P θ P θ + r n 1 h n {\displaystyle P_{\theta }\triangleleft P_{\theta +r_{n}^{-1}h_{n}}} . Finalement, P θ P θ + r n 1 h n {\displaystyle P_{\theta }\triangleleft \triangleright P_{\theta +r_{n}^{-1}h_{n}}} .

Application

Une application de la normalité asymptotique locale découle d'un corollaire du 3ème lemme de Le Cam. Ce corollaire permet de connaître la distribution asymptotique d'une statistique T ( X n ) {\displaystyle T(X^{n})} si les variables aléatoires X n {\displaystyle X^{n}} sont générées par un modèle statistique dont le paramètre n'est pas fixe, mais converge vers une valeur fixe θ {\displaystyle \theta } . On parle de connaître la distribution asymptotique de T ( X n ) {\displaystyle T(X^{n})} sous une suite d'alternatives, ou encore de changement de mesure.

Ce corollaire stipule que si

  • T ( X n ) {\displaystyle T(X^{n})} est une statistique à valeurs dans R p {\displaystyle \mathbb {R} ^{p}} ,
  • P n {\displaystyle P_{n}} et Q n {\displaystyle Q_{n}} sont deux suites de mesures (ou modèles statistiques), telles que le vecteur ( T ( X n ) , log d Q n d P n ) L N ( ( μ σ 2 / 2 ) , ( Σ τ τ T σ 2 ) ) {\displaystyle \left(T(X^{n})\,,\,\log {\frac {\mathrm {d} Q_{n}}{\mathrm {d} P_{n}}}\right)\,\xrightarrow {\mathcal {L}} \,{\mathcal {N}}\left(\left({\begin{array}{c}\mu \\-\sigma ^{2}/2\end{array}}\right)\,,\,\left({\begin{array}{cc}\Sigma &\tau \\\tau ^{T}&\sigma ^{2}\end{array}}\right)\right)} pour μ , τ , σ R × R × R + {\displaystyle \mu ,\tau ,\sigma \in \mathbb {R} \times \mathbb {R} \times \mathbb {R} _{+}} , lorsque les X n {\displaystyle X^{n}} sont générés par P n {\displaystyle P_{n}} ,

alors, la statistique T ( X n ) L N ( μ + τ , Σ ) {\displaystyle T(X^{n})\xrightarrow {\mathcal {L}} \,{\mathcal {N}}(\mu +\tau \,,\,\Sigma )} lorsque les X n {\displaystyle X^{n}} sont générés par Q n {\displaystyle Q_{n}} .

Choisir P n = P θ n {\displaystyle P_{n}=P_{\theta }^{n}} et Q n = P θ + h / n n {\displaystyle Q_{n}=P_{\theta +h/{\sqrt {n}}}^{n}} avec un modèle P θ n {\displaystyle P_{\theta }^{n}} localement asymptotiquement permet généralement de satisfaire les hypothèses du corollaire. Cela permet alors de connaitre la distribution de T ( X n ) {\displaystyle T(X^{n})} lorsque le paramètre qui génère les données X n {\displaystyle X^{n}} n'est pas θ {\displaystyle \theta } mais θ + h / n {\displaystyle \theta +h/{\sqrt {n}}} .

La normalité asymptotique de P θ n {\displaystyle P_{\theta }^{n}} n'implique pas directement que les hypothèses du 3ème lemme de Le Cam soient satisfaites, mais elle y aide. En effet, la normalité asymptotique locale implique que log d P θ + h / n n d P θ n {\displaystyle \log {\frac {\mathrm {d} P_{\theta +h/{\sqrt {n}}}^{n}}{\mathrm {d} P_{\theta }^{n}}}} converge en loi vers une distribution normale N ( σ 2 / 2 , σ 2 ) {\displaystyle {\mathcal {N}}(-\sigma ^{2}/2\,,\,\sigma ^{2})} , avec σ 2 = h T I θ h {\displaystyle \sigma ^{2}=h^{T}I_{\theta }h} .

Il est par ailleurs assez classique pour une statistique T ( X n ) {\displaystyle T(X^{n})} d'avoir une distribution asymptotique de la forme N ( μ , Σ ) {\displaystyle {\mathcal {N}}(\mu ,\Sigma )} . Il ne reste alors généralement qu'à montrer que le vecteur ( T ( X n ) , log d P θ + h / n n d P θ n ) {\displaystyle \left(T(X^{n})\,,\,\log {\frac {\mathrm {d} P_{\theta +h/{\sqrt {n}}}^{n}}{\mathrm {d} P_{\theta }^{n}}}\right)} est un vecteur gaussien (car deux vecteurs gaussiens ne forment pas nécessairement un vecteur gaussien lorsqu'ils sont concaténés), ce qui est généralement faisable.

Voir aussi

Références

  1. Lucien Le Cam et Grace Lo Yang, « Locally Asymptotically Normal Families », dans Springer Series in Statistics, Springer US, (ISBN 978-1-4684-0379-4, lire en ligne), p. 52–98
  2. « Elisabeth Gassiat, Statistiques Asymptotiques-Note de cours-M2 »
  3. A. W. van der Vaart, Asymptotic Statistics, Cambridge University Press, (ISBN 978-0-511-80225-6, 978-0-521-49603-2 et 978-0-521-78450-4, lire en ligne)
  • icône décorative Portail des probabilités et de la statistique
  • icône décorative Portail de l'analyse