Quantil (Wahrscheinlichkeitstheorie)

Dieser Artikel behandelt Quantile von Wahrscheinlichkeitsverteilungen und Zufallsvariablen. Für Quantile von Stichproben siehe Empirisches Quantil.
Zwei Beispiele: Einmal die Standardnormalverteilung und einmal eine Chi-Quadrat-Verteilung mit drei Freiheitsgraden (schiefe Verteilung). Den jeweiligen Wahrscheinlichkeiten werden ihre Quantile zugeordnet; die Fläche unter der abgebildeten Dichte von minus unendlich bis zum Quantil ist der jeweilige Wert.

Ein Quantil (anhören/?) ist ein Lagemaß in der Statistik für Wahrscheinlichkeitsverteilungen oder gleichwertig für Zufallsvariablen. Auch die empirische Schätzung eines Quantils aus einer Zufallsstichprobe wird Quantil genannt. Ein p {\displaystyle p} -Quantil teilt eine Wahrscheinlichkeitsverteilung in einen linken Teil mit der Wahrscheinlichkeit p {\displaystyle p} und einen rechten Teil mit der Wahrscheinlichkeit 1 p {\displaystyle 1-p} . Für ein empirisches Quantil gilt: Ein bestimmter Anteil der beobachteten Werte, z. B. der Werte aus einer Zufallsstichprobe, ist kleiner als das Quantil, der Rest ist größer. Das 25-%-Quantil beispielsweise ist der Wert, für den gilt, dass 25 % aller Werte kleiner oder gleich diesem Wert sind. Empirische Quantile formalisieren praktische Aussagen wie „25 % aller Frauen sind kleiner als 1,62 m“ – hierbei ist 1,62 m das 25-%-Quantil.

Genauer ist das p {\displaystyle p} -Quantil, wobei p {\displaystyle p} eine reelle Zahl zwischen 0 und 1 ist, ein Wert einer Variablen oder Zufallsvariablen, der die Menge aller Merkmalswerte (salopp „die Verteilung“) in zwei Abschnitte unterteilt: Links vom p {\displaystyle p} -Quantil liegt der Anteil p   ( = 100 p % ) {\displaystyle p\ (=100p\,\%)} aller Beobachtungswerte oder der Gesamtzahl der Zufallswerte oder der Fläche unter der Dichtekurve; rechts davon liegt der jeweilige restliche Anteil 1 p   ( = 100 ( 1 p ) % ) {\displaystyle 1-p\ (=100(1-p)\,\%)} . Die Zahl p {\displaystyle p} heißt auch der Unterschreitungsanteil.

Spezielle Quantile sind der Median, die Quartile, die Quintile, die Dezile und die Perzentile.

Als Quantil der Ordnung p {\displaystyle p} oder p {\displaystyle p} -Quantil Q ( p ) {\displaystyle Q(p)} (veraltet auch „Fraktil“) wird in der Statistik ein Merkmalswert bezeichnet, unterhalb dessen ein vorgegebener Anteil p {\displaystyle p} aller Fälle der Verteilung liegt. Jeder Wert unterhalb von Q ( p ) {\displaystyle Q(p)} unterschreitet diesen vorgegebenen Anteil. Dabei kann der Unterschreitungsanteil p {\displaystyle p} auch als eine reelle Zahl zwischen 0 (gar kein Fall der Verteilung) und 1 (alle Fälle bzw. 100 % der Verteilung) angegeben werden.

Definition

Für Wahrscheinlichkeitsverteilungen

Gegeben sei eine Wahrscheinlichkeitsverteilung P {\displaystyle P} auf ( R , B ( R ) ) {\displaystyle (\mathbb {R} ,{\mathcal {B}}(\mathbb {R} ))} , also den reellen Zahlen, versehen mit der Borelschen σ-Algebra.

Dann heißt eine reelle Zahl x p {\displaystyle x_{p}} ein p {\displaystyle p} -Quantil (von P {\displaystyle P} ), wenn gilt:[1]

P ( ( , x p ] ) p {\displaystyle P((-\infty ,x_{p}])\geq p\quad } und P ( [ x p , + ) ) 1 p {\displaystyle \quad P([x_{p},+\infty ))\geq 1-p} .

Insbesondere kann mehr als ein p {\displaystyle p} -Quantil existieren.

Für Zufallsvariablen

Gegeben sei eine reelle Zufallsvariable X {\displaystyle X} .

Dann heißt eine reelle Zahl x p {\displaystyle x_{p}} ein p {\displaystyle p} -Quantil (von X {\displaystyle X} ), wenn gilt:[1]

P ( X x p ) p {\displaystyle P(X\leq x_{p})\geq p\quad } und P ( x p X ) 1 p {\displaystyle \quad P(x_{p}\leq X)\geq 1-p} .

Damit sind die p {\displaystyle p} -Quantile der Zufallsvariablen X {\displaystyle X} genau die p {\displaystyle p} -Quantile ihrer Verteilung P X {\displaystyle P_{X}} .

Definition über Verteilungsfunktionen

Ebenso lassen sich Quantile auch über Verteilungsfunktionen definieren. Ist F {\displaystyle F} die Verteilungsfunktion von P {\displaystyle P} oder von X {\displaystyle X} , so heißt x p {\displaystyle x_{p}} ein p {\displaystyle p} -Quantil, wenn

F ( x p ) p {\displaystyle F(x_{p})\geq p\quad } und lim t x p F ( t ) p {\displaystyle \quad \lim _{t\uparrow x_{p}}F(t)\leq p} .

Hierbei bezeichnet lim t x p F ( t ) {\displaystyle \lim _{t\uparrow x_{p}}F(t)} den linksseitigen Grenzwert.

Definition empirischer Quantile

Als Schätzung eines p {\displaystyle p} -Quantils bei einer gegebenen Zufallsstichprobe x 1 , , x n {\displaystyle x_{1},\ldots ,x_{n}} , ist das entsprechende empirische Quantil x ( p ) {\displaystyle x_{(p)}} definiert durch:

für wenigstens p n {\displaystyle pn} der Werte gilt x i x ( p ) {\displaystyle x_{i}\leq x_{(p)}}
für wenigstens ( 1 p ) n {\displaystyle (1-p)n} der Werte gilt x i x ( p ) {\displaystyle x_{i}\geq x_{(p)}}

Bestimmung und Beispiele

Bei stetigen Verteilungsfunktionen

Ist die Verteilungsfunktion F {\displaystyle F} der Zufallsvariable oder der Wahrscheinlichkeitsverteilung stetig, die Verteilung also eine stetige Wahrscheinlichkeitsverteilung, so vereinfacht sich die Definition. Das p {\displaystyle p} -Quantil x p {\displaystyle x_{p}} ist dann eine Lösung der Gleichung

F ( x p ) = p {\displaystyle F(x_{p})=p}

Dies folgt aus der Definition des p {\displaystyle p} -Quantils über die Verteilungsfunktion, da der linksseitige Grenzwert im dritten Kriterium aufgrund der Stetigkeit dann mit dem Funktionswert an der Stelle x p {\displaystyle x_{p}} übereinstimmt.

Beispiel

Betrachtet man die Exponential-Verteilung mit Parametern λ > 0 {\displaystyle \lambda >0} , so besitzt sie die Verteilungsfunktion

F ( x ) = { 1 e λ x x 0 , 0 x < 0. {\displaystyle F(x)={\begin{cases}1-\mathrm {e} ^{-\lambda x}&x\geq 0,\\0&x<0.\end{cases}}}

Auflösen der Gleichung

1 e λ x = p {\displaystyle 1-\mathrm {e} ^{-\lambda x}=p}

für ein p ( 0 , 1 ) {\displaystyle p\in (0,1)} nach x {\displaystyle x} liefert das p {\displaystyle p} -Quantil. Hier ist

x p = ln ( 1 p ) λ {\displaystyle x_{p}=-{\frac {\ln(1-p)}{\lambda }}} .

Ist die Verteilungsfunktion auf einem Intervall konstant, so existieren mehrdeutige p {\displaystyle p} -Quantile. Betrachtet man die Verteilungsfunktion

F ( x ) = { 0  für  x 1 x + 1  für  1 < x 1 2 1 2  für  1 2 < x 1 2 x  für  1 2 < x 1 1  für  1 x {\displaystyle F(x)={\begin{cases}0&{\text{ für }}\quad x\leq -1\\x+1&{\text{ für }}\quad -1<x\leq -{\tfrac {1}{2}}\\{\tfrac {1}{2}}&{\text{ für }}\quad -{\tfrac {1}{2}}<x\leq {\tfrac {1}{2}}\\x&{\text{ für }}\quad {\tfrac {1}{2}}<x\leq 1\\1&{\text{ für }}\quad 1\leq x\end{cases}}} ,

so besitzt die Gleichung

F ( x ) = 1 2 {\displaystyle F(x)={\tfrac {1}{2}}}

unendlich viele Lösungen. Jedes x {\displaystyle x} aus dem Intervall [ 1 2 , 1 2 ] {\displaystyle [-{\tfrac {1}{2}},{\tfrac {1}{2}}]} ist dann ein 1 2 {\displaystyle {\tfrac {1}{2}}} -Quantil (also ein Median).

Bei Existenz einer Wahrscheinlichkeitsdichtefunktion

Besitzt die Zufallsvariable beziehungsweise die Wahrscheinlichkeitsverteilung eine Wahrscheinlichkeitsdichtefunktion f {\displaystyle f} (sie ist demnach eine absolutstetige Verteilung), so ist das p {\displaystyle p} -Quantil x p {\displaystyle x_{p}} Lösung der Gleichung

x p f ( x ) d x = p {\displaystyle \int _{-\infty }^{x_{p}}f(x)\mathrm {d} x=p} .

Dies folgt direkt aus der Tatsache, dass absolutstetige Verteilungen immer eine stetige Verteilungsfunktion besitzen, diese sich über das Integral bestimmen lässt, und der Aussage im obigen Abschnitt.

Beispiel

Bei Verteilungen mit Wahrscheinlichkeitsdichtefunktionen treten mehrdeutige Quantile dann auf, wenn die Dichtefunktion auf einem Intervall konstant null ist. So besitzt die oben über die Verteilungsfunktion definierte Verteilung die Wahrscheinlichkeitsdichtefunktion

f ( x ) = { 1  falls  x ( 1 , 1 2 ] ( 1 2 , 1 ] 0  sonst  {\displaystyle f(x)={\begin{cases}1&{\text{ falls }}\quad x\in (-1,-{\tfrac {1}{2}}]\cup ({\tfrac {1}{2}},1]\\0&{\text{ sonst }}\end{cases}}}

Der oben hergeleitete mehrdeutige Median wird hier durch das Intervall ( 1 2 , 1 2 ] {\displaystyle (-{\tfrac {1}{2}},{\tfrac {1}{2}}]} verursacht, auf dem die Wahrscheinlichkeitsdichtefunktion konstant gleich null ist.

Nicht-Eindeutigkeit und eindeutige Definition

Quantile q i {\displaystyle q_{i}} zu den Wahrscheinlichkeiten p i {\displaystyle p_{i}}
Die Quantilfunktion F X 1 ( p ) {\displaystyle F_{X}^{-1}(p)}

Ist F X {\displaystyle F_{X}} invertierbar, beispielsweise bei stetigen Verteilungen mit streng monotoner Verteilungsfunktion, fallen obere und untere Grenze zusammen, wodurch die obengenannte Menge einelementig bzw. das p {\displaystyle p} -Quantil eindeutig wird.

Die Funktion F X 1 : ( 0 , 1 ) R {\displaystyle F_{X}^{-1}\colon (0,1)\to \mathbb {R} } heißt Quantilsfunktion oder verallgemeinerte inverse Verteilungsfunktion, der Wert F X 1 ( p ) {\displaystyle F_{X}^{-1}(p)} , zuweilen auch Q X ( p ) {\displaystyle Q_{X}(p)} geschrieben, dementsprechend p {\displaystyle p} -Quantil von F X {\displaystyle F_{X}} oder von X {\displaystyle X} . (Wenn klar ist, welche Zufallsvariable gemeint ist, wird diese oft auch weggelassen.)

In den Grafiken rechts ist q 2 {\displaystyle q_{2}} das eindeutige p 2 {\displaystyle p_{2}} -Quantil, ferner ist q 3 {\displaystyle q_{3}} das eindeutige p 3 {\displaystyle p_{3}} -Quantil, p 3 + {\displaystyle p_{3}^{+}} -Quantil sowie p 3 {\displaystyle p_{3}^{-}} -Quantil.

Hat F X {\displaystyle F_{X}} eine Sprungstelle bei q {\displaystyle q} , ist also P ( X = q ) > 0 {\displaystyle P(X=q)>0} , so gilt F X ( F X 1 ( p ) ) > p {\displaystyle F_{X}(F_{X}^{-1}(p))>p} für fast alle p {\displaystyle p} mit F X 1 ( p ) = q {\displaystyle F_{X}^{-1}(p)=q} .

In der Grafik rechts oben ist P ( X = q 3 ) = P ( X q 3 ) P ( X < q 3 ) = p 3 + p 3   >   0 {\displaystyle P(X=q_{3})=P(X\leq q_{3})-P(X<q_{3})=p_{3}^{+}-p_{3}^{-}\ >\ 0}

und daher F ( F 1 ( p 3 + ) ) = F ( F 1 ( p 3 ) ) = F ( q 3 ) = p 3 +   >   p 3 {\displaystyle F(F^{-1}(p_{3}^{+}))=F(F^{-1}(p_{3}^{-}))=F(q_{3})=p_{3}^{+}\ >\ p_{3}^{-}} .

Ist F X {\displaystyle F_{X}} für ein p {\displaystyle p} nicht invertierbar, also ein Stück weit konstant, besitzt die Quantilfunktion F X 1 {\displaystyle F_{X}^{-1}} für dieses p {\displaystyle p} eine Sprungstelle, bei der sie als Funktionswert das kleinstmögliche p {\displaystyle p} -Quantil angibt. In der Grafik ist

  • q 1 = F X 1 ( p 1 ) {\displaystyle q_{1}^{-}=F_{X}^{-1}(p_{1})} das kleinstmögliche p 1 {\displaystyle p_{1}} -Quantil,
  • q 1 + {\displaystyle q_{1}^{+}} das größtmögliche p 1 {\displaystyle p_{1}} -Quantil, und
  • jedes q 1 ( q 1 , q 1 + ) {\displaystyle q_{1}\in (q_{1}^{-},q_{1}^{+})} ein weiteres p 1 {\displaystyle p_{1}} -Quantil.

Beim oft verwendeten 50-%-Quantil sind zur besseren Unterscheidung sogar eigene Begrifflichkeiten üblich: Der Untermedian F X 1 ( 0 , 5 ) {\displaystyle F_{X}^{-1}(0{,}5)} ist das kleinstmögliche 50-%-Quantil, der Median das mittlere 50-%-Quantil und der Obermedian das größtmögliche 50-%-Quantil, wobei alle drei deutlich auseinanderfallen können.

Beispiel

Das Quantil Q 0 , 3 {\displaystyle Q_{0{,}3}} (also das 0,3-Quantil) ist der Wert der Stelle einer Verteilung, unterhalb deren sich 30 % aller Fälle der Verteilung befinden.

Ein p {\displaystyle p} -Quantil mit Unterschreitungsanteil

Besondere Quantile

Für einige bestimmte p {\displaystyle p} haben die p {\displaystyle p} -Quantile zusätzliche Bezeichnungen.

Median

Hauptartikel: Median

Der Median oder Zentralwert entspricht dem Quantil Q 0 , 5 {\displaystyle Q_{0{,}5}} (0,5-Quantil). Für eine Zufallsstichprobe gilt, dass circa 50 % der in ihr enthaltenen Werte kleiner als der Median sind. Für eine Verteilung gilt, dass der Median der Wert ist, bei dem die kumulative Verteilungsfunktion den Wert 0.5 annimmt.

Terzil

Durch Terzile wird die größengeordnete Menge der Werte in drei Abschnitte gleichen Umfangs geteilt: unteres, mittleres und oberes Drittel.

Quartil

Darstellung des Interquartilabstands einer Normalverteilung

Quartile (lateinisch „Viertelwerte“) sind die Quantile Q 0 , 25 {\displaystyle Q_{0{,}25}} (0,25-Quantil), Q 0 , 5 {\displaystyle Q_{0{,}5}} (0,5-Quantil = Median) und Q 0 , 75 {\displaystyle Q_{0{,}75}} (0,75-Quantil), die auch als Q1 („unteres Quartil“), Q2 („mittleres Quartil“) und Q3 („oberes Quartil“) bezeichnet werden. Sie sind die in der Statistik mit am häufigsten verwendete Form der Quantile.

Der (Inter-)Quartilabstand oder auch (Inter-)Quartilsabstand (englisch interquartile range) bezeichnet die Differenz zwischen dem oberen und dem unteren Quartil, also Q 0 , 75 Q 0 , 25 {\displaystyle Q_{0{,}75}-Q_{0{,}25}} , und umfasst daher 50 % der Verteilung. Der Quartilabstand wird als Streuungsmaß verwendet.

Siehe auch: Streuung (Statistik)

Quintil

Durch Quintile (lateinisch „Fünftelwerte“) wird die Menge der Werte der Verteilung in 5 umfangsgleiche Teile zerlegt. Unterhalb des ersten Quintils, d. h. des Quantils Q 0 , 2 {\displaystyle Q_{0{,}2}} , liegen 20 % der Werte der Verteilung, unterhalb des zweiten Quintils (Quantil Q 0 , 4 {\displaystyle Q_{0{,}4}} ) 40 % usw.

Dezil

Durch Dezile (lateinisch „Zehntelwerte“) wird die Menge der verteilten Werte in zehn umfangsgleiche Teile zerlegt. Entsprechend liegen dann z. B. unterhalb des dritten Dezils (Quantil Q 0 , 3 {\displaystyle Q_{0{,}3}} ) 30 % der Werte. Dezile teilen ein der Größe nach geordnetes Datenbündel in 10 umfangsgleiche Teile. Das 10-%-Dezil (oder das erste Dezil) gibt an, welcher Wert die unteren 10 % von den oberen 90 % der Datenwerte trennt, das zweite Dezil, welcher Wert die unteren 20 % von den oberen 80 % der Werte trennt usw. Der Abstand zwischen dem 10-%-Dezil und dem 90-%-Dezil heißt Interdezilbereich.

Perzentil

Durch Perzentile (lateinisch „Hundertstelwerte“), auch Prozentränge genannt, wird die Verteilung in 100 umfangsgleiche Teile zerlegt. Perzentile teilen die Verteilung also in 1-%-Segmente auf. Daher können Perzentile als Quantile betrachtet werden, bei denen 100 p {\displaystyle 100\cdot p} eine ganze Zahl ist. So entspricht das Quantil Q 0 , 97 {\displaystyle Q_{0{,}97}} dem Perzentil P97, unterhalb dieses Punktes liegen 97 % aller Fälle der Verteilung.

a-Fraktil

Für a {\displaystyle a} aus ( 0 , 1 ) {\displaystyle (0,1)} wird das ( 1 a ) {\displaystyle (1-a)} -Quantil auch als a {\displaystyle a} -Fraktil bezeichnet. Diese Unterteilung wird z. B. in der als „Paretoprinzip“ bezeichneten Vermutung verwendet.

Siehe auch

Literatur

  • Hans-Otto Georgii: Stochastik, Einführung in die Wahrscheinlichkeitstheorie und Statistik (= De-Gruyter-Lehrbuch). 2. Auflage. de Gruyter, Berlin/New York 2004, ISBN 3-11-018282-3, S. 225 (Definition: Quantil, Quartil, a-Fraktil). 

Einzelnachweise

  1. a b Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, S. 233, doi:10.1515/9783110215274.