Nicht-parametrische Tests
- Vorzeichentest:
- Test auf Wert des Median
- H0: Median m hat Wert m0 (m
= m0)
- H1: m ≠ m0
- Idee
- teste Vorzeichen von X - m0
- neue Zufallsvariable Vi
- ist Bernoulli-Größe mit p = 1/2
- Vorsicht
- gilt zunächst nur bei stetiger
Zufallsgröße
- unstetige Zufallsgröße →
möglicherweise P(Xi = m0 | H0)
≠ 0
- einfache Abhilfe: Stichprobenwerte mit Xi
= m0 werden verworfen
- Teststatistik T = Anzahl der Vi mit Wert 1
- Beispiel Saurer Regen:
- sauberes Regenwasser hat pH-Wert 5.2 - 6.0 (wegen
gelöstem CO2)
- wir definieren "Saurer Regen": pH-Wert < 5.2
- Untersuchung: Ist Regen im Naturschutzpark
Wölfenhausen sauer?
- Messwerte xi des pH-Werts an 16 Tagen
- 4.9387 4.8816 5.2655 5.2952 1.6869 4.9456 5.1463
5.2094 5.2547 4.7760 5.1551 4.6190 4.9984 5.4597 5.0853 4.7238
- H0: Median(Xi) ≥ 5.2, H1:
Median(Xi) < 5.2
- Teststatistik T = Anzahl der Messwerte < 5.2
- diese Richtung, damit großer Wert verwirft
(grundsätzlich egal)
- Gleichheit hier kein Problem (stetig, 5.2 wird
nicht angenommen)
- Auswertung: T(x) = 11
- Berechnung des p-Werts
- bei α = 0.05 wird H0 akzeptiert
- → Saurer Regen kann nicht nachgewiesen
werden
- Wilcoxon-Rangsummen-Test:
- heißt auch Wilcoxon-Mann-Whitney-Test oder
Mann-Whitney-U-Test
- Voraussetzung: Xi, Yj
alle unabhängig, ordinal
- Test auf gleiche Verteilung
- H0: Xi, Yj haben
gleiche Verteilung
- H1: Xi, Yj haben
verschiedene Verteilung
- Spezialfall
- Xi, Yj stetig, ihre
Verteilungen unterscheiden sich nur um Verschiebung
- H0: Xi, Yj haben
gleichen Median, H1: Xi, Yj
haben verschiedenen Median
- etwa zum Test auf Änderung der Kalibrierung
bei zwei Messreihen
- Vorgehensweise
- ordne alle Elemente Xi, Yj
gemeinsam der Größe nach
- Ri = Rang von Xi = Position
in der gemeinsamen Rangfolge, Ri ∈ [1, n+m]
- bei gleichem Rang mehrerer Elemente (Bindung):
verwende gemittelte Position
- Teststatistik
- mit Verteilungsfunktion
- wrn,m lässt sich (aufwändig)
genau berechnen und einfach approximieren, s.u.
- H0 wird verworfen, falls T zu klein oder
zu groß
- konkret: falls für k := T(x) gilt
- entsprechender p-Wert daher
- Berechnen von wrn,m:
- man bestimmt eine Rekursionsformel
- mit den Anfangswerten
- für kleine Zahlen per Hand, sonst als Programm
- für "große" Werte von n, m über
Approximation durch Normalverteilung
- speziell, falls keine Werte mit gleichem Rang
auftreten, gilt
- also
- was heißt "groß"?
- n, m > 7 [Ross2]
- n oder m > 25 [Fahrmeir]
- Beispiel Lebensdauern:
- Prüfen der Lebensdauern von Festplatten zweier
Hersteller
- H0: Lebensdauern haben bei beiden
gleiche Verteilung
- Stichproben
- Hersteller X: 6.9175 7.1546 8.0619 6.7216 7.6289
8.2784
- Hersteller Y: 7.0103 6.1237 6.0309 7.4330 6.8247
- Ordnen der Werte
-
Rang |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
Wert |
6.0309
|
6.1237 |
6.7216 |
6.8247 |
6.9175 |
7.0103 |
7.1546 |
7.4330 |
7.6289 |
8.0619 |
8.2784 |
Herst. |
Y
|
Y
|
X
|
Y
|
X
|
Y
|
X
|
Y
|
X
|
X
|
X
|
- Teststatistik berechnen
- T = 3 + 5 + 7 + 9 + 10 + 11 = 45
- Verteilungsfunktion per Rechner
- entsprechender p-Wert = 0.1255
- H0 wird bei α = 0.05 akzeptiert
- Chi-Quadrat-Anpassungstest:
- betrachten n diskrete i.i.d Zustandsgrößen
Xi, die r Ergebnisse haben können
- vermuten Wahrscheinlichkeitsfunktion pj, j
= 1 .. r
- H0: Xi sind gemäß
dieser Wahrscheinlichkeitsfunktion verteilt
- Teststatistik
- Nj = Zahl der Experimente mit Ergebnis
j, j = 1 .. r
- Satz (Pearson, 1900)
- Für n → ∞ ist T ~ χ2r-1
- Beweis: [Kabluchko]
- also: verwirf H0 bei Signifikanzniveau
α ↔ T > χ2r-1,1-α
- Faustregel
- alle Nj ≥ 1
- mindestens 80% davon > 5
- Beispiel Mendelsche Vererbungsexperimente:
- Mendel züchtete Erbsen, die rund oder kantig und
gelb oder grün sein konnten
- er vermutete folgende Wahrscheinlichkeiten
- p1 = P(rund und gelb) = 9/16
- p2 = P(kantig und gelb) = 3/16
- p3 = P(rund und grün) = 3/16
- p4 = P(kantig und grün) = 1/16
- Versuche mit n = 556 Erbsen ergaben
-
N1 |
N2 |
N3 |
N4 |
315
|
101
|
108
|
32
|
- Chi-Quadrat-Anpassungstest liefert
- T = 0.4700
- χ23,0.95 = 7.8147
- H0 wird akzeptiert
- pWert
- Ergebnis ist erstaunlich gut
- wurde von Statistiker Fisher angezweifelt
(Mendel-Fisher-Kontroverse)
- wird bis heute noch diskutiert [6,
7]
- Ergänzungen zum Chi-Quadrat-Anpassungstest:
- falls Xi stetig verteilt oder r sehr
groß
- bilde Klassen, z. B. durch Intervalle
- beachte Faustregel
- falls p Parameter der Verteilung aus Daten bestimmt
werden
- verwende entsprechend weniger Freiheitsgrade, T ~
χ2r-1-p
- Chi-Quadrat-Unabhängigkeitstest:
- Zufallsgrößen X, Y können nur r bzw.
s verschiedene Werte annehmen
- machen (viele) Experimente und zählen Ni,j
= Anzahl der Ergebnisse mit X = i und Y = j
- Frage: Sind X, Y unabhängig?
- Grundidee: bei Unabhängigkeit gilt
- berechne Randverteilungen
- und schätze die Einzelwahrscheinlichkeiten
- Teststatistik
- Für n → ∞ ist T ~ χ2(r-1)(s-1)
- also: verwirf H0 ("X, Y, sind
unabhängig") bei Signifikanzniveau α ↔ T > χ2(r-1)(s-1),1-α
- Beispiel Maschinenausfall im Schichtbetrieb:
- In einer Firma werden vier Maschinen in drei
Schichten betrieben.
- Das Muster der Ausfälle scheint
schicht-abhängig zu sein
- Anzahl der Ausfälle pro Schicht und Maschine
über ein Jahr
-
Maschine
Schicht
|
A |
B |
C |
D |
1 |
12 |
14 |
13 |
12 |
2 |
16 |
13 |
15 |
11 |
3 |
11 |
10 |
9 |
19 |
- H0: Ausfälle pro Schicht und pro
Maschine sind unabhängig
- man erhält
- mj = 39, 37, 37, 42
- ni = 51, 55, 49
- n = 155
- T = 5.7287
- χ26,0.95 = 12.5916
- pWert = 0.4543
- H0 wird akzeptiert, die Schwankungen sind
anscheinend Zufall
- Kolmogorow-Smirnow-Test:
- Anpassungstest (Test auf Verteilung), also
- H0: Xi haben die (stetige)
Verteilung F0
- vergleicht die empirische Verteilungsfunktion Fn
mit der vorgegebenen
- Vorgehensweise
- bestimme Fn
- berechne Teststatistik
- Verteilung von T
- unabhängig von F0!
- bekannt (Kolmogorov-Verteilung), aber nicht ganz
leicht zu berechnen [8]
- Quantile KSα,n tabelliert
[Rooch] (oder kompletter Test mit kstest)
- für n > 35 Näherungsformel
- verwirf H0 ↔ T > KSα,n
- Variante für zwei Stichproben Xi, Yj
- H0: X, Y haben gleiche
Verteilungsfunktion
- empirische Verteilungsfunktionen Fn(x),
Gm(x)
- Teststatistik nun
- Näherungsformel für Quantile
- Beispiel Schraubendurchmesser:
- Stichprobe der Schraubendurchmesser mit neuer
Maschine, aufsteigend sortiert
- 4.8933 4.9359 4.9521 4.9599 4.9795 4.9837 4.9858
4.9968 5.0046 5.0137 5.0202 5.0500
- H0: X ~ N(μ, σ2) mit
μ = 5 mm, σ = 0.05 mm
- Plot von empirischer und erwarteter
Verteilungsfunktion
- praktische Berechnung von T
- Fn stückweise konstant, F monoton
steigend
- → Werte an den Sprungstellen (also den
Daten) jeweils vorwärts und rückwärts reichen
- tabellarisch
-
i |
xi |
Fn(xi) |
F0(xi) |
di,o |
di,u |
1 |
4.8933 |
0.0833 |
0.0164 |
0.0669 |
0.0164 |
2 |
4.9359 |
0.1667 |
0.0999 |
0.0667 |
0.0166 |
3 |
4.9521 |
0.2500 |
0.1690 |
0.0810 |
0.0024 |
4 |
4.9599 |
0.3333 |
0.2113 |
0.1221 |
0.0387 |
5 |
4.9795 |
0.4167 |
0.3409 |
0.0758 |
0.0076 |
6 |
4.9837 |
0.5000 |
0.3722 |
0.1278 |
0.0445 |
7 |
4.9858 |
0.5833 |
0.3882 |
0.1951 |
0.1118 |
8 |
4.9968 |
0.6667 |
0.4745 |
0.1922 |
0.1088 |
9 |
5.0046 |
0.7500 |
0.5367 |
0.2133 |
0.1300 |
10 |
5.0137 |
0.8333 |
0.6080 |
0.2254 |
0.1420 |
11 |
5.0202 |
0.9167 |
0.6569 |
0.2598 |
0.1764 |
12 |
5.0500 |
1.0000 |
0.8413 |
0.1587 |
0.0753 |
- T = max {di,o, di,u}
= 0.2598
- für α = 0.05 aus Tabelle: KSα,n
= 0.375 → H0 wird akzeptiert
- Aufgaben: