Stochastik für Ingenieure

Vorzeichentest:

Test auf Wert des Median
- H₀: Median m hat Wert m₀ (m = m₀)
- H₁: m ≠ m₀
Idee
- teste Vorzeichen von X - m₀
- neue Zufallsvariable V_i
- ist Bernoulli-Größe mit p = 1/2
Vorsicht
- gilt zunächst nur bei stetiger Zufallsgröße
- unstetige Zufallsgröße → möglicherweise P(X_i = m₀ | H₀) ≠ 0
- einfache Abhilfe: Stichprobenwerte mit X_i = m₀ werden verworfen
Teststatistik T = Anzahl der V_i mit Wert 1
- T ~ B(n, 1/2)

Beispiel Saurer Regen:

sauberes Regenwasser hat pH-Wert 5.2 - 6.0 (wegen gelöstem CO₂)
wir definieren "Saurer Regen": pH-Wert < 5.2
- (üblich: 4.2 - 4.8)
Untersuchung: Ist Regen im Naturschutzpark Wölfenhausen sauer?
Messwerte x_i des pH-Werts an 16 Tagen
- 4.9387 4.8816 5.2655 5.2952 1.6869 4.9456 5.1463 5.2094 5.2547 4.7760 5.1551 4.6190 4.9984 5.4597 5.0853 4.7238
H₀: Median(X_i) ≥ 5.2, H₁: Median(X_i) < 5.2
Teststatistik T = Anzahl der Messwerte < 5.2
- diese Richtung, damit großer Wert verwirft (grundsätzlich egal)
- Gleichheit hier kein Problem (stetig, 5.2 wird nicht angenommen)
Auswertung: T(x) = 11
Berechnung des p-Werts
bei α = 0.05 wird H₀ akzeptiert
- → Saurer Regen kann nicht nachgewiesen werden

Wilcoxon-Rangsummen-Test:

heißt auch Wilcoxon-Mann-Whitney-Test oder Mann-Whitney-U-Test
Voraussetzung: X_i, Y_j alle unabhängig, ordinal
Test auf gleiche Verteilung
- H₀: X_i, Y_j haben gleiche Verteilung
- H₁: X_i, Y_j haben verschiedene Verteilung
Spezialfall
- X_i, Y_j stetig, ihre Verteilungen unterscheiden sich nur um Verschiebung
- H₀: X_i, Y_j haben gleichen Median, H₁: X_i, Y_j haben verschiedenen Median
- etwa zum Test auf Änderung der Kalibrierung bei zwei Messreihen
Vorgehensweise
- ordne alle Elemente X_i, Y_j gemeinsam der Größe nach
- R_i = Rang von X_i = Position in der gemeinsamen Rangfolge, R_i ∈ [1, n+m]
- bei gleichem Rang mehrerer Elemente (Bindung): verwende gemittelte Position
Teststatistik
- mit Verteilungsfunktion
wr_n,m lässt sich (aufwändig) genau berechnen und einfach approximieren, s.u.
H₀ wird verworfen, falls T zu klein oder zu groß
- konkret: falls für k := T(x) gilt
entsprechender p-Wert daher

Berechnen von wr_n,m:

man bestimmt eine Rekursionsformel
- mit den Anfangswerten
für kleine Zahlen per Hand, sonst als Programm
für "große" Werte von n, m über Approximation durch Normalverteilung
- speziell, falls keine Werte mit gleichem Rang auftreten, gilt
- also
was heißt "groß"?
- n, m > 7 [Ross2]
- n oder m > 25 [Fahrmeir]

Beispiel Lebensdauern:

Prüfen der Lebensdauern von Festplatten zweier Hersteller
- H₀: Lebensdauern haben bei beiden gleiche Verteilung
Stichproben
- Hersteller X: 6.9175 7.1546 8.0619 6.7216 7.6289 8.2784
- Hersteller Y: 7.0103 6.1237 6.0309 7.4330 6.8247

Ordnen der Werte

Chi-Quadrat-Anpassungstest:

Beispiel Mendelsche Vererbungsexperimente:

Mendel züchtete Erbsen, die rund oder kantig und gelb oder grün sein konnten
er vermutete folgende Wahrscheinlichkeiten
- p₁ = P(rund und gelb) = 9/16
- p₂ = P(kantig und gelb) = 3/16
- p₃ = P(rund und grün) = 3/16
- p₄ = P(kantig und grün) = 1/16

Versuche mit n = 556 Erbsen ergaben

N₁	N₂	N₃	N₄
315	101	108	32

Chi-Quadrat-Anpassungstest liefert
- T = 0.4700
- χ²_3,0.95 = 7.8147
- H₀wird akzeptiert
pWert
Ergebnis ist erstaunlich gut
- wurde von Statistiker Fisher angezweifelt (Mendel-Fisher-Kontroverse)
- wird bis heute noch diskutiert [6, 7]

Ergänzungen zum Chi-Quadrat-Anpassungstest:

falls X_i stetig verteilt oder r sehr groß
- bilde Klassen, z. B. durch Intervalle
- beachte Faustregel
falls p Parameter der Verteilung aus Daten bestimmt werden
- verwende entsprechend weniger Freiheitsgrade, T ~ χ²_r-1-p

Chi-Quadrat-Unabhängigkeitstest:

Zufallsgrößen X, Y können nur r bzw. s verschiedene Werte annehmen
machen (viele) Experimente und zählen N_i,j = Anzahl der Ergebnisse mit X = i und Y = j
Frage: Sind X, Y unabhängig?
Grundidee: bei Unabhängigkeit gilt
berechne Randverteilungen
und schätze die Einzelwahrscheinlichkeiten
Teststatistik
Für n → ∞ ist T ~ χ²_(r-1)(s-1)
also: verwirf H₀ ("X, Y, sind unabhängig") bei Signifikanzniveau α ↔ T > χ²_{(r-1)(s-1),1-α}

Beispiel Maschinenausfall im Schichtbetrieb:

Das Muster der Ausfälle scheint schicht-abhängig zu sein

Maschine Schicht	A	B	C	D
1	12	14	13	12
2	16	13	15	11
3	11	10	9	19

Kolmogorow-Smirnow-Test:

Anpassungstest (Test auf Verteilung), also
- H₀: X_i haben die (stetige) Verteilung F₀
vergleicht die empirische Verteilungsfunktion F_n mit der vorgegebenen
Vorgehensweise
- bestimme F_n
- berechne Teststatistik
Verteilung von T
- unabhängig von F₀!
- bekannt (Kolmogorov-Verteilung), aber nicht ganz leicht zu berechnen [8]
- Quantile KS_α,n tabelliert [Rooch] (oder kompletter Test mit kstest)
- für n > 35 Näherungsformel
verwirf H₀ ↔ T > KS_α,n
Variante für zwei Stichproben X_i, Y_j
- H₀: X, Y haben gleiche Verteilungsfunktion
- empirische Verteilungsfunktionen F_n(x), G_m(x)
- Teststatistik nun
- Näherungsformel für Quantile

Beispiel Schraubendurchmesser:

Stichprobe der Schraubendurchmesser mit neuer Maschine, aufsteigend sortiert
- 4.8933 4.9359 4.9521 4.9599 4.9795 4.9837 4.9858 4.9968 5.0046 5.0137 5.0202 5.0500
H₀: X ~ N(μ, σ²) mit μ = 5 mm, σ = 0.05 mm
Plot von empirischer und erwarteter Verteilungsfunktion

praktische Berechnung von T

F_n stückweise konstant, F monoton steigend
→ Werte an den Sprungstellen (also den Daten) jeweils vorwärts und rückwärts reichen
tabellarisch

i	x_i	F_n(x_i)	F₀(x_i)	d_i,o	d_i,u
1	4.8933	0.0833	0.0164	0.0669	0.0164
2	4.9359	0.1667	0.0999	0.0667	0.0166
3	4.9521	0.2500	0.1690	0.0810	0.0024
4	4.9599	0.3333	0.2113	0.1221	0.0387
5	4.9795	0.4167	0.3409	0.0758	0.0076
6	4.9837	0.5000	0.3722	0.1278	0.0445
7	4.9858	0.5833	0.3882	0.1951	0.1118
8	4.9968	0.6667	0.4745	0.1922	0.1088
9	5.0046	0.7500	0.5367	0.2133	0.1300
10	5.0137	0.8333	0.6080	0.2254	0.1420
11	5.0202	0.9167	0.6569	0.2598	0.1764
12	5.0500	1.0000	0.8413	0.1587	0.0753

Aufgaben:

Nicht-parametrische Tests