Stochastik für Ingenieure

Problemstellung:

Größe y hängt (vermutlich) von mehreren Einflussgrößen x_i, i = 1 ... k, ab
Zusammenhang wird als linear angenommen
- y = β₀ + β₁ x₁ + β₂ x₂ ... + β_k x_k
man macht n Messungen, um die p = k+1 unbekannten Koeffizienten abzuschätzen (n > p) und erhält Werte y_i, x_ij (i = 1 ... n, j = 1 .. p-1)
statistisches Modell
- Y_i = β₀ + β₁ x₁ + β₂ x₂ ... + β_k x_k + ε_i
- mit unabhängigen normalverteilten Störungen ε_i ~ N(0, σ²)
Einführen von Vektoren und Matrizen
- liefert Gleichung des Modells

Schätzer für die β_i und σ²:

Y_i sind i.i.d. mit Y_i ~ N(β₀ + β₁ x₁ + ... + β_k x_k, σ²)
berechnen Maximum-Likelihood-Schätzer B = (B₀, B₁, ..., B_k)^T für β ähnlich wie oben
längere Rechnung liefert die Normalengleichung
lineares Gleichungssytem mit p Gleichungen für p Unbekannte
- X^TX in der Regel invertierbar (sonst schlechte Messreihe!)
- formale Lösung
numerisch lösen
- mit LU-Zerlegung (in Matlab: B = (X'*X)\(X'*Y))
- nicht mit Berechnung der Inversen (in Matlab: B = inv(X'*X)*(X'*Y))
Schätzer für σ² ähnlich wie oben

Verteilung des Schätzers B:

Verteilung des Schätzers S²_y|x:

ähnlich wie oben ist
daher hat man
außerdem gilt folgende nützliche Beziehung zur Berechnung von S²_y|x
- Beweis im Anhang

Prognose des Mittelwerts:

Aufgabe: schätze aus den bekannten Daten X, Y den Mittelwert von Y₀ zu den Eingabewerten x₀ = (1 x₀₁ x₀₂ ... x_0k)^T
es ist
Schätzer natürlich
offensichtlich erwartungstreu
interessant sind Streuung und Konfidenzintervalle
als Linearkombination der Y_i ist ₀ normalverteilt
Berechnung der Varianz
insbesondere gilt
ersetzt man σ² durch seinen Schätzer S²_y|x, hat man wie immer
daher erhält man Schätzer für ein (1-p)-Konfindenzintervall um ₀

Prognose eines Werts:

schätze den Wert Y(x₀) eines Experiments mit Eingabewerten x₀, nicht den Mittelwert
Schätzer bleibt gleich, aber Varianz ist größer (wegen ε_i)
B_i stammen aus bisherigen Daten, Y(x₀) bezieht sich auf neue → B_i und Y(x₀) sind unabhängig
daher
Schätzer für ein (1-p)-Konfindenzintervall um Y(x₀)

Beispiel Härte von Stahl (nach [Ross2]):

Stahlhersteller möchte kaltgewalzte Stahlbleche mit Kupfergehalt qCu₀ = 0.15 % und Glühtemperatur T₀ = 620 °C herstellen
gesucht ist Abschätzung der Härte hr₀ (genauer: Rockwellhärte HR30T)

folgende Daten sind bekannt

Ansatz: multilineares Modell
- hr = β₀ + β₁ T + β₂ qCu
multilineares Regression liefert folgende Schätzwerte
- B = [157.4; 16.60; -0.1450]
- s_y|x = 3.223
damit Schätzwert für gesuchte Härte
- hr₀ = 70.00
95%-Konfidenzintervall für den Mittelwert
- E(hr₀) = 70.00 ± 4.2717
95%-Konfidenzintervall für den Einzelwert
- hr₀ = 70.00 ± 8.7359

Aufgaben:

Mehrfache lineare Regression