Übungen mit dem Applet „Wahrscheinlichkeitsnetz“

Transcription

Übungen mit dem Applet „Wahrscheinlichkeitsnetz“
Wahrscheinlichkeitsnetz
1
Übungen mit dem Applet
„Wahrscheinlichkeitsnetz“
1
2
3
Statistischer Hintergrund........................................................................... 2
1.1
Verteilungen ..........................................................................................................2
1.2
Darstellung von Daten im Wahrscheinlichkeitsnetz ...............................................4
1.3
Kurzbeschreibung des Applets ..............................................................................5
1.4
Ziel des Applets .....................................................................................................6
Visualisierungen mit dem Applet............................................................... 7
2.1
Normalverteilte Daten............................................................................................7
2.2
Abweichungen von der Normalverteilung ..............................................................8
2.3
Logarithmische Normalverteilung ..........................................................................8
2.4
Weibullverteilung ...................................................................................................9
Auswertung eigener Daten ....................................................................... 9
Wahrscheinlichkeitsnetz
2
1
Statistischer Hintergrund
1.1
Verteilungen
Daten wie z.B. Versuchsergebnisse, Messwerte für Länge und Gewicht von Teilen,
maximale Leistung eines Motors u.ä. unterliegen immer einer Zufallsstreuung – auch wenn
versucht wurde, möglichst unter identischen Bedingungen zu arbeiten und nichts zu
verändern. Trägt man die Häufigkeit, mit der einzelne Werte auftreten, grafisch auf, so
Häufigkeitsdichte
erhält man ein Histogramm.
Histogramm:
0.3
0.2
relative
0.1
bestimmter Messwert oder ein Wert in
0
einem bestimmten Bereich aufgetreten
25 26 27 28 29 30 31 32 33 34 35
Häufigkeit,
mit
der
ein
ist
Dicke
Sammelt man immer mehr Daten (idealisiert unendlich viele), so wird aus der
Häufigkeitsdichte die Verteilungsdichte.
Häufig liefert die Normalverteilung eine gute Näherung für die Verteilung der Daten (siehe
dazu das Applet „Zentraler Grenzwertsatz“). Die Dichte der Normalverteilung ist gegeben
durch
g( x ) =
1
2π ⋅ σ
⋅e
−
( x − μ)2
2σ 2
wobei
μ = Mittelwert und
σ = Standardabweichung (bzw. σ2 = Varianz) der Normalverteilung
zwei Parameter sind, die Lage bzw. Breite der Verteilung beschreiben. Folgende Bilder
zeigen die Dichte der Normalverteilung für verschiedene Mittelwerte μ bzw. für
verschiedene Standardabweichungen σ.
Verteilungsdichte
Wahrscheinlichkeitsnetz
3
μ = 27
0,2
35
Dichte der Normalverteilungen
mit Mittelwerten μ = 27, 30 und
35 °C, Standardabweichung σ =
2 °C
0,1
0
25
Verteilungsdichte
30
30
Dicke [μm]
35
Dichte der Normalverteilungen
mit Mittelwert μ = 30 °C und
Standardabweichungen
σ = 1, 2 und 4 °C
0,4
σ=1
0,3
0,2
2
0,1
4
0
25
30
Dicke [μm]
35
Zuverlässigkeitsdaten und Festigkeitsdaten werden häufig in guter Näherung von
der logarithmischen Normalverteilung oder der Weibullverteilung beschrieben.
Bei
der
logarithmischen
Normalverteilung
ist
der
Logarithmus
des
Messwerts
normalverteilt. Die Dichte der logarithmischen Normalverteilung ist gegeben durch
g( x ) =
1
1
⋅e
2π ⋅ σ x
⋅
−
(ln x − μ ) 2
2σ 2
wobei
μ = Mittelwert und
σ =Standardabweichung (bzw. σ2 = Varianz) der Verteilung von ln x.
Die Weibullverteilung ist eine Extremwertverteilung, sie beschreibt die Verteilung des
schwächsten Gliedes einer Kette. Die Dichte der Weibullverteilung ist gegeben durch
g( t ) =
wobei
β ⎛ t − t0 ⎞
⋅⎜
⎟
T ⎝ T ⎠
β −1
⎛ t−t0
− ⎜⎜
⋅e ⎝ T
⎞
⎟⎟
⎠
β
Wahrscheinlichkeitsnetz
4
T = charakteristische Lebensdauer
β = Formparameter und
t0 = ausfallfreie Zeit.
1.2
Darstellung von Daten im Wahrscheinlichkeitsnetz
Bei der Auswertung von Versuchs- oder Messergebnissen ist es schwer, anhand eines
Histogramms zu beurteilen, ob die Daten zu einer Normalverteilung oder einer anderen
Verteilung passen. Im Wahrscheinlichkeitsnetz für normalverteilte Daten sind die Achsen
nun so skaliert, dass eine Normalverteilung auf eine Gerade abgebildet wird. Daten, die
aus einer Normalverteilung stammen, streuen daher nur zufällig um eine Gerade. Da eine
Gerade leichter zu erkennen ist als die oben dargestellten Verteilungskurven, kann man
leichter erkennen, ob die vorliegenden Daten zu einer Normalverteilung passen. Das
folgende Bild zeigt ein Beispiel für Daten, die nur zufällig von einer Normalverteilung
abweichen. Als Interpretationshilfe ist eine Gerade eingezeichnet.
Auch für andere Verteilungen kann
man geeignete Achsenskalierungen
wählen, sodass die Verteilung auf
eine Gerade abgebildet wird. Im
Applet
können
dieselben
Daten
wahlweise in einem Wahrscheinlichkeitsnetz für normalverteilte Daten,
logarithmisch normalverteilte Daten
und
weibullverteilte
Daten
einge-
tragen werden.
Für die logarithmische Normalverteilung ist die x-Achse logarithmisch skaliert, bei der
Weibullverteilung ist zusätzlich die y-Achse so skaliert, dass weibullverteilte Daten auf
einer Geraden liegen.
Wahrscheinlichkeitsnetz
1.3
5
Kurzbeschreibung des Applets
In das Applet können unter „Dateneingabe“ beliebige Daten (Stichprobenwerte) von Hand
eingegeben werden (richtigen Stichprobenumfang angeben und dann „neu berechnen“)
oder Zufallszahlen mit vorgegebener Verteilung simuliert werden. Die Daten können dann
wahlweise im „Wahrscheinlichkeitsnetz für NV“, „Wahrscheinlichkeitsnetz für log-NV“ oder
im „Wahrscheinlichkeitsnetz für Weibull“ dargestellt werden.
Verteilungsdichte
Folgende Verteilungen können für die Simulation vorgegeben werden:
Standardabweichung σ
σ
Normalverteilung mit Mittelwert μ und
Verteilungsdichte
Verteilungsdichte
Normalverteilung mit Mittelwert μ und
μ
xu
μ
xo
Standardabweichung σ, bei xu und xo
beschnitten
σ
außerhalb
(entsteht,
dieser
wenn
Grenzen
Teile
aussortiert
wurden)
Anteil p
μ1
Überlagerung von zwei Normalverteilun-
μ2
Anteil 1-p
σ1
σ2
gen – Mischverteilung, ein Anteil p der Teile stammt aus Normalverteilung mit Mittelwert μ1 und Standardabweichung σ1, der
Rest aus Normalverteilung mit Mittelwert
Verteilungsdichte
μ2 und Standardabweichung σ2
μ=1, σ=1
logarithmische
Normalverteilung
–
in
diesem Beispiel hat die Verteilung von ln x
den Mittelwert μ=1 und die Standardabweichung σ=1
Verteilungsdichte
Wahrscheinlichkeitsnetz
to
6
T
β=2
Weibullverteilung mit ausfallfreier Zeit t0,
charakteristischer Lebensdauer T und in
Verteilungsdichte
diesem Beispiel Formparameter β=2
Verteilungsdichte
xu
xo
Rechteckverteilung (Gleichverteilung) mit
Untergrenze xu und Obergrenze xo
Dreieckverteilung mit Untergrenze xu und
Obergrenze xo
xu
1.4
xo
Ziel des Applets
Das Applet soll dabei helfen, Daten ins Wahrscheinlichkeitsnetz einzutragen. Es soll den
Zusammenhang zwischen der Form der Verteilung und der Skalierung des zugehörigen
Wahrscheinlichkeitsnetzes verdeutlichen und grafisch zeigen, dass
•
Daten aufgrund der Zufallsstreuung immer von der Geraden abweichen
•
diese Abweichungen aber mit zunehmendem Stichprobenumfang n immer kleiner
werden, wenn die Stichprobe aus der jeweiligen Verteilung entnommen wurde
•
abweichende Verteilungen zu einer Abweichung von der Geraden führen
•
diese Abweichung bei kleinem Stichprobenumfang n aber nicht von der Zufallsstreuung unterscheidbar ist.
Wahrscheinlichkeitsnetz
7
2
Visualisierungen mit dem Applet
2.1
Normalverteilte Daten
Nach dem Start des Applets wählen Sie "Eingabe der Verteilungen (Simulation)" und
Normalverteilung mit z.B. μ=10 und σ=2, mit einem Stichprobenumfang von 1000.
Im "Wahrscheinlichkeitsnetz für NV" liegen die Punkte näherungsweise auf einer Geraden.
"Neu berechnen" gibt ähnliche Punkte, die ebenfalls geringfügig von der Geraden
abweichen. Beachten Sie dabei, dass die Abweichungen bei kleinen und bei großen
Prozentwerten nur scheinbar größer sind als bei mittleren Werten – die y-Skala ist hier
gestreckt. Die Einzelwerte unterliegen einer Zufallsstreuung, insgesamt wird die Verteilung
aber gut beschrieben. Man kann zwar keine Aussagen über Einzelwerte treffen, wohl aber
über viele Werte zusammen.
Im "Wahrscheinlichkeitsnetz für log-NV" und "Weibull" erhält man eine deutlich erkennbare
systematische Abweichung von einer Geraden – diese Verteilungen sind nicht konsistent
mit den Daten.
Wiederholen Sie die Simulation nun mit einem Stichprobenumfang von 20. Die Streuung
der Werte um die Gerade im "Wahrscheinlichkeitsnetz für NV" ist deutlich größer, im
"Wahrscheinlichkeitsnetz für log-NV" und "Weibull" ist die Abweichung von der Geraden
nicht mehr eindeutig erkennbar: Bei kleinem Stichprobenumfang ist die Zufallsstreuung
größer, die Form der Verteilung ist kaum mehr zu erkennen.
Einfacher grafischer Test auf Konsistenz von Daten mit der verwendeten Verteilung:
Wenn die größte Abweichung eines Punktes (in %, nicht mm im Bild) kleiner ist als ca.
89/ n , dann sind die Daten mit der angenommenen Verteilung konsistent (vereinfachter
Kolmogoroff-Smirnov-Lilliefors-Test). Achtung: Dies ist kein Beweis dafür, dass die
Verteilung richtig ist, es liegt nur kein Widerspruch vor – ein Beweis ist prinzipiell nicht
möglich.
Testen Sie diesen Test, indem Sie für verschiedene Stichprobenumfänge n bei mehreren
Simulationen jeweils die größte Abweichung bestimmen und mit der Grenze vergleichen.
Wahrscheinlichkeitsnetz
2.2
8
Abweichungen von der Normalverteilung
Eine beschnittene Normalverteilung tritt in der Praxis auf, wenn eine Fertigung so stark
streut, dass auch Teile außerhalb der Toleranz auftreten, diese dann aber aussortiert
werden. Eine Mischung von zwei Normalverteilungen tritt auf, wenn Teile von zwei
Fertigungslinien oder Herstellern vermischt werden, die sich wesentlich unterscheiden.
Rechteckverteilung und Dreieckverteilung treten kaum praktisch auf und dienen hier nur
als Demonstrationsbeispiele.
Für all diese Verteilungen gilt: Bei großem Stichprobenumfang sind die Abweichungen von
der Normalverteilung (und den anderen Verteilungen) klar erkennbar – insbesondere,
wenn die Abweichung groß ist (bei der beschnittenen Verteilung z.B. wenn xo bei μ+σ liegt,
bei der Mischverteilung wenn μ1 und μ2 sich um mehr als σ unterscheiden). Bei kleinem
Stichprobenumfang sind die Abweichungen nur schwer erkennbar. Als Entscheidungshilfe
können Sie den Kolmogoroff-Smirnov-Lilliefors-Test aus Abschnitt 2.1 verwenden.
Experimentieren Sie mit unterschiedlichen Abweichungen von der Normalverteilung und
versuchen Sie jeweils die charakteristischen Abweichungen von der Geraden im
"Wahrscheinlichkeitsnetz für NV" zu verstehen (die beschnittene Verteilung und die
Rechteckverteilung sind an den Rändern zu steil, die Mischverteilung hat ein Plateau im xBereich zwischen μ1 und μ2).
2.3
Logarithmische Normalverteilung
Wählen Sie "log-Normalverteilung" z.B. mit μ=1 und σ=1. Bei der Eintragung in das
"Wahrscheinlichkeitsnetz für NV" ist eine deutliche Abweichung von der Gerade
erkennbar, bei der Eintragung in das "Wahrscheinlichkeitsnetz für log-NV" liegen die
Werte auf einer Geraden: Im "richtigen" Netz liegen die Werte auf einer Geraden – so
kann man die Form der Verteilung grafisch ermitteln. x ln ist der Mittelwert von ln x und
schätzt μ − da die Achse mit den x-Werten beschriftet ist, liest man dort eμ ab. sln ist die
Standardabweichung von ln x und schätzt σ.
Wahrscheinlichkeitsnetz
2.4
9
Weibullverteilung
Wählen Sie "Weibull" z.B. mit β=2 und T=10 und zunächst t0=0. Bei der Eintragung in das
"Wahrscheinlichkeitsnetz für NV" ist eine deutliche Abweichung von der Gerade
erkennbar, bei der Eintragung in das "Wahrscheinlichkeitsnetz für log-NV" weniger
deutlich
und
bei
"Weibull"
liegen
die
Werte
auf
einer
Geraden.
Bei
Zuverlässigkeitsuntersuchungen werden sowohl das "Wahrscheinlichkeitsnetz für log-NV"
als auch "Weibull" verwendet, da sie in mancher Hinsicht ähnlich sind und bei den
geringen
Stückzahlen
bei
Zuverlässigkeitsuntersuchungen
manchmal
schwer
zu
unterscheiden sind. "Weibull" ist theoretisch besser geeignet und wesentlich weiter
verbreitet.
Verwenden Sie nun als ausfallfreie Zeit t0=10. Mit keinem der Netze erhält man zunächst
eine befriedigende Gerade. Im Weibullnetz befindet sich jedoch unten ein Schieber für t0.
Verschieben Sie diesen nun und beobachten Sie, wie die zeitverschobene Kurve (orange)
sich einer Gerade annähert, wenn t0 ca. 10 ist: So kann die ausfallfreie Zeit empirisch
ermittelt werden.
3
Auswertung eigener Daten
Wenn Sie "Eingabe von Stichprobenwerten" wählen, können Sie Ihre eigenen Daten
eingeben und in den drei Netzen darstellen. Untersuchen Sie so die Verteilung Ihrer
Daten. Dazu müssen Sie vorher den richtigen Stichprobenumfang wählen.