In diesem Abschnitt werden kurz die Methoden der Statistik vorgestellt, die in dieser Arbeit verwendet werden. Spezielle Anwendungen der Statistik im Bereich der Instandhaltung von Geräten werden im Abschnitt 2.4.3 vorgestellt.
Es gibt Ereignisse, die nicht vorhersagbar und daher zufällig sind: z.B. das Erhalten einer ungerade Augenzahl nach einem Würfelwurf oder der Ausfall mindestens einer Glühlampe in einer leuchtenden Lichterkette in einer bestimmten Zeitspanne. Beiden Beispielen ist gemeinsam, dass man
Kann man jetzt noch das Zufallsexperiment
beliebig oft durchführen, so kann man
nun zu jedem Ergebnis, das ab jetzt als Ereignis
bezeichnet
wird, die Wahrscheinlichkeit
einführen, mit der das Ereignis
eintritt. Wir schreiben:
![]() |
(1) |
Dabei bedeutet
die Anzahl der Experimente
mit Ergebnis
und
die Gesamtzahl der durchgeführten
Experimente.
In der Praxis muss man sich oft mit Näherungen bzw. Schätzwerten
der Wahrscheinlichkeit
begnügen, da man
Experimente nicht beliebig häufig wiederholen kann. Nach dem
schwachen Gesetz der großen Zahl
(z.B. [3] Seite 129) wird
aber mit steigender
Zahl an Experimenten beliebig genau approximiert. Aus der obigen
Definition folgt, dass
. Außerdem gilt für
sich ausschließende Ereignisse
und
:
![]() |
(2) |
Im folgenden wird auch noch der Begriff der ,,Bedingten Wahrscheinlichkeit`` benötigt:
![]() |
(3) |
Dabei gibt dieser Wert die Wahrscheinlichkeit an, dass
das Ereignis
eintritt unter der Voraussetzung, dass das
Ereignis
eintritt.
![]() |
Neben zufälligen Ereignissen werden in dieser Arbeit auch
zufällige Variable untersucht. Zum Beispiel ist die Zeit zwischen
zwei Ausfällen eines Gerätes eine so genannte Zufallsvariable.
Die Wahrscheinlichkeit, bei einer
Bestimmung der Zufallsvariablen
einen Wert
zu erhalten,
für den
gilt, wird als
bezeichnet.
Als reellwertig wird eine Zufallsvariable bezeichnet, wenn ihre Wertemenge reell ist. Als diskret / stetig wird sie bezeichnet, wenn ihr Definitionsbereich diskret / stetig ist. Alle im folgenden betrachteten Zufallsvariablen sind stetig. Die Zusammenhänge lassen sich aber leicht auf diskrete Zufallsvariablen übertragen.
Zu einer stetigen Zufallsvariablen
lässt sich eine
Verteilungsfunktion
angeben:
![]() |
(4) |
Diese Verteilungsfunktion ist monoton steigend und hat einen Wertebereich von 0 bis 1.
Wenn eine Verteilungsfunktion existiert, so kann man auch eine
Wahrscheinlichkeitsdichte
angeben. Für stetige Zufallsvariablen gilt:
![]() ![]() |
(5) |
Mit der Wahrscheinlichkeitsdichte können wir nun schreiben:
![]() |
(6) |
Die Zusammenhänge für stetige Verteilungsfunktionen und Wahrscheinlichkeitsdichten sind in Abbildung 2.1 angegeben.
Seien
mit
eine Gruppe bzw. Stichprobe
von Werten einer diskreten Zufallsvariablen
. Die empirische
Verteilungsfunktion
lautet dann (siehe [3] Seite 94)
![]() |
(7) |
mit der Anzahl
der Stichprobenwerte
sind. Von dieser Funktion wird im
Folgenden noch häufig Gebrauch gemacht.
Analog zum Gesetz der großen Zahl
bei der Wahrscheinlichkeit gilt hier der Satz von Glivenko und
Cantelli:
Die Differenz
strebt für große
mit der
Wahrscheinlichkeit 1 gegen Null (siehe [3] Seite 94),
wenn
die Verteilung der Zufallsvariablen
ist.
Zufallsvariablen und deren Verteilungsfunktionen kann man sowohl stetig als auch diskret formulieren, um den mit ihnen verbunden Formalismus auf möglichst viele Anwendungsfälle übertragen zu können. Zufallsvariablen können in drei (ein stetiges und zwei diskrete) verschiedene Gruppen - so genannte Skalenniveaus - eingeteilt werden:
Diese Reihenfolge der Skalenniveaus ist nicht zufällig gewählt. Durch Fortlassen der Eigenschaft einen Abstand bestimmen zu können (Metrik), erhält man im Normalfall aus einer metrischen eine ordinal skalierte Zufallsvariablen. Durch Fortlassen der Ordnung einer ordinalen Zufallsvariablen erhält man eine kategorial skalierte Zufallsvariable.
Man kann die Skalenniveaus also anhand ihrer Eigenschaften anordnen und von höheren und niedrigeren Skalenniveaus sprechen. Die Transformation von höheren zu niedrigeren Skalenniveaus und umgekehrt wird in Abschnitt 3.6 kurz vorgestellt.
Zur groben Charakterisierung von Zufallsvariablen sind Mittel-
bzw. Erwartungswert
und Varianz
bzw. Standardabweichung geeignet. Der
Erwartungswert
einer diskreten Verteilungsfunktion
lautet (siehe [3] Seite 95)
![]() |
(8) |
Die
bezeichnen hier die verschiedenen Werte, die
von der diskreten Zufallsvariablen angenommen werden und die
die zugehörige Anzahl. Für den Erwartungswert
gelten umfangreiche Rechenregeln (z.B. [3] Seiten 95 und
96).
Für die Varianz
und die Standardabweichung
gilt
in diesem Fall (siehe [3] Seite 95):
![]() |
(9) |
Hat man die Messwerte
der Zufallsvariablen
und die Messwerte
der
Zufallsvariablen
gepaart als
Messpunkte
zur Verfügung, so besteht oft der Wunsch
bei geeigneter Verteilung der Messpunkte eine Gerade
durch diese Messpunkte zu legen, die die Darstellung des
Zusammenhangs möglichst gut an die Messwerte angepasst und in
einfacher Form darstellt. Die einfache Darstellung ist durch die
unkomplizierte Geradengleichung gegeben. Für die optimale
Anpassung dieser Geraden an die Messwerte fordert man folgende
Minimalbedingung (siehe [5] Seiten 1028 und 1029):
![]() |
(10) |
Damit ergibt sich folgende Regressionsgerade als Lösung:
![]() |
(11) |
![]() ![]() |
(12) |
![]() |
(13) |
Oft ist es nicht sinnvoll, den Zusammenhang zweier
Zufallsvariablen
und
durch eine Gerade zu beschreiben, da
sich dann die oben geforderte Minimalbedingung nicht gut
befriedigen lässt. In einem solchen Fall kann es hilfreich sein,
eine Regression der Abbildungen
und
vorzunehmen,
wobei diese Funktionen durch Ausprobieren oder externe
Informationen ergeben.
Führt auch die Transformation der Messpunkte zu keinem ausreichend linearem Verlauf, oder ist eine Transformation aus anderen Gründen nicht erwünscht, so kann man auf die nichtlineare Regression zurückgreifen. Die in dieser Arbeit vorgenommen nichtlinearen Regressionen wurden mit der Software Mathematica 5.0 vorgenommen.
![]() |
Im Laufe der Arbeit werden einige Regressionen mit der log-Normalverteilung durchgeführt. Um die dabei gewonnenen Ergebnisse besser interpretieren zu können, sei hier die log-Normalverteilung etwas genauer untersucht.
Für Wahrscheinlichkeitsdichte
der log-Normalverteilung gilt
![]() |
(14) |
Dabei wird der Parameter
Häufungspunkt
und den Parameter
Streuung der
log-Normalverteilung genannt. Die einzigen Unterschiede der
log-Normalverteilung zur Normalverteilung sind der veränderte
Normierungsfaktor und und die Transformation der Argumente durch
die
-Funktion.
In Abbildung 2.2 sind die Verteilungsfunktion
und die Wahrscheinlichkeitsdichte
der log-Normalverteilung
dargestellt. Zusätzlich sind auch Häufungspunkt
, Median
und Mittelwert
eingezeichnet. Es gelten
![]() ![]() ![]() |
(15) |
Durch die Transformation der Argumente fallen Häufungspunkt, Median und Mittelwert der log-Normalverteilung nicht wie bei der Normalverteilung zusammen. In diesem Fall spricht man auch von einer Schiefe (skewness) der Verteilung. Der Mittelwert der log-Normalverteilung hängt also im Gegensatz zur Normalverteilung nicht nur vom Häufungspunkt sondern auch von der Streuung ab.
Durch die Definition der Schiefe
im Anhang
E.1 kann man diese quantifizieren.
Für die log-Normalverteilung ergibt sich damit
![]() |
(16) |
Da die Schiefe
monoton vom Parameter
abhängt,
kann man aus Gründen der Einfachheit zum Vergleich der Schiefen
zweier log-Normalverteilungen den Parameter
heranziehen.
Im Normalfall sollte eine statistisch testende Analyse folgendermaßen ablaufen:
Das Vorgehen bei dieser Untersuchung unterscheidet sich zwangsläufig stark von dem oben genannten Vorgehen:
Es können also verschiedene Verfahren nur auf die schon erhobenen Daten angewendet und dann entschieden werden, ob die gewonnenen Erkenntnisse von Interesse sind - also eine Umkehrung des normalen Vorgehens. Aufgrund dieser Randbedingungen ist es nicht unkritisch, testende Statistik zu betreiben - man muss also hauptsächlich mit deskriptiver Statistik auskommen.
In einigen Fällen wird jedoch auch in dieser Arbeit testenden
Statistik verwendet. Zur Beurteilung
der Regressionen an eine willkürlich ausgewählte
log-Normalverteilung wird der Kolmogoroff-Smirnow-Test für die
Güte von Anpassungen verwendet. Für die Untersuchung von
Mehrfeldtafeln bzw. Kreuztabellen wird der
-Test und der
Kontingenzkoeffizient von Pawlik verwendet. Korrelationen werden
mit dem Spearmanschen Rang-Korrelationskoeffizienten untersucht.
Aus den vorliegenden Daten
, die als Vektor oder auch als
Matrix vorliegen können, wird eine Testgröße
berechnet. Anhand dieser Testgröße kann man entscheiden,
ob die Nullhypothese
angenommen oder
verworfen wird und damit die Alternativhypothese
angenommen wird. Testgröße,
Nullhypothese und Alternativhypothese werden durch den gewählten
Test festgelegt.
Bei der Entscheidung zwischen Null- und Alternativhypothese
anhand der ermittelten Testgröße kann der Test zwei prinzipielle
Fehler machen. Die Nullhypothese kann abgelehnt werden, obwohl sie
richtig ist - diesen Fehler nennt man Fehler 1. Art oder
-Fehler. Wird die Nullhypothese jedoch nicht abgelehnt,
obwohl die Alternativhypothese vorliegt, so spricht man vom
Fehler 2. Art bzw.
-Fehler.
Es hat sich eingebürgert, Entscheidungen zwischen Null- und
Alternativhypothese als signifikant zu
bezeichnen, wenn der
-Fehler kleiner als 5% ist. Der
-Fehler kann durch Wahl des kritischen Wertes
festgelegt werden. Der kritische Wert
ist dabei die Grenze zwischen Werten der Testgröße, die die
Nullhypothese bestätigen bzw. widerlegen. Eine zu starke
Verkleinerung des
-Fehlers führt im Allgemeinen zu einer
unerwünschten Erhöhung des
-Fehlers.
Bei diesem Test
soll untersucht
werden, ob eine empirische Verteilungsfunktion
(siehe Abschnitt
2.3.1) durch eine Verteilungsfunktion
dargestellt werden kann.
Die Nullhypothese
lautet
, die
Alternativhypothese
lautet damit
. Die
Testgröße
lautet
![]() |
(17) |
wobei
die Anzahl der Werte der empirischen
Verteilungsfunktion
ist.
Die Nullhypothese
wird mit dem
-Fehler abgelehnt,
wenn
gilt. Die kritischen Werte
können aus Tabellen entnommen werden (z.B.
[4] Seite 184).
Anschaulich bedeutet dies, dass die empirische
Verteilungsfunktion
dann durch eine andere
Verteilungsfunktion
angenähert werden kann, wenn
sich
innerhalb eines Gebietes der Breite
um
befindet. In den Abbildungen 4.13 und
4.32 ist dieses Gebiet zur Beurteilung der
Regression eingezeichnet.
Mehrfeldtafeln sind matrizenförmig angeordnete Häufigkeiten.
Solche Tabellen werden auch als Kreuz- oder Kontingenztabellen
bezeichnet. Die einzelnen Werte der
-Matrix werden
mit
bezeichnet.
Dieser Test untersucht, ob die
gleich verteilt, d.h. die
weder von
noch von
abhängen. Dazu wird folgende Testgröße berechnet:
![]() |
(18) |
Dabei ist
![]() ![]() ![]() |
(19) |
Die Nullhypothese
besagt, dass die
stochastisch
unabhängig sind. Die Nullhypothese wird mit dem
-Fehler
abgelehnt, wenn
.
ist dabei
der kritische Wert, der von
-Fehler und Anzahl der
Freiheitsgrade der Matrix abhängt. Die
Anzahl der Freiheitsgrade lautet
, wenn die
Randsummen
und
vorgegeben sind.
Die kritischen Werte
sind hier genau die
-Quantile der
-Verteilung für
Freiheitsgrade.
Diese Werte sind leicht verfügbar (z.B. tabelliert in
[3] oder Berechnung mit Mathematica).
Mit Hilfe des Kontingenzkoeffizienten von Pawlik soll die Stärke
einer Korrelation innerhalb einer Kreuztabelle untersucht werden.
Zum Vergleich verschiedener Kreuztabellen ist die im vorherigen
Abschnitt vorgestellte Testgröße
nicht geeignet, da sie
proportional zu
ist. Diese Abhängigkeit weist der folgende
Kontingenzkoeffizient
von Pawlik nicht auf (siehe
[3] Seite 601ff):
![]() |
(20) |
Bei völliger Unabhängigkeit ist
. Für den maximalen
Kontingenzkoeffizienten gilt
![]() ![]() |
(21) |
Um die Kontingenzkoeffizienten von den Kreuztabellen unabhängig
und damit vergleichbar zu machen, wird der korrigierte
Kontingenzkoeffizient
eingeführt. Es gilt
![]() |
(22) |
Soll eine Stichprobe gepaarter Werte
zweier
Zufallsvariablen
und
auf einen Zusammenhang von
und
hin untersucht werden, so kann man auf Korrelationsmaße
zurückgreifen. Der normale Korrelationskoeffizient kann jedoch
nur lineare Zusammenhänge nachweisen und ist auf normalverteilte
Zufallsvariablen
und
angewiesen (siehe [3] Seite
495).
Der Spearmansche Rang-Korrelationskoeffizient kann dagegen bei Zufallsvariablen mit unbekannter Verteilung auch nichtlineare Zusammenhänge nachweisen. Er ist damit wesentlich vielseitiger einsetzbar (siehe [3] Seite 511f).
Bei Rang-Korrelationskoeffizienten werden nicht die
und
direkt untersucht sondern nur ihre Ränge. Der Rang
eines Wertes
ist einfach die Position des Wertes
in der sortierten Liste aller
.
Kommen einige
mehrfach vor, so spricht man von Bindungen.
Der Rang von gebundenen
ist der Mittelwert ihrer Positionen.
Die Bestimmung der Rangzahlen für eine metrische Zufallsvariable kommt einer Skalentransformation einer metrischen Zufallsvariablen in eine ordinal skalierte Zufallsvariable gleich (siehe Abschnitt 2.3.1). Damit ist auch klar, warum mit diesem Korrelationskoeffizienten auch nichtlineare Zusammenhänge nachgewiesen werden können.
Der Spearmansche Rang-Korrelationskoeffizient berechnet sich für
als
Für Zufallsvariablen mit vielen Bindungen (mehr als 20 % der Beobachtungen) steht noch ein korrigierter Koeffizient zur Verfügung (siehe [3] Seite 513), der hier aber nicht benötigt wird.
Um nun zwischen der Nullhypothese
- zwischen
und
besteht kein Zusammenhang - oder der Alternativhypothese
- es besteht ein Zusammenhang - zu entscheiden, wird die
Testgröße
herangezogen. Die Nullhypothese wird auf dem
Signifikanzniveau
abgelehnt, wenn
gilt.
Dabei können die kritischen Werte
aus [3]
(Seite 511) entnommen werden.
Ein Ereignis
und ein Ereignis
können gemeinsam auftreten.
Tun sie dies, so spricht man von einer Koinzidenz. Ist diese
Koinzidenz nicht zufällig, so spricht man von einer Korrelation.
Eine Korrelation kann aus verschiedenen Gründen vorliegen: zum
einen kann das Ereignis
das Ereignis
hervorrufen oder
umgekehrt. Es besteht auch die Möglichkeit, dass
und
eine
gemeinsame Ursache haben.
Die Assoziationsanalyse versucht nun die Korrelation von
Koinzidenzen zu bestimmen, d.h. sie versucht zu bestimmen, ob zwei
Ereignisse zufällig gemeinsam aufgetreten sind oder ob das eine
Ereignis das andere hervorgerufen oder beide Ereignisse eine
gemeinsame Ursache haben. Beispielsweise könnten Ereignis
,,das Gerät gehört zur Gerätegruppe der Infusionspumpen`` und
Ereignis
,,das Gerät ist günstiger als 5000 `` lauten.
Dann könnte man jeweils die Anzahl der Geräte, für die Ereignisse
,
und beide Ereignisse
und
eintreten sowie die Anzahl aller Geräte bestimmen. Aus diesen
Anzahlen lassen sich zur Beurteilung der Korrelation der
Ereignisse
und
verschiedene Assoziationsmaße
berechnen, die die
Assoziationsanalyse bereit stellt. Im Folgenden sind einige
Assoziationsmaße aufgeführt, die in dieser Arbeit verwendet
wurden. Eine ausführliche Darstellung findet sich in [2] ab
Seite 427.
Er gibt an, wie häufig ein Ereignis im Verhältnis zu allen Ereignissen auftritt. Insbesondere ist der support des Ereignissen A und B treten gemeinsam auf für die Analysen wichtig. Wir schreiben
support![]() |
(23) |
Dabei sind mit
die Wahrscheinlichkeit des
gleichzeitigen Eintretens von
und
bzw. die Anzahl der
Koinzidenzen von
und
gemeint und mit
die
Anzahl aller Ereignisse.
Dieses Maß ist zwar noch kein Assoziationsmaß, aber es gibt an, wie viele Ereignisse von einer noch eventuell zu entdeckenden Assoziation überhaupt betroffen sind, und ist damit für die Analysen nicht uninteressant. Außerdem wird dieses Maß als Baustein für die folgenden Maße wieder verwendet. Die Ereignismengen sind zur Veranschaulichung in Abbildung 2.3 dargestellt.
Sie ist nichts anderes als die bedingte Wahrscheinlichkeit des
Auftretens des Ereignisses
unter der Voraussetzung des
Eintretens des Ereignisses
. Wir schreiben
confidence![]() |
(24) |
In ungünstigen Fällen, kann die
confidence
hohe Werte annehmen, obwohl in der Ereignismenge kein
Zusammenhang zwischen den Ereignissen
und
besteht. Dies
ist dann der Fall, wenn
support
groß ist - dann ist
auch
confidence
bei nicht vorhandener Korrelation
der Ereignisse
und
groß. Diesen Nachteil versucht der
lift zu umgehen.
Dieser ergibt sich als Quotient von
confidence
und
support
. Wir schreiben
lift![]() |
(25) |
Der lift gibt damit das Verhältnis von beobachteten
Koinzidenzen
support
und von den bei
Gleichverteilung zu erwartenden Koinzidenzen als Produkt von
support
und
support
. Also ist der lift ein
Maß dafür wie viel eine beobachtete Koinzidenz häufiger bzw.
seltener ist, als sie bei Gleichverteilung zu erwarten wäre. Er
ist damit weniger ein direktes Maß für die Abhängigkeit zwischen
und
, als vielmehr ein Maß für die Abweichung der
Unabhängigkeit.
Leider lassen sich für den lift auch Fälle konstruieren, an denen
er als Assoziationsmaß versagt: wenn
confidence
und
support
etwa gleich groß sind, dann ergibt sich auch
bei hoher confidence ein lift von etwa eins - was trotz der
hohen confidence hier auf einen geringen Zusammenhang hindeutet.
Man könnte noch ein weiteres Assoziationsmaß einführen - die conviction -, das diesen Nachteil nicht besitzt. Jedoch besitzt diese Maß eine nicht mehr so anschauliche Interpretation wie die des liftes und wird deshalb in dieser Arbeit nicht verwendet.
Betrachten wir ein System, dass sich zu diskreten Zeitpunkten
beliebig in einem der Zustände
befinden kann. Die
Zustände, in denen sich das System zum Zeitpunkt
befindet,
werden mit
bezeichnet.
Nun kann man eine Übergangswahrscheinlichkeit
als bedingte
Wahrscheinlichkeit einführen, dass auf dem Zustand
der
Zustand
folgt. Diese Wahrscheinlichkeiten lassen sich
übersichtlich in einer Übergangsmatrix
darstellen.
Hängen die
nicht von der Zeit ab (Homogenität der Zeit),
so kann man die
als markowsche Kette auffassen (siehe
[5] Seite 1084).
Erst seit gut 50 Jahren wird Sprache nicht nur qualitativ sondern auch mit quantitativen Methoden untersucht - in der Linguistik kann nun also wie bei anderen Wissenschaften auch ,,gemessen`` werden. Gemessen werden dabei hauptsächlich Häufigkeiten von sprachlichen Objekten wie Wörtern und Buchstaben. Aus diesen Daten wird dann mit Hilfe statistischer Methoden versucht, neue Erkenntnisse zu gewinnen oder bekannte Vermutungen zu begründen. Als Geburtsstunde dieser Entwicklung wird das Zipf'sche Gesetz angesehen.
Das Zipf'sche Gesetz beschreibt in sehr einfacher Weise die
Häufigkeitsverteilung von Worten in Texten. Dazu formuliert das
Gesetz einen Zusammenhang zwischen der Häufigkeit
eines
Wortes in einem (ausreichend langen) Text und seines nach
Häufigkeit sortierten Ranges
als (siehe [6])
Dabei passt der Parameter
die Verteilung an
verschiedene Textumfänge an und der Formparameter
bestimmt
die Form der Verteilung. Für gewöhnliche Texte liegt
meist
etwas über 1 und kann näherungsweise ganz entfallen.
Durch Logarithmieren erhält man mit
eine einfach zu untersuchende Geradengleichung.
Trotz seiner einfachen Form ist das Gesetz erstaunlich gut in der Lage, Häufigkeitsverteilungen verschiedenster Objekte zu beschreiben. Der Grund dafür ist bis heute nicht verstanden. Da es sich beim Zipf'schen Gesetz um ein empirisches Gesetz handelt, gilt es nicht exakt. Oft liefert aber auch die Abweichung einer Verteilung vom Zipf'schen Gesetz wertvolle Informationen.
Die dem Zipf'schen Gesetz zugrunde liegende Verteilungsfunktion wird als Zeta-Verteilung bezeichnet.
Als mächtiges Werkzeug bei der quantitativen Analyse von Texten
erweist sich die Entropie. Die Entropie kann als Maß der
Unordnung einer Verteilung angesehen werden. Für die oben
genannten Worthäufigkeiten
ergibt sich die Entropie h mit
zu
![]() |
(27) |
Bemerkenswert ist, das die Entropie die Unordnung als Informationsgehalt pro betrachtetem Element angibt - also hier pro Wort. Benutzt man zur Berechnung der Entropie den Logarithmus zur Basis 2, so gibt die Entropie den Informationsgehalt pro Wort in Bit an. Je größer also die Unordnung in einem Text ist, desto mehr Information wird pro Wort übertragen.
Ist der absolute Wert der Entropie nicht von Interesse, so kann
man eine relative Entropie
einführen. Es gilt
![]() |
(28) |
Dabei ist
die maximale Entropie, die die
betrachtete Wortgruppe annehmen kann. Man kann sich leicht
überlegen, dass die Entropie bei Gleichverteilung
maximal wird, d.h. alle
sind gleich
groß, und es gilt
, wenn
die Anzahl der
verschiedenen Wörter ist. Damit wird
![]() |
(29) |