next up previous contents index
Nächste Seite: 4 Grundlagen der Instandhaltung Aufwärts: 2 Methoden Vorherige Seite: 2 Methoden des Data   Inhalt   Index

Unterabschnitte


3 Statistische Methoden

In diesem Abschnitt werden kurz die Methoden der Statistik vorgestellt, die in dieser Arbeit verwendet werden. Spezielle Anwendungen der Statistik im Bereich der Instandhaltung von Geräten werden im Abschnitt 2.4.3 vorgestellt.


1 Grundlagen

1 Zufällige Ereignisse

Es gibt Ereignisse, die nicht vorhersagbar und daher zufällig sind: z.B. das Erhalten einer ungerade Augenzahl nach einem Würfelwurf oder der Ausfall mindestens einer Glühlampe in einer leuchtenden Lichterkette in einer bestimmten Zeitspanne. Beiden Beispielen ist gemeinsam, dass man

  1. ein Experiment durchführt (Werfen eines Würfels, Brennenlassen einer Lichterkette eine bestimmte Zeit lang),

  2. am Ende genau ein Ergebnis aus einer Anzahl verschiedener möglicher Ergebnisse erhält (Augenzahl ist gerade oder ungerade, mindestens eine Lampe brennt durch oder alle bleiben heile) und

  3. und alle möglichen Ergebnisse bekannt sind.

Kann man jetzt noch das Zufallsexperiment beliebig oft durchführen, so kann man nun zu jedem Ergebnis, das ab jetzt als Ereignis $ A$ bezeichnet wird, die Wahrscheinlichkeit $ p(A)$ einführen, mit der das Ereignis $ A$ eintritt. Wir schreiben:

$\displaystyle p(A) = \lim_{N \to \infty} \frac{\sharp(A)}{N}$ (1)

Dabei bedeutet $ \sharp(A)$ die Anzahl der Experimente mit Ergebnis $ A$ und $ N$ die Gesamtzahl der durchgeführten Experimente.

In der Praxis muss man sich oft mit Näherungen bzw. Schätzwerten der Wahrscheinlichkeit $ p(A)$ begnügen, da man Experimente nicht beliebig häufig wiederholen kann. Nach dem schwachen Gesetz der großen Zahl (z.B. [3] Seite 129) wird $ p(A)$ aber mit steigender Zahl an Experimenten beliebig genau approximiert. Aus der obigen Definition folgt, dass $ a \leq p(A) \leq 1$ . Außerdem gilt für sich ausschließende Ereignisse $ A$ und $ B$ :

$\displaystyle p(A \cup B) = p(A) + p(B)$ (2)

Im folgenden wird auch noch der Begriff der ,,Bedingten Wahrscheinlichkeit`` benötigt:

$\displaystyle p(A \mid B) =\frac{p(A \cup B)}{p(B)}$ (3)

Dabei gibt dieser Wert die Wahrscheinlichkeit an, dass das Ereignis $ A$ eintritt unter der Voraussetzung, dass das Ereignis $ B$ eintritt.

2 Zufällige Variable

Abbildung 2.1: Oben ist die Verteilungsfunktion $ F(x)$ und unten die Wahrscheinlichkeitsdichte $ f(x)$ angegeben. Die Darstellung soll den Zusammenhang dieser beiden Funktionen verdeutlichen: Flächen unter der Wahrscheinlichkeitsdichte entsprechen Funktionswerten der Verteilungsfunktion. Mit Veränderungen entnommen aus [3] Seite 92.
Image Verteilungsfunktion

Neben zufälligen Ereignissen werden in dieser Arbeit auch zufällige Variable untersucht. Zum Beispiel ist die Zeit zwischen zwei Ausfällen eines Gerätes eine so genannte Zufallsvariable. Die Wahrscheinlichkeit, bei einer Bestimmung der Zufallsvariablen $ X$ einen Wert $ x$ zu erhalten, für den $ a < x \leq b$ gilt, wird als $ p(a < X \leq b)$ bezeichnet.

Als reellwertig wird eine Zufallsvariable bezeichnet, wenn ihre Wertemenge reell ist. Als diskret / stetig wird sie bezeichnet, wenn ihr Definitionsbereich diskret / stetig ist. Alle im folgenden betrachteten Zufallsvariablen sind stetig. Die Zusammenhänge lassen sich aber leicht auf diskrete Zufallsvariablen übertragen.

Zu einer stetigen Zufallsvariablen $ X$ lässt sich eine Verteilungsfunktion $ F_X(a)$ angeben:

$\displaystyle F_X(a) = p(X \leq a) = p(-\infty \leq X \leq a)$ (4)

Diese Verteilungsfunktion ist monoton steigend und hat einen Wertebereich von 0 bis 1.

Wenn eine Verteilungsfunktion existiert, so kann man auch eine Wahrscheinlichkeitsdichte $ f_X(a)$ angeben. Für stetige Zufallsvariablen gilt:

$\displaystyle F_X(a) = \int^a_{-\infty} f_X(t) dt$   wobei$\displaystyle \quad \int^\infty_{-\infty} f_X(t) dt= 1$ (5)

Mit der Wahrscheinlichkeitsdichte können wir nun schreiben:

$\displaystyle p(a < X \leq b) = F_X(b) - F_X(a) = \int^b_a f_X(t) dt$ (6)

Die Zusammenhänge für stetige Verteilungsfunktionen und Wahrscheinlichkeitsdichten sind in Abbildung 2.1 angegeben.

3 Empirische Verteilungsfunktion

Seien $ x_i$ mit $ i \in \{I \dots n\}$ eine Gruppe bzw. Stichprobe von Werten einer diskreten Zufallsvariablen $ X$ . Die empirische Verteilungsfunktion $ \hat{F}_n(X)$ lautet dann (siehe [3] Seite 94)

$\displaystyle \hat{F}_n(x) = \frac{\sharp(X \leq x)}{n}$ (7)

mit der Anzahl $ \sharp(X \leq x)$ der Stichprobenwerte $ x_i \leq x$ sind. Von dieser Funktion wird im Folgenden noch häufig Gebrauch gemacht.

Analog zum Gesetz der großen Zahl bei der Wahrscheinlichkeit gilt hier der Satz von Glivenko und Cantelli: Die Differenz $ \mid \hat{F}_n(x) - F(x) \mid$ strebt für große $ n$ mit der Wahrscheinlichkeit 1 gegen Null (siehe [3] Seite 94), wenn $ F(x)$ die Verteilung der Zufallsvariablen $ X$ ist.

4 Skalenniveau

Zufallsvariablen und deren Verteilungsfunktionen kann man sowohl stetig als auch diskret formulieren, um den mit ihnen verbunden Formalismus auf möglichst viele Anwendungsfälle übertragen zu können. Zufallsvariablen können in drei (ein stetiges und zwei diskrete) verschiedene Gruppen - so genannte Skalenniveaus - eingeteilt werden:

Metrisch skalierte Zufallsvariablen
besitzen als Wertebereich eine Teilmenge der reellen Zahlen. Zwischen je zwei Elementen des Wertebereiches kann ein Abstand einfach als Differenz der beiden Elemente definiert werden. Beispiele sind Längen, Gewichte oder Zeiten.

Ordinal skalierte Zufallsvariablen
besitzen einen Wertebereich, der eindeutig auf eine Teilmenge der natürlichen Zahlen abgebildet werden kann. Durch die Eindeutigkeit der Abbildung wird die Reihenfolge der natürlichen Zahlen auf den Wertebereich der Zufallsvariablen übertragen. Es gibt also eine natürliche Reihenfolge der möglichen Werte der Zufallsvariablen, ohne dass man einen Abstand bestimmen kann. Beispiele sind subjektive Klassifizierungen wie laut / mittel / leise.

Kategorial skalierte Zufallsvariablen
besitzen weder einen Abstand noch eine natürliche Ordnung. Eigennamen sind hier ein allgegenwärtiges Beispiel.

Diese Reihenfolge der Skalenniveaus ist nicht zufällig gewählt. Durch Fortlassen der Eigenschaft einen Abstand bestimmen zu können (Metrik), erhält man im Normalfall aus einer metrischen eine ordinal skalierte Zufallsvariablen. Durch Fortlassen der Ordnung einer ordinalen Zufallsvariablen erhält man eine kategorial skalierte Zufallsvariable.

Man kann die Skalenniveaus also anhand ihrer Eigenschaften anordnen und von höheren und niedrigeren Skalenniveaus sprechen. Die Transformation von höheren zu niedrigeren Skalenniveaus und umgekehrt wird in Abschnitt 3.6 kurz vorgestellt.


2 Deskriptive Statistik

1 Mittelwert und Standardabweichung

Zur groben Charakterisierung von Zufallsvariablen sind Mittel- bzw. Erwartungswert und Varianz bzw. Standardabweichung geeignet. Der Erwartungswert $ E(X)$ einer diskreten Verteilungsfunktion $ X$ lautet (siehe [3] Seite 95)

$\displaystyle E(X) = \sum_i x_i \: p(X = x_i) = \sum_i x_i \frac{\sharp(X = x_i)}{n}$ (8)

Die $ x_i$ bezeichnen hier die verschiedenen Werte, die von der diskreten Zufallsvariablen angenommen werden und die $ \sharp(X = x_i)$ die zugehörige Anzahl. Für den Erwartungswert gelten umfangreiche Rechenregeln (z.B. [3] Seiten 95 und 96).

Für die Varianz $ Var(X)$ und die Standardabweichung $ \sigma$ gilt in diesem Fall (siehe [3] Seite 95):

$\displaystyle Var(X) = \sigma^2 = E(X-E(X)) = \sum_i [x_i-E(X)] \: p(X=x_i)$ (9)

2 Lineare und nichtlineare Regression

Hat man die Messwerte $ x_1, x_2, \dots , x_n$ der Zufallsvariablen $ X$ und die Messwerte $ y_1, y_2,$ $ \dots , y_n$ der Zufallsvariablen $ Y$ gepaart als Messpunkte $ (x_i, y_i)$ zur Verfügung, so besteht oft der Wunsch bei geeigneter Verteilung der Messpunkte eine Gerade $ y = b \: x +
a$ durch diese Messpunkte zu legen, die die Darstellung des Zusammenhangs möglichst gut an die Messwerte angepasst und in einfacher Form darstellt. Die einfache Darstellung ist durch die unkomplizierte Geradengleichung gegeben. Für die optimale Anpassung dieser Geraden an die Messwerte fordert man folgende Minimalbedingung (siehe [5] Seiten 1028 und 1029):

$\displaystyle E(Y - (b X + a)) = min!$ (10)

Damit ergibt sich folgende Regressionsgerade als Lösung:

$\displaystyle y = E(Y) + r \frac{\Delta X}{\Delta Y} (x-E(X))$   mit (11)

$\displaystyle \Delta X = \frac{1}{n} \sum_{i=1}^{n} x_i$   ,$\displaystyle \quad \Delta Y = \frac{1}{n} \sum_{i=1}^{n} Y_i$   und (12)

$\displaystyle r = \frac{1}{(n-1) \Delta X \Delta Y} \sum_{i=1}^n(x_i-E(X))(y_i-E(Y))$ (13)

Oft ist es nicht sinnvoll, den Zusammenhang zweier Zufallsvariablen $ X$ und $ Y$ durch eine Gerade zu beschreiben, da sich dann die oben geforderte Minimalbedingung nicht gut befriedigen lässt. In einem solchen Fall kann es hilfreich sein, eine Regression der Abbildungen $ f_1(X)$ und $ f_2(Y)$ vorzunehmen, wobei diese Funktionen durch Ausprobieren oder externe Informationen ergeben.

Führt auch die Transformation der Messpunkte zu keinem ausreichend linearem Verlauf, oder ist eine Transformation aus anderen Gründen nicht erwünscht, so kann man auf die nichtlineare Regression zurückgreifen. Die in dieser Arbeit vorgenommen nichtlinearen Regressionen wurden mit der Software Mathematica 5.0 vorgenommen.

3 Beispiel: log-Normalverteilung

Abbildung: Verteilungsfunktion $ F(x)$ und Wahrscheinlichkeitsdichte $ f(x)$ der log-Normalverteilung. Zusätzlich sind Häufungspunkt $ h$ , Median $ m$ und Mittelwert $ \mu$ gekennzeichnet. Die Fläche unter der Wahrscheinlichkeitsdichte ist 1. Sie wird durch den Median in 2 gleiche Flächen geteilt. Die Verteilungsfunktion besitzt an der Stelle des Medians den Wert 0.5. Durch die logarithmische Skalierung der rechten Abbildung ergibt sich ein symmetrischer Verlauf wie bei der Normalverteilung. Die Parameter der log-Normalverteilung lauten $ \alpha_L = \beta_L =1$ .
Image lognorm

Im Laufe der Arbeit werden einige Regressionen mit der log-Normalverteilung durchgeführt. Um die dabei gewonnenen Ergebnisse besser interpretieren zu können, sei hier die log-Normalverteilung etwas genauer untersucht.

Für Wahrscheinlichkeitsdichte $ f(x)$ der log-Normalverteilung gilt

$\displaystyle f(x) = \frac{1}{\sqrt{2\, \pi } \: \beta_L} \: \frac{1}{x} \: e^{-\frac{{\left( \log (x) - \alpha_L \right) }^2}{2 \, \beta_L^2}}$ (14)

Dabei wird der Parameter $ \alpha_L$ Häufungspunkt und den Parameter $ \beta_L$ Streuung der log-Normalverteilung genannt. Die einzigen Unterschiede der log-Normalverteilung zur Normalverteilung sind der veränderte Normierungsfaktor und und die Transformation der Argumente durch die $ \log$ -Funktion.

In Abbildung 2.2 sind die Verteilungsfunktion $ F$ und die Wahrscheinlichkeitsdichte $ f$ der log-Normalverteilung dargestellt. Zusätzlich sind auch Häufungspunkt $ h$ , Median $ m$ und Mittelwert $ \mu$ eingezeichnet. Es gelten

$\displaystyle h=\alpha_L$   ,$\displaystyle \quad m=e^{\alpha_L}$   und$\displaystyle \quad \mu=e^{\alpha_L+\frac{\beta_L^2}{2}}$ (15)

Durch die Transformation der Argumente fallen Häufungspunkt, Median und Mittelwert der log-Normalverteilung nicht wie bei der Normalverteilung zusammen. In diesem Fall spricht man auch von einer Schiefe (skewness) der Verteilung. Der Mittelwert der log-Normalverteilung hängt also im Gegensatz zur Normalverteilung nicht nur vom Häufungspunkt sondern auch von der Streuung ab.

Durch die Definition der Schiefe $ \beta_1$ im Anhang E.1 kann man diese quantifizieren. Für die log-Normalverteilung ergibt sich damit

$\displaystyle \beta_1={\sqrt{-1 + e^{\beta_L^2}}}\, \left( 2 + e^{\beta_L^2} \right)$ (16)

Da die Schiefe $ \beta_1$ monoton vom Parameter $ \beta_L$ abhängt, kann man aus Gründen der Einfachheit zum Vergleich der Schiefen zweier log-Normalverteilungen den Parameter $ \beta_L$ heranziehen.


3 Prüfende Statistik

Im Normalfall sollte eine statistisch testende Analyse folgendermaßen ablaufen:

  1. Die Fragestellung wird in eine prüfbare Hypothese umformuliert.

  2. Man überlegt sich, mit welchen Verfahren die Hypothese geprüft wird.

  3. Die Daten werden nach den Erfordernissen des ausgewählten Verfahrens erhoben.

  4. Das Testverfahren wird durchgeführt und das Ergebnis liegt vor.

Das Vorgehen bei dieser Untersuchung unterscheidet sich zwangsläufig stark von dem oben genannten Vorgehen:

Es können also verschiedene Verfahren nur auf die schon erhobenen Daten angewendet und dann entschieden werden, ob die gewonnenen Erkenntnisse von Interesse sind - also eine Umkehrung des normalen Vorgehens. Aufgrund dieser Randbedingungen ist es nicht unkritisch, testende Statistik zu betreiben - man muss also hauptsächlich mit deskriptiver Statistik auskommen.

In einigen Fällen wird jedoch auch in dieser Arbeit testenden Statistik verwendet. Zur Beurteilung der Regressionen an eine willkürlich ausgewählte log-Normalverteilung wird der Kolmogoroff-Smirnow-Test für die Güte von Anpassungen verwendet. Für die Untersuchung von Mehrfeldtafeln bzw. Kreuztabellen wird der $ \chi ^2$ -Test und der Kontingenzkoeffizient von Pawlik verwendet. Korrelationen werden mit dem Spearmanschen Rang-Korrelationskoeffizienten untersucht.

1 Grundlagen

Aus den vorliegenden Daten $ X$ , die als Vektor oder auch als Matrix vorliegen können, wird eine Testgröße $ T(X)$ berechnet. Anhand dieser Testgröße kann man entscheiden, ob die Nullhypothese $ H_0$ angenommen oder verworfen wird und damit die Alternativhypothese $ H_A$ angenommen wird. Testgröße, Nullhypothese und Alternativhypothese werden durch den gewählten Test festgelegt.

Bei der Entscheidung zwischen Null- und Alternativhypothese anhand der ermittelten Testgröße kann der Test zwei prinzipielle Fehler machen. Die Nullhypothese kann abgelehnt werden, obwohl sie richtig ist - diesen Fehler nennt man Fehler 1. Art oder $ \alpha$ -Fehler. Wird die Nullhypothese jedoch nicht abgelehnt, obwohl die Alternativhypothese vorliegt, so spricht man vom Fehler 2. Art bzw. $ \beta$ -Fehler.

Es hat sich eingebürgert, Entscheidungen zwischen Null- und Alternativhypothese als signifikant zu bezeichnen, wenn der $ \alpha$ -Fehler kleiner als 5% ist. Der $ \alpha$ -Fehler kann durch Wahl des kritischen Wertes festgelegt werden. Der kritische Wert ist dabei die Grenze zwischen Werten der Testgröße, die die Nullhypothese bestätigen bzw. widerlegen. Eine zu starke Verkleinerung des $ \alpha$ -Fehlers führt im Allgemeinen zu einer unerwünschten Erhöhung des $ \beta$ -Fehlers.


2 Anpassungstest von Kolmogoroff-Smirnow

Bei diesem Test soll untersucht werden, ob eine empirische Verteilungsfunktion $ F_E$ (siehe Abschnitt 2.3.1) durch eine Verteilungsfunktion $ F_0$ dargestellt werden kann.

Die Nullhypothese $ H_0$ lautet $ F_E = F_0$ , die Alternativhypothese $ H_A$ lautet damit $ F_E \neq F_0$ . Die Testgröße $ T$ lautet

$\displaystyle T=\sqrt{n} \: \max(\mid F_0 - F_E \mid)$ (17)

wobei $ n$ die Anzahl der Werte der empirischen Verteilungsfunktion $ F_E$ ist.

Die Nullhypothese $ H_0$ wird mit dem $ \alpha$ -Fehler abgelehnt, wenn $ T \geq k_{n;\alpha}$ gilt. Die kritischen Werte $ k_{n;\alpha}$ können aus Tabellen entnommen werden (z.B. [4] Seite 184).

Anschaulich bedeutet dies, dass die empirische Verteilungsfunktion $ F_E$ dann durch eine andere Verteilungsfunktion $ F_0$ angenähert werden kann, wenn $ F_E$ sich innerhalb eines Gebietes der Breite $ k_{n;\alpha}/\sqrt{n}$ um $ F_0$ befindet. In den Abbildungen 4.13 und 4.32 ist dieses Gebiet zur Beurteilung der Regression eingezeichnet.

3 $ \chi ^2$ -Test für Mehrfeldtafeln

Mehrfeldtafeln sind matrizenförmig angeordnete Häufigkeiten. Solche Tabellen werden auch als Kreuz- oder Kontingenztabellen bezeichnet. Die einzelnen Werte der $ r \times c$ -Matrix werden mit $ n_{ij}$ bezeichnet.

Dieser Test untersucht, ob die $ n_{ij}$ gleich verteilt, d.h. die $ n_{ij}$ weder von $ i$ noch von $ j$ abhängen. Dazu wird folgende Testgröße berechnet:

$\displaystyle T = -n+n \sum_{i=1}^r \sum_{j=1}^c \frac{n_{ij}^2}{n_{i \cdot} n_{\cdot j}}$ (18)

Dabei ist

$\displaystyle n_{i \cdot} = \sum_{i=1}^r n_{ij}$   , $\displaystyle \quad n_{\cdot j} = \sum_{j=1}^c n_{ij}$   sowie$\displaystyle \quad n=\sum_{i=1}^r \sum_{j=1}^c n_{ij}$ (19)

Die Nullhypothese $ H_0$ besagt, dass die $ n_{ij}$ stochastisch unabhängig sind. Die Nullhypothese wird mit dem $ \alpha$ -Fehler abgelehnt, wenn $ T \geq k_{f;\alpha}$ . $ k_{f;\alpha}$ ist dabei der kritische Wert, der von $ \alpha$ -Fehler und Anzahl der Freiheitsgrade der Matrix abhängt. Die Anzahl der Freiheitsgrade lautet $ f = (r-1) (c-1)$ , wenn die Randsummen $ n_{i \cdot}$ und $ n_{\cdot j}$ vorgegeben sind.

Die kritischen Werte $ k_{f;\alpha}$ sind hier genau die $ \alpha$ -Quantile der $ \chi ^2$ -Verteilung für $ f$ Freiheitsgrade. Diese Werte sind leicht verfügbar (z.B. tabelliert in [3] oder Berechnung mit Mathematica).

4 Kontingenzkoeffizient von Pawlik

Mit Hilfe des Kontingenzkoeffizienten von Pawlik soll die Stärke einer Korrelation innerhalb einer Kreuztabelle untersucht werden. Zum Vergleich verschiedener Kreuztabellen ist die im vorherigen Abschnitt vorgestellte Testgröße $ T$ nicht geeignet, da sie proportional zu $ n$ ist. Diese Abhängigkeit weist der folgende Kontingenzkoeffizient $ C$ von Pawlik nicht auf (siehe [3] Seite 601ff):

$\displaystyle C = \sqrt{\frac{T}{n+T}}$ (20)

Bei völliger Unabhängigkeit ist $ C=0$ . Für den maximalen Kontingenzkoeffizienten gilt

$\displaystyle C_{max} = \sqrt{\frac{r}{n+r}}$   wobei bitte$\displaystyle \quad r>c$ (21)

Um die Kontingenzkoeffizienten von den Kreuztabellen unabhängig und damit vergleichbar zu machen, wird der korrigierte Kontingenzkoeffizient $ C_{korr}$ eingeführt. Es gilt

$\displaystyle C_{korr} = \frac{C}{C_{max}}$ (22)

5 Der Spearmansche Rang-Korrelationskoeffizient

Soll eine Stichprobe gepaarter Werte $ (x_i, y_i)$ zweier Zufallsvariablen $ X$ und $ Y$ auf einen Zusammenhang von $ X$ und $ Y$ hin untersucht werden, so kann man auf Korrelationsmaße zurückgreifen. Der normale Korrelationskoeffizient kann jedoch nur lineare Zusammenhänge nachweisen und ist auf normalverteilte Zufallsvariablen $ X$ und $ Y$ angewiesen (siehe [3] Seite 495).

Der Spearmansche Rang-Korrelationskoeffizient kann dagegen bei Zufallsvariablen mit unbekannter Verteilung auch nichtlineare Zusammenhänge nachweisen. Er ist damit wesentlich vielseitiger einsetzbar (siehe [3] Seite 511f).

Bei Rang-Korrelationskoeffizienten werden nicht die $ x_i$ und $ y_i$ direkt untersucht sondern nur ihre Ränge. Der Rang $ d_{x_i}$ eines Wertes $ x_i$ ist einfach die Position des Wertes in der sortierten Liste aller $ x_1, x_2, \dots, x_{n-1}, x_n$ . Kommen einige $ x_i$ mehrfach vor, so spricht man von Bindungen. Der Rang von gebundenen $ x_i$ ist der Mittelwert ihrer Positionen.

Die Bestimmung der Rangzahlen für eine metrische Zufallsvariable kommt einer Skalentransformation einer metrischen Zufallsvariablen in eine ordinal skalierte Zufallsvariable gleich (siehe Abschnitt 2.3.1). Damit ist auch klar, warum mit diesem Korrelationskoeffizienten auch nichtlineare Zusammenhänge nachgewiesen werden können.

Der Spearmansche Rang-Korrelationskoeffizient berechnet sich für $ n \geq 6$ als

$\displaystyle r_S=1-\frac{6 \sum_{i=1}^{n} (d_{x_i}-d_{y_i})^2}{n(n^2-1)} $

Für Zufallsvariablen mit vielen Bindungen (mehr als 20 % der Beobachtungen) steht noch ein korrigierter Koeffizient zur Verfügung (siehe [3] Seite 513), der hier aber nicht benötigt wird.

Um nun zwischen der Nullhypothese $ H_0$ - zwischen $ X$ und $ Y$ besteht kein Zusammenhang - oder der Alternativhypothese $ H_A$ - es besteht ein Zusammenhang - zu entscheiden, wird die Testgröße $ T=r_S$ herangezogen. Die Nullhypothese wird auf dem Signifikanzniveau $ \alpha$ abgelehnt, wenn $ T>k_{\alpha;n}$ gilt. Dabei können die kritischen Werte $ k_{\alpha;n}$ aus [3] (Seite 511) entnommen werden.


4 Assoziationsanalyse

Ein Ereignis $ A$ und ein Ereignis $ B$ können gemeinsam auftreten. Tun sie dies, so spricht man von einer Koinzidenz. Ist diese Koinzidenz nicht zufällig, so spricht man von einer Korrelation. Eine Korrelation kann aus verschiedenen Gründen vorliegen: zum einen kann das Ereignis $ A$ das Ereignis $ B$ hervorrufen oder umgekehrt. Es besteht auch die Möglichkeit, dass $ A$ und $ B$ eine gemeinsame Ursache haben.

Die Assoziationsanalyse versucht nun die Korrelation von Koinzidenzen zu bestimmen, d.h. sie versucht zu bestimmen, ob zwei Ereignisse zufällig gemeinsam aufgetreten sind oder ob das eine Ereignis das andere hervorgerufen oder beide Ereignisse eine gemeinsame Ursache haben. Beispielsweise könnten Ereignis $ A$ ,,das Gerät gehört zur Gerätegruppe der Infusionspumpen`` und Ereignis $ B$ ,,das Gerät ist günstiger als 5000 `` lauten. Dann könnte man jeweils die Anzahl der Geräte, für die Ereignisse $ A$ , $ B$ und beide Ereignisse $ A$ und $ B$ eintreten sowie die Anzahl aller Geräte bestimmen. Aus diesen Anzahlen lassen sich zur Beurteilung der Korrelation der Ereignisse $ A$ und $ B$ verschiedene Assoziationsmaße berechnen, die die Assoziationsanalyse bereit stellt. Im Folgenden sind einige Assoziationsmaße aufgeführt, die in dieser Arbeit verwendet wurden. Eine ausführliche Darstellung findet sich in [2] ab Seite 427.

1 support

Abbildung 2.3: Zur Veranschaulichung sind beispielhaft die Mengen $ A$ , $ B$ , $ A \cap
B$ und $ D$ dargestellt.
Image assoz

Er gibt an, wie häufig ein Ereignis im Verhältnis zu allen Ereignissen auftritt. Insbesondere ist der support des Ereignissen A und B treten gemeinsam auf für die Analysen wichtig. Wir schreiben

support$\displaystyle (A \cap B) = p(A \cap B) = \frac{\sharp(A \cap B)}{\sharp(D)}$ (23)

Dabei sind mit $ p(A \cap B)$ die Wahrscheinlichkeit des gleichzeitigen Eintretens von $ A$ und $ B$ bzw. die Anzahl der Koinzidenzen von $ A$ und $ B$ gemeint und mit $ \sharp(D)$ die Anzahl aller Ereignisse.

Dieses Maß ist zwar noch kein Assoziationsmaß, aber es gibt an, wie viele Ereignisse von einer noch eventuell zu entdeckenden Assoziation überhaupt betroffen sind, und ist damit für die Analysen nicht uninteressant. Außerdem wird dieses Maß als Baustein für die folgenden Maße wieder verwendet. Die Ereignismengen sind zur Veranschaulichung in Abbildung 2.3 dargestellt.


2 confidence

Sie ist nichts anderes als die bedingte Wahrscheinlichkeit des Auftretens des Ereignisses $ B$ unter der Voraussetzung des Eintretens des Ereignisses $ A$ . Wir schreiben

confidence$\displaystyle (A,B) = \frac{\mbox{support}(A \cap B)}{\mbox{support}(A)} = \frac{\sharp(A \cap B)}{\sharp(A)} = p(B \mid A)$ (24)

In ungünstigen Fällen, kann die confidence$ (A,B)$ hohe Werte annehmen, obwohl in der Ereignismenge kein Zusammenhang zwischen den Ereignissen $ A$ und $ B$ besteht. Dies ist dann der Fall, wenn support$ (B)$ groß ist - dann ist auch confidence$ (A,B)$ bei nicht vorhandener Korrelation der Ereignisse $ A$ und $ B$ groß. Diesen Nachteil versucht der lift zu umgehen.


3 lift

Dieser ergibt sich als Quotient von confidence$ (A,B)$ und support$ (B)$ . Wir schreiben

lift$\displaystyle (A,B) = \frac{\mbox{confidence}(A,B)}{\mbox{support}(B)} = \frac{\mbox{support}(A \cap B)}{\mbox{support}(A) \: \mbox{support}(B)}$ (25)

Der lift gibt damit das Verhältnis von beobachteten Koinzidenzen support$ (A \cap B)$ und von den bei Gleichverteilung zu erwartenden Koinzidenzen als Produkt von support$ (A)$ und support$ (B)$ . Also ist der lift ein Maß dafür wie viel eine beobachtete Koinzidenz häufiger bzw. seltener ist, als sie bei Gleichverteilung zu erwarten wäre. Er ist damit weniger ein direktes Maß für die Abhängigkeit zwischen $ A$ und $ B$ , als vielmehr ein Maß für die Abweichung der Unabhängigkeit.

Leider lassen sich für den lift auch Fälle konstruieren, an denen er als Assoziationsmaß versagt: wenn confidence$ (A,B)$ und support$ (B)$ etwa gleich groß sind, dann ergibt sich auch bei hoher confidence ein lift von etwa eins - was trotz der hohen confidence hier auf einen geringen Zusammenhang hindeutet.

Man könnte noch ein weiteres Assoziationsmaß einführen - die conviction -, das diesen Nachteil nicht besitzt. Jedoch besitzt diese Maß eine nicht mehr so anschauliche Interpretation wie die des liftes und wird deshalb in dieser Arbeit nicht verwendet.


5 Markowsche Ketten

Betrachten wir ein System, dass sich zu diskreten Zeitpunkten $ t_n$ beliebig in einem der Zustände $ Z_i$ befinden kann. Die Zustände, in denen sich das System zum Zeitpunkt $ t_n$ befindet, werden mit $ Z_n$ bezeichnet.

Nun kann man eine Übergangswahrscheinlichkeit $ p_{ij}$ als bedingte Wahrscheinlichkeit einführen, dass auf dem Zustand $ Z_i$ der Zustand $ Z_j$ folgt. Diese Wahrscheinlichkeiten lassen sich übersichtlich in einer Übergangsmatrix $ p_{ij}$ darstellen.

Hängen die $ p_{ij}$ nicht von der Zeit ab (Homogenität der Zeit), so kann man die $ Z_n$ als markowsche Kette auffassen (siehe [5] Seite 1084).


6 Quantitative Linguistik

1 Grundlagen

Erst seit gut 50 Jahren wird Sprache nicht nur qualitativ sondern auch mit quantitativen Methoden untersucht - in der Linguistik kann nun also wie bei anderen Wissenschaften auch ,,gemessen`` werden. Gemessen werden dabei hauptsächlich Häufigkeiten von sprachlichen Objekten wie Wörtern und Buchstaben. Aus diesen Daten wird dann mit Hilfe statistischer Methoden versucht, neue Erkenntnisse zu gewinnen oder bekannte Vermutungen zu begründen. Als Geburtsstunde dieser Entwicklung wird das Zipf'sche Gesetz angesehen.


2 Zipf`s Gesetz

Das Zipf'sche Gesetz beschreibt in sehr einfacher Weise die Häufigkeitsverteilung von Worten in Texten. Dazu formuliert das Gesetz einen Zusammenhang zwischen der Häufigkeit $ P_i$ eines Wortes in einem (ausreichend langen) Text und seines nach Häufigkeit sortierten Ranges $ i$ als (siehe [6])

$\displaystyle P_i=\frac{c}{i^a}$ (26)

Dabei passt der Parameter $ c$ die Verteilung an verschiedene Textumfänge an und der Formparameter $ a$ bestimmt die Form der Verteilung. Für gewöhnliche Texte liegt $ a$ meist etwas über 1 und kann näherungsweise ganz entfallen.

Durch Logarithmieren erhält man mit $ \log(P_i)=\log(c)-a \,
\log(i)$ eine einfach zu untersuchende Geradengleichung.

Trotz seiner einfachen Form ist das Gesetz erstaunlich gut in der Lage, Häufigkeitsverteilungen verschiedenster Objekte zu beschreiben. Der Grund dafür ist bis heute nicht verstanden. Da es sich beim Zipf'schen Gesetz um ein empirisches Gesetz handelt, gilt es nicht exakt. Oft liefert aber auch die Abweichung einer Verteilung vom Zipf'schen Gesetz wertvolle Informationen.

Die dem Zipf'schen Gesetz zugrunde liegende Verteilungsfunktion wird als Zeta-Verteilung bezeichnet.


3 Wortentropie

Als mächtiges Werkzeug bei der quantitativen Analyse von Texten erweist sich die Entropie. Die Entropie kann als Maß der Unordnung einer Verteilung angesehen werden. Für die oben genannten Worthäufigkeiten $ P_i$ ergibt sich die Entropie h mit $ p_i=P_i/\sum_i P_i$ zu

$\displaystyle h = -\sum_i p_i \log(p_i)$ (27)

Bemerkenswert ist, das die Entropie die Unordnung als Informationsgehalt pro betrachtetem Element angibt - also hier pro Wort. Benutzt man zur Berechnung der Entropie den Logarithmus zur Basis 2, so gibt die Entropie den Informationsgehalt pro Wort in Bit an. Je größer also die Unordnung in einem Text ist, desto mehr Information wird pro Wort übertragen.

Ist der absolute Wert der Entropie nicht von Interesse, so kann man eine relative Entropie $ h_R$ einführen. Es gilt

$\displaystyle h_R=\frac{h}{h_{max}}$ (28)

Dabei ist $ h_{max}$ die maximale Entropie, die die betrachtete Wortgruppe annehmen kann. Man kann sich leicht überlegen, dass die Entropie bei Gleichverteilung maximal wird, d.h. alle $ p_i$ sind gleich groß, und es gilt $ p_i=p=1/N$ , wenn $ N$ die Anzahl der verschiedenen Wörter ist. Damit wird

$\displaystyle h_{max} = - \sum_i^N \frac{1}{N} \log(\frac{1}{N}) = \log(N)$ (29)


next up previous contents index
Nächste Seite: 4 Grundlagen der Instandhaltung Aufwärts: 2 Methoden Vorherige Seite: 2 Methoden des Data   Inhalt   Index
Thorsten Foerstemann (thorsten@foerstemann.name)