3 Statistische Methoden

In diesem Abschnitt werden kurz die Methoden der Statistik vorgestellt, die in dieser Arbeit verwendet werden. Spezielle Anwendungen der Statistik im Bereich der Instandhaltung von Geräten werden im Abschnitt 2.4.3 vorgestellt.

1 Grundlagen

1 Zufällige Ereignisse

Es gibt Ereignisse, die nicht vorhersagbar und daher zufällig sind: z.B. das Erhalten einer ungerade Augenzahl nach einem Würfelwurf oder der Ausfall mindestens einer Glühlampe in einer leuchtenden Lichterkette in einer bestimmten Zeitspanne. Beiden Beispielen ist gemeinsam, dass man

Kann man jetzt noch das Zufallsexperiment beliebig oft durchführen, so kann man nun zu jedem Ergebnis, das ab jetzt als Ereignis

bezeichnet wird, die Wahrscheinlichkeit

einführen, mit der das Ereignis

eintritt. Wir schreiben:

Dabei bedeutet $\sharp(A)$ die Anzahl der Experimente mit Ergebnis

und

die Gesamtzahl der durchgeführten Experimente.

In der Praxis muss man sich oft mit Näherungen bzw. Schätzwerten der Wahrscheinlichkeit

begnügen, da man Experimente nicht beliebig häufig wiederholen kann. Nach dem schwachen Gesetz der großen Zahl (z.B. [3] Seite 129) wird

aber mit steigender Zahl an Experimenten beliebig genau approximiert. Aus der obigen Definition folgt, dass $a \leq p(A) \leq 1$ . Außerdem gilt für sich ausschließende Ereignisse

und

Im folgenden wird auch noch der Begriff der ,,Bedingten Wahrscheinlichkeit`` benötigt:

Dabei gibt dieser Wert die Wahrscheinlichkeit an, dass das Ereignis

eintritt unter der Voraussetzung, dass das Ereignis

eintritt.

2 Zufällige Variable

**Abbildung 2.1:** Oben ist die Verteilungsfunktion und unten die Wahrscheinlichkeitsdichte angegeben. Die Darstellung soll den Zusammenhang dieser beiden Funktionen verdeutlichen: Flächen unter der Wahrscheinlichkeitsdichte entsprechen Funktionswerten der Verteilungsfunktion. Mit Veränderungen entnommen aus [3] Seite 92.

Neben zufälligen Ereignissen werden in dieser Arbeit auch zufällige Variable untersucht. Zum Beispiel ist die Zeit zwischen zwei Ausfällen eines Gerätes eine so genannte Zufallsvariable. Die Wahrscheinlichkeit, bei einer Bestimmung der Zufallsvariablen

einen Wert

zu erhalten, für den $a < x \leq b$ gilt, wird als $p(a < X \leq b)$ bezeichnet.

Als reellwertig wird eine Zufallsvariable bezeichnet, wenn ihre Wertemenge reell ist. Als diskret / stetig wird sie bezeichnet, wenn ihr Definitionsbereich diskret / stetig ist. Alle im folgenden betrachteten Zufallsvariablen sind stetig. Die Zusammenhänge lassen sich aber leicht auf diskrete Zufallsvariablen übertragen.

Zu einer stetigen Zufallsvariablen

lässt sich eine Verteilungsfunktion

angeben:

Diese Verteilungsfunktion ist monoton steigend und hat einen Wertebereich von 0 bis 1.

Wenn eine Verteilungsfunktion existiert, so kann man auch eine Wahrscheinlichkeitsdichte

angeben. Für stetige Zufallsvariablen gilt:

$\displaystyle F_X(a) = \int^a_{-\infty} f_X(t) dt$ wobei $\displaystyle \quad \int^\infty_{-\infty} f_X(t) dt= 1$

(5)

Die Zusammenhänge für stetige Verteilungsfunktionen und Wahrscheinlichkeitsdichten sind in Abbildung 2.1 angegeben.

3 Empirische Verteilungsfunktion

Seien

mit $i \in \{I \dots n\}$ eine Gruppe bzw. Stichprobe von Werten einer diskreten Zufallsvariablen

. Die empirische Verteilungsfunktion $\hat{F}_n(X)$ lautet dann (siehe [3] Seite 94)

mit der Anzahl $\sharp(X \leq x)$ der Stichprobenwerte $x_i \leq x$ sind. Von dieser Funktion wird im Folgenden noch häufig Gebrauch gemacht.

Analog zum Gesetz der großen Zahl bei der Wahrscheinlichkeit gilt hier der Satz von Glivenko und Cantelli: Die Differenz $\mid \hat{F}_n(x) - F(x) \mid$ strebt für große

mit der Wahrscheinlichkeit 1 gegen Null (siehe [3] Seite 94), wenn

die Verteilung der Zufallsvariablen

ist.

4 Skalenniveau

Zufallsvariablen und deren Verteilungsfunktionen kann man sowohl stetig als auch diskret formulieren, um den mit ihnen verbunden Formalismus auf möglichst viele Anwendungsfälle übertragen zu können. Zufallsvariablen können in drei (ein stetiges und zwei diskrete) verschiedene Gruppen - so genannte Skalenniveaus - eingeteilt werden:

Diese Reihenfolge der Skalenniveaus ist nicht zufällig gewählt. Durch Fortlassen der Eigenschaft einen Abstand bestimmen zu können (Metrik), erhält man im Normalfall aus einer metrischen eine ordinal skalierte Zufallsvariablen. Durch Fortlassen der Ordnung einer ordinalen Zufallsvariablen erhält man eine kategorial skalierte Zufallsvariable.

Man kann die Skalenniveaus also anhand ihrer Eigenschaften anordnen und von höheren und niedrigeren Skalenniveaus sprechen. Die Transformation von höheren zu niedrigeren Skalenniveaus und umgekehrt wird in Abschnitt 3.6 kurz vorgestellt.

2 Deskriptive Statistik

1 Mittelwert und Standardabweichung

Zur groben Charakterisierung von Zufallsvariablen sind Mittel- bzw. Erwartungswert und Varianz bzw. Standardabweichung geeignet. Der Erwartungswert

einer diskreten Verteilungsfunktion

lautet (siehe [3] Seite 95)

Die

bezeichnen hier die verschiedenen Werte, die von der diskreten Zufallsvariablen angenommen werden und die $\sharp(X = x_i)$ die zugehörige Anzahl. Für den Erwartungswert gelten umfangreiche Rechenregeln (z.B. [3] Seiten 95 und 96).

Für die Varianz

und die Standardabweichung $\sigma$ gilt in diesem Fall (siehe [3] Seite 95):

2 Lineare und nichtlineare Regression

Hat man die Messwerte $x_1, x_2, \dots , x_n$ der Zufallsvariablen

und die Messwerte

$\dots , y_n$ der Zufallsvariablen

gepaart als Messpunkte

zur Verfügung, so besteht oft der Wunsch bei geeigneter Verteilung der Messpunkte eine Gerade $y = b \: x + a$ durch diese Messpunkte zu legen, die die Darstellung des Zusammenhangs möglichst gut an die Messwerte angepasst und in einfacher Form darstellt. Die einfache Darstellung ist durch die unkomplizierte Geradengleichung gegeben. Für die optimale Anpassung dieser Geraden an die Messwerte fordert man folgende Minimalbedingung (siehe [5] Seiten 1028 und 1029):

$\displaystyle \Delta X = \frac{1}{n} \sum_{i=1}^{n} x_i$ , $\displaystyle \quad \Delta Y = \frac{1}{n} \sum_{i=1}^{n} Y_i$ und

(12)

Oft ist es nicht sinnvoll, den Zusammenhang zweier Zufallsvariablen

und

durch eine Gerade zu beschreiben, da sich dann die oben geforderte Minimalbedingung nicht gut befriedigen lässt. In einem solchen Fall kann es hilfreich sein, eine Regression der Abbildungen

und

vorzunehmen, wobei diese Funktionen durch Ausprobieren oder externe Informationen ergeben.

Führt auch die Transformation der Messpunkte zu keinem ausreichend linearem Verlauf, oder ist eine Transformation aus anderen Gründen nicht erwünscht, so kann man auf die nichtlineare Regression zurückgreifen. Die in dieser Arbeit vorgenommen nichtlinearen Regressionen wurden mit der Software Mathematica 5.0 vorgenommen.

3 Beispiel: log-Normalverteilung

**Abbildung:** Verteilungsfunktion und Wahrscheinlichkeitsdichte der log-Normalverteilung. Zusätzlich sind Häufungspunkt , Median und Mittelwert $\mu$ gekennzeichnet. Die Fläche unter der Wahrscheinlichkeitsdichte ist 1. Sie wird durch den Median in 2 gleiche Flächen geteilt. Die Verteilungsfunktion besitzt an der Stelle des Medians den Wert 0.5. Durch die logarithmische Skalierung der rechten Abbildung ergibt sich ein symmetrischer Verlauf wie bei der Normalverteilung. Die Parameter der log-Normalverteilung lauten $\alpha_L = \beta_L =1$ .

Im Laufe der Arbeit werden einige Regressionen mit der log-Normalverteilung durchgeführt. Um die dabei gewonnenen Ergebnisse besser interpretieren zu können, sei hier die log-Normalverteilung etwas genauer untersucht.

$\displaystyle f(x) = \frac{1}{\sqrt{2\, \pi } \: \beta_L} \: \frac{1}{x} \: e^{-\frac{{\left( \log (x) - \alpha_L \right) }^2}{2 \, \beta_L^2}}$

(14)

Dabei wird der Parameter $\alpha_L$ Häufungspunkt und den Parameter $\beta_L$ Streuung der log-Normalverteilung genannt. Die einzigen Unterschiede der log-Normalverteilung zur Normalverteilung sind der veränderte Normierungsfaktor und und die Transformation der Argumente durch die $\log$ -Funktion.

In Abbildung 2.2 sind die Verteilungsfunktion

und die Wahrscheinlichkeitsdichte

der log-Normalverteilung dargestellt. Zusätzlich sind auch Häufungspunkt

, Median

und Mittelwert $\mu$ eingezeichnet. Es gelten

$\displaystyle h=\alpha_L$ , $\displaystyle \quad m=e^{\alpha_L}$ und $\displaystyle \quad \mu=e^{\alpha_L+\frac{\beta_L^2}{2}}$

(15)

Durch die Transformation der Argumente fallen Häufungspunkt, Median und Mittelwert der log-Normalverteilung nicht wie bei der Normalverteilung zusammen. In diesem Fall spricht man auch von einer Schiefe (skewness) der Verteilung. Der Mittelwert der log-Normalverteilung hängt also im Gegensatz zur Normalverteilung nicht nur vom Häufungspunkt sondern auch von der Streuung ab.

Durch die Definition der Schiefe $\beta_1$ im Anhang E.1 kann man diese quantifizieren. Für die log-Normalverteilung ergibt sich damit

Da die Schiefe $\beta_1$ monoton vom Parameter $\beta_L$ abhängt, kann man aus Gründen der Einfachheit zum Vergleich der Schiefen zweier log-Normalverteilungen den Parameter $\beta_L$ heranziehen.

3 Prüfende Statistik

Im Normalfall sollte eine statistisch testende Analyse folgendermaßen ablaufen:

Das Vorgehen bei dieser Untersuchung unterscheidet sich zwangsläufig stark von dem oben genannten Vorgehen:

Es können also verschiedene Verfahren nur auf die schon erhobenen Daten angewendet und dann entschieden werden, ob die gewonnenen Erkenntnisse von Interesse sind - also eine Umkehrung des normalen Vorgehens. Aufgrund dieser Randbedingungen ist es nicht unkritisch, testende Statistik zu betreiben - man muss also hauptsächlich mit deskriptiver Statistik auskommen.

In einigen Fällen wird jedoch auch in dieser Arbeit testenden Statistik verwendet. Zur Beurteilung der Regressionen an eine willkürlich ausgewählte log-Normalverteilung wird der Kolmogoroff-Smirnow-Test für die Güte von Anpassungen verwendet. Für die Untersuchung von Mehrfeldtafeln bzw. Kreuztabellen wird der $\chi ^2$ -Test und der Kontingenzkoeffizient von Pawlik verwendet. Korrelationen werden mit dem Spearmanschen Rang-Korrelationskoeffizienten untersucht.

1 Grundlagen

Aus den vorliegenden Daten

, die als Vektor oder auch als Matrix vorliegen können, wird eine Testgröße

berechnet. Anhand dieser Testgröße kann man entscheiden, ob die Nullhypothese

angenommen oder verworfen wird und damit die Alternativhypothese

angenommen wird. Testgröße, Nullhypothese und Alternativhypothese werden durch den gewählten Test festgelegt.

Bei der Entscheidung zwischen Null- und Alternativhypothese anhand der ermittelten Testgröße kann der Test zwei prinzipielle Fehler machen. Die Nullhypothese kann abgelehnt werden, obwohl sie richtig ist - diesen Fehler nennt man Fehler 1. Art oder $\alpha$ -Fehler. Wird die Nullhypothese jedoch nicht abgelehnt, obwohl die Alternativhypothese vorliegt, so spricht man vom Fehler 2. Art bzw. $\beta$ -Fehler.

Es hat sich eingebürgert, Entscheidungen zwischen Null- und Alternativhypothese als signifikant zu bezeichnen, wenn der $\alpha$ -Fehler kleiner als 5% ist. Der $\alpha$ -Fehler kann durch Wahl des kritischen Wertes festgelegt werden. Der kritische Wert ist dabei die Grenze zwischen Werten der Testgröße, die die Nullhypothese bestätigen bzw. widerlegen. Eine zu starke Verkleinerung des $\alpha$ -Fehlers führt im Allgemeinen zu einer unerwünschten Erhöhung des $\beta$ -Fehlers.

2 Anpassungstest von Kolmogoroff-Smirnow

Bei diesem Test soll untersucht werden, ob eine empirische Verteilungsfunktion

(siehe Abschnitt 2.3.1) durch eine Verteilungsfunktion

dargestellt werden kann.

Die Nullhypothese

lautet

, die Alternativhypothese

lautet damit $F_E \neq F_0$ . Die Testgröße

lautet

Die Nullhypothese

wird mit dem $\alpha$ -Fehler abgelehnt, wenn $T \geq k_{n;\alpha}$ gilt. Die kritischen Werte $k_{n;\alpha}$ können aus Tabellen entnommen werden (z.B. [4] Seite 184).

Anschaulich bedeutet dies, dass die empirische Verteilungsfunktion

dann durch eine andere Verteilungsfunktion

angenähert werden kann, wenn

sich innerhalb eines Gebietes der Breite $k_{n;\alpha}/\sqrt{n}$ um

befindet. In den Abbildungen 4.13 und 4.32 ist dieses Gebiet zur Beurteilung der Regression eingezeichnet.

3 $\chi ^2$ -Test für Mehrfeldtafeln

Mehrfeldtafeln sind matrizenförmig angeordnete Häufigkeiten. Solche Tabellen werden auch als Kreuz- oder Kontingenztabellen bezeichnet. Die einzelnen Werte der $r \times c$ -Matrix werden mit $n_{ij}$ bezeichnet.

Dieser Test untersucht, ob die $n_{ij}$ gleich verteilt, d.h. die $n_{ij}$ weder von

noch von

abhängen. Dazu wird folgende Testgröße berechnet:

$\displaystyle n_{i \cdot} = \sum_{i=1}^r n_{ij}$ , $\displaystyle \quad n_{\cdot j} = \sum_{j=1}^c n_{ij}$ sowie $\displaystyle \quad n=\sum_{i=1}^r \sum_{j=1}^c n_{ij}$

(19)

Die Nullhypothese

besagt, dass die $n_{ij}$ stochastisch unabhängig sind. Die Nullhypothese wird mit dem $\alpha$ -Fehler abgelehnt, wenn $T \geq k_{f;\alpha}$ . $k_{f;\alpha}$ ist dabei der kritische Wert, der von $\alpha$ -Fehler und Anzahl der Freiheitsgrade der Matrix abhängt. Die Anzahl der Freiheitsgrade lautet

, wenn die Randsummen $n_{i \cdot}$ und $n_{\cdot j}$ vorgegeben sind.

Die kritischen Werte $k_{f;\alpha}$ sind hier genau die $\alpha$ -Quantile der $\chi ^2$ -Verteilung für

Freiheitsgrade. Diese Werte sind leicht verfügbar (z.B. tabelliert in [3] oder Berechnung mit Mathematica).

4 Kontingenzkoeffizient von Pawlik

Mit Hilfe des Kontingenzkoeffizienten von Pawlik soll die Stärke einer Korrelation innerhalb einer Kreuztabelle untersucht werden. Zum Vergleich verschiedener Kreuztabellen ist die im vorherigen Abschnitt vorgestellte Testgröße

nicht geeignet, da sie proportional zu

ist. Diese Abhängigkeit weist der folgende Kontingenzkoeffizient

von Pawlik nicht auf (siehe [3] Seite 601ff):

Bei völliger Unabhängigkeit ist

. Für den maximalen Kontingenzkoeffizienten gilt

Um die Kontingenzkoeffizienten von den Kreuztabellen unabhängig und damit vergleichbar zu machen, wird der korrigierte Kontingenzkoeffizient $C_{korr}$ eingeführt. Es gilt

5 Der Spearmansche Rang-Korrelationskoeffizient

Soll eine Stichprobe gepaarter Werte

zweier Zufallsvariablen

und

auf einen Zusammenhang von

und

hin untersucht werden, so kann man auf Korrelationsmaße zurückgreifen. Der normale Korrelationskoeffizient kann jedoch nur lineare Zusammenhänge nachweisen und ist auf normalverteilte Zufallsvariablen

und

angewiesen (siehe [3] Seite 495).

Der Spearmansche Rang-Korrelationskoeffizient kann dagegen bei Zufallsvariablen mit unbekannter Verteilung auch nichtlineare Zusammenhänge nachweisen. Er ist damit wesentlich vielseitiger einsetzbar (siehe [3] Seite 511f).

Bei Rang-Korrelationskoeffizienten werden nicht die

und

direkt untersucht sondern nur ihre Ränge. Der Rang $d_{x_i}$ eines Wertes

ist einfach die Position des Wertes in der sortierten Liste aller $x_1, x_2, \dots, x_{n-1}, x_n$ . Kommen einige

mehrfach vor, so spricht man von Bindungen. Der Rang von gebundenen

ist der Mittelwert ihrer Positionen.

Die Bestimmung der Rangzahlen für eine metrische Zufallsvariable kommt einer Skalentransformation einer metrischen Zufallsvariablen in eine ordinal skalierte Zufallsvariable gleich (siehe Abschnitt 2.3.1). Damit ist auch klar, warum mit diesem Korrelationskoeffizienten auch nichtlineare Zusammenhänge nachgewiesen werden können.

Der Spearmansche Rang-Korrelationskoeffizient berechnet sich für $n \geq 6$ als

Für Zufallsvariablen mit vielen Bindungen (mehr als 20 % der Beobachtungen) steht noch ein korrigierter Koeffizient zur Verfügung (siehe [3] Seite 513), der hier aber nicht benötigt wird.

Um nun zwischen der Nullhypothese

- zwischen

und

besteht kein Zusammenhang - oder der Alternativhypothese

- es besteht ein Zusammenhang - zu entscheiden, wird die Testgröße

herangezogen. Die Nullhypothese wird auf dem Signifikanzniveau $\alpha$ abgelehnt, wenn $T>k_{\alpha;n}$ gilt. Dabei können die kritischen Werte $k_{\alpha;n}$ aus [3] (Seite 511) entnommen werden.

4 Assoziationsanalyse

Ein Ereignis

und ein Ereignis

können gemeinsam auftreten. Tun sie dies, so spricht man von einer Koinzidenz. Ist diese Koinzidenz nicht zufällig, so spricht man von einer Korrelation. Eine Korrelation kann aus verschiedenen Gründen vorliegen: zum einen kann das Ereignis

das Ereignis

hervorrufen oder umgekehrt. Es besteht auch die Möglichkeit, dass

und

eine gemeinsame Ursache haben.

Die Assoziationsanalyse versucht nun die Korrelation von Koinzidenzen zu bestimmen, d.h. sie versucht zu bestimmen, ob zwei Ereignisse zufällig gemeinsam aufgetreten sind oder ob das eine Ereignis das andere hervorgerufen oder beide Ereignisse eine gemeinsame Ursache haben. Beispielsweise könnten Ereignis

,,das Gerät gehört zur Gerätegruppe der Infusionspumpen`` und Ereignis

,,das Gerät ist günstiger als 5000 `` lauten. Dann könnte man jeweils die Anzahl der Geräte, für die Ereignisse

und beide Ereignisse

und

eintreten sowie die Anzahl aller Geräte bestimmen. Aus diesen Anzahlen lassen sich zur Beurteilung der Korrelation der Ereignisse

und

verschiedene Assoziationsmaße berechnen, die die Assoziationsanalyse bereit stellt. Im Folgenden sind einige Assoziationsmaße aufgeführt, die in dieser Arbeit verwendet wurden. Eine ausführliche Darstellung findet sich in [2] ab Seite 427.

1 support

Er gibt an, wie häufig ein Ereignis im Verhältnis zu allen Ereignissen auftritt. Insbesondere ist der support des Ereignissen A und B treten gemeinsam auf für die Analysen wichtig. Wir schreiben

Dabei sind mit $p(A \cap B)$ die Wahrscheinlichkeit des gleichzeitigen Eintretens von

und

bzw. die Anzahl der Koinzidenzen von

und

gemeint und mit $\sharp(D)$ die Anzahl aller Ereignisse.

Dieses Maß ist zwar noch kein Assoziationsmaß, aber es gibt an, wie viele Ereignisse von einer noch eventuell zu entdeckenden Assoziation überhaupt betroffen sind, und ist damit für die Analysen nicht uninteressant. Außerdem wird dieses Maß als Baustein für die folgenden Maße wieder verwendet. Die Ereignismengen sind zur Veranschaulichung in Abbildung 2.3 dargestellt.

2 confidence

Sie ist nichts anderes als die bedingte Wahrscheinlichkeit des Auftretens des Ereignisses

unter der Voraussetzung des Eintretens des Ereignisses

. Wir schreiben

confidence $\displaystyle (A,B) = \frac{\mbox{support}(A \cap B)}{\mbox{support}(A)} = \frac{\sharp(A \cap B)}{\sharp(A)} = p(B \mid A)$

(24)

In ungünstigen Fällen, kann die confidence

hohe Werte annehmen, obwohl in der Ereignismenge kein Zusammenhang zwischen den Ereignissen

und

besteht. Dies ist dann der Fall, wenn support

groß ist - dann ist auch confidence

bei nicht vorhandener Korrelation der Ereignisse

und

groß. Diesen Nachteil versucht der lift zu umgehen.

3 lift

lift $\displaystyle (A,B) = \frac{\mbox{confidence}(A,B)}{\mbox{support}(B)} = \frac{\mbox{support}(A \cap B)}{\mbox{support}(A) \: \mbox{support}(B)}$

(25)

Der lift gibt damit das Verhältnis von beobachteten Koinzidenzen support $(A \cap B)$ und von den bei Gleichverteilung zu erwartenden Koinzidenzen als Produkt von support

und support

. Also ist der lift ein Maß dafür wie viel eine beobachtete Koinzidenz häufiger bzw. seltener ist, als sie bei Gleichverteilung zu erwarten wäre. Er ist damit weniger ein direktes Maß für die Abhängigkeit zwischen

und

, als vielmehr ein Maß für die Abweichung der Unabhängigkeit.

Leider lassen sich für den lift auch Fälle konstruieren, an denen er als Assoziationsmaß versagt: wenn confidence

und support

etwa gleich groß sind, dann ergibt sich auch bei hoher confidence ein lift von etwa eins - was trotz der hohen confidence hier auf einen geringen Zusammenhang hindeutet.

Man könnte noch ein weiteres Assoziationsmaß einführen - die conviction -, das diesen Nachteil nicht besitzt. Jedoch besitzt diese Maß eine nicht mehr so anschauliche Interpretation wie die des liftes und wird deshalb in dieser Arbeit nicht verwendet.

5 Markowsche Ketten

Betrachten wir ein System, dass sich zu diskreten Zeitpunkten

beliebig in einem der Zustände

befinden kann. Die Zustände, in denen sich das System zum Zeitpunkt

befindet, werden mit

bezeichnet.

Nun kann man eine Übergangswahrscheinlichkeit $p_{ij}$ als bedingte Wahrscheinlichkeit einführen, dass auf dem Zustand

der Zustand

folgt. Diese Wahrscheinlichkeiten lassen sich übersichtlich in einer Übergangsmatrix $p_{ij}$ darstellen.

Hängen die $p_{ij}$ nicht von der Zeit ab (Homogenität der Zeit), so kann man die

als markowsche Kette auffassen (siehe [5] Seite 1084).

6 Quantitative Linguistik

1 Grundlagen

Erst seit gut 50 Jahren wird Sprache nicht nur qualitativ sondern auch mit quantitativen Methoden untersucht - in der Linguistik kann nun also wie bei anderen Wissenschaften auch ,,gemessen`` werden. Gemessen werden dabei hauptsächlich Häufigkeiten von sprachlichen Objekten wie Wörtern und Buchstaben. Aus diesen Daten wird dann mit Hilfe statistischer Methoden versucht, neue Erkenntnisse zu gewinnen oder bekannte Vermutungen zu begründen. Als Geburtsstunde dieser Entwicklung wird das Zipf'sche Gesetz angesehen.

2 Zipf`s Gesetz

Das Zipf'sche Gesetz beschreibt in sehr einfacher Weise die Häufigkeitsverteilung von Worten in Texten. Dazu formuliert das Gesetz einen Zusammenhang zwischen der Häufigkeit

eines Wortes in einem (ausreichend langen) Text und seines nach Häufigkeit sortierten Ranges

als (siehe [6])

Dabei passt der Parameter

die Verteilung an verschiedene Textumfänge an und der Formparameter

bestimmt die Form der Verteilung. Für gewöhnliche Texte liegt

meist etwas über 1 und kann näherungsweise ganz entfallen.

Durch Logarithmieren erhält man mit $\log(P_i)=\log(c)-a \, \log(i)$ eine einfach zu untersuchende Geradengleichung.

Trotz seiner einfachen Form ist das Gesetz erstaunlich gut in der Lage, Häufigkeitsverteilungen verschiedenster Objekte zu beschreiben. Der Grund dafür ist bis heute nicht verstanden. Da es sich beim Zipf'schen Gesetz um ein empirisches Gesetz handelt, gilt es nicht exakt. Oft liefert aber auch die Abweichung einer Verteilung vom Zipf'schen Gesetz wertvolle Informationen.

Die dem Zipf'schen Gesetz zugrunde liegende Verteilungsfunktion wird als Zeta-Verteilung bezeichnet.

3 Wortentropie

Als mächtiges Werkzeug bei der quantitativen Analyse von Texten erweist sich die Entropie. Die Entropie kann als Maß der Unordnung einer Verteilung angesehen werden. Für die oben genannten Worthäufigkeiten

ergibt sich die Entropie h mit $p_i=P_i/\sum_i P_i$ zu

Bemerkenswert ist, das die Entropie die Unordnung als Informationsgehalt pro betrachtetem Element angibt - also hier pro Wort. Benutzt man zur Berechnung der Entropie den Logarithmus zur Basis 2, so gibt die Entropie den Informationsgehalt pro Wort in Bit an. Je größer also die Unordnung in einem Text ist, desto mehr Information wird pro Wort übertragen.

Ist der absolute Wert der Entropie nicht von Interesse, so kann man eine relative Entropie

einführen. Es gilt

Dabei ist $h_{max}$ die maximale Entropie, die die betrachtete Wortgruppe annehmen kann. Man kann sich leicht überlegen, dass die Entropie bei Gleichverteilung maximal wird, d.h. alle

sind gleich groß, und es gilt

, wenn

die Anzahl der verschiedenen Wörter ist. Damit wird