next up previous contents index
Nächste Seite: 5 Schlussteil Aufwärts: 4 Analyse der Daten Vorherige Seite: 6 Assoziations-Analysen   Inhalt   Index

Unterabschnitte


7 Analysen der quantitativen Linguistik

Einige Methoden der quantitativen Linguistik wurden in Abschnitt 2.3.6 kurz vorgestellt. Hier sollen diese nun auf die vorliegenden Daten angewendet werden. Diese Untersuchungen werden in einem eigenen Abschnitt behandelt, da sie sich auf die Originaldaten der Freitext-Merkmale ,,Gerätebezeichnung`` und ,,Arbeitsbeschreibung`` beziehen - und nicht auf ihre normierten Partner MT-Geräteart / -Untergeräteart und Arbeitsbeschreibung.


1 Zipf's Gesetz

Abbildung 4.67: Darstellung der Zipf-Verteilung der relativen Worthäufigkeiten $ p_i$ der originalen Gerätebezeichnung in verschiedenen Krankenhäusern. Beispielhaft sind Geraden mit $ a=1$ und $ a=2$ eingezeichnet. Erläuterungen siehe Text.
Image engro_krh

Abbildung 4.68: Darstellung der Zipf-Verteilung der relativen Worthäufigkeiten $ p_i$ der originalen Arbeitsbeschreibungen in verschiedenen Krankenhäusern. Beispielhaft sind Geraden mit $ a=1$ und $ a=2$ eingezeichnet. Erläuterungen siehe Text.
Image entro_krh

In den Abbildungen 4.67 und 4.68 sind die relativen Worthäufigkeiten $ p_i$ logarithmiert über den zugehörigen Rängen $ i$ der nach Häufigkeit absteigend sortierten Worten logarithmisch für verschiedene Krankenhäuser aufgetragen. In Abbildung 4.67 sind Worte der originalen Gerätebezeichnung und in Abbildung 4.67 die Worte der originalen Arbeitsbeschreibungen dargestellt. Nach dem in Abschnitt 2.3.6 vorgestellten Zipf'schen Gesetz sollte sich in dieser Darstellungsart eine Gerade ergeben. Man erkennt, das für niedrige Ränge sich $ a
\approx 1$ (siehe Formel 2.26) ergibt. Für größere Ränge scheint $ a$ größer zu sein. In [17] wird für große (mehr als 5000 bis 10 000 Worte) Texte ein ähnliches Verhalten beobachtet. Es wird vermutet, dass die beiden unterschiedlichen Exponenten auf zwei verschiedene Wortschätze hindeuten: einen allgemeinen Wortschatz ( $ a
\approx 1$ ) und einen speziellen Wortschatz ( $ a \approx 2$ ). Für Gerätebezeichnungen kann man so auf einen allgemeinen Wortschatz von ca. 100 Worten schließen. Für Arbeitsbeschreibungen ist ein Übergang nur schwach ausgeprägt und liegt etwa im Bereich von 500 bis 1000 Worten.


2 Wortentropie

Abbildung 4.69: Darstellung der Anzahl $ N$ der unterschiedlichen Worte, der Wortentropie $ h$ - gemessen in Bit - und der relativen Wortentropie $ h_R$ der Gerätebezeichnung in Abhängigkeit der Inbetriebnahme. Erläuterungen siehe Text.
Image engro_abs

Neben Prüfung der absoluten Worthäufigkeiten $ P_i$ bzw. der relativen Worthäufigkeiten $ p_i$ aus dem letzten Abschnitt auf Zipf-Verteilung kann auch die zugehörige Wortentropie nach Abschnitt 4.7.2 berechnet werden.

In Abbildung 4.69 sind neben der Wortentropie $ h$ die relative Wortentropie $ h_R$ und die Anzahl $ N$ der unterschiedlichen Worte der Gerätebezeichnungen in Abhängigkeit der Inbetriebnahme aufgetragen. Man erkennt, dass die Anzahl der unterschiedlichen Worte keinen Trend bezüglich der Inbetriebnahme besitzt - also etwa konstant bleibt. Die Wortentropie nimmt jedoch ab 1997 deutlich von 8 auf 8.5 Bit zu. Dies bedeutet, dass im Mittel pro Wort der Gerätebezeichnung zwischen $ 2^8
= 256$ bzw. $ 2^{8.5}\approx362$ verschiedenen ,,Gerätearten`` unterschieden wird.

Eine Zunahme der Wortentropie kann zwei Ursachen haben: zum einen kann die Anzahl der unterschiedlichen Worte $ N$ wachsen und damit auch die Menge der pro Wort übertragenen Information. Es gibt aber auch noch eine andere Möglichkeit, die jedoch etwas schwieriger zu verstehen ist. Angenommen man führt ein neues Wort ein, so nimmt zwar die Information pro Wort zu, jedoch hängt die Zunahme an Information von der Häufigkeit des neuen Wortes ab. Verwendet man das neue Wort z.B. nur einmal, so nimmt der Informationsgehalt der anderen Worte nur minimal zu. Die maximale Information pro Wort wird dann übertragen, wenn die Häufigkeiten der verschiedenen Worte gleich hoch sind - die Entropie wird also bei Gleichverteilung maximal.

Damit kann also die Wortentropie auch dadurch zunehmen, dass die Verteilung der Worthäufigkeiten sich in Richtung Gleichverteilung ändert. Als Maß für die Gleichverteilung kann die relative Wortentropie $ h_R$ herangezogen werden, da sie unabhängig von verschiedenen $ N$ bei Gleichverteilung den Wert 1 annimmt.

In Abbildung 4.69 ist zu erkennen, dass die Gleichverteilung der Worte zunimmt. Man kann also schließen, dass die Zunahme der Entropie $ h$ nicht durch die Zunahme des Wortschatzes $ N$ entstanden ist, sondern durch die Zunahme der Gleichverteilung $ h_R$ .

Eine Zunahme der Gleichverteilung ist aber auf eine Abnahme von vielen seltenen Worten zugunsten von wenigen häufigen Worten zurückzuführen. Diese Entwicklung ist zu begrüßen, denn es sind die vielen seltenen Worte, die eine Analyse von Datenbeständen sehr erschweren können. Qualitativ ist also die Entwicklung der Gerätebezeichnungen auf einem guten Weg. Ob diese Entwicklung aber quantitativ ausreicht, kann mit diesen Methoden nicht entschieden werden. Für diese Arbeit war die Normierung der Gerätebezeichnungen noch nicht ausreichend.

In Abbildung 4.70 sind neben der Wortentropie $ h$ die relative Wortentropie $ h_R$ und die Anzahl der unterschiedlichen Worte der Arbeitsbeschreibungen in Abhängigkeit des Durchführungszeitpunkt aufgetragen. Es können die selben Überlegungen wie bei Abbildung 4.69 angestellt werden. Das bedeutet, dass die Zunahme der Entropie $ h$ hauptsächlich auf einer Zunahme des Wortschatzes $ N$ beruht - mehr noch: es ist sogar eine leichte Abnahme der Gleichverteilung $ h_R$ zu beobachten. Das bedeutet, dass mit den neuen Worten auch viele sehr selten verwendete Worte eingeführt werden, die eine Analyse der Daten erschweren. Die Arbeitsbeschreibungen sind damit auf einem nicht so guten Weg wie die Gerätebezeichnungen.

Abbildung 4.70: Darstellung der Anzahl $ N$ der unterschiedlichen Worte, der Wortentropie $ h$ - gemessen in Bit - und der relativen Wortentropie $ h_R$ der Arbeitsbeschreibung in Abhängigkeit des Durchführungsdatums. Erläuterungen siehe Text.
Image entro_abs

In Abbildung 4.71 sind neben der Wortentropie $ h$ die relative Wortentropie $ h_R$ und die Anzahl der unterschiedlichen Worte der Arbeitsbeschreibungen in Abhängigkeit der Betriebszeit aufgetragen. Man erkennt, dass der Wortschatz $ N$ für ältere Geräte abnimmt und damit auch der Informationsgehalt $ h$ pro Wort. Jedoch erkennt man gleichzeitig eine Zunahme der Gleichverteilung $ h_R$ . Daraus kann man folgern, dass junge Geräte zwar viele verschiedene Ausfälle zeigen, diese jedoch recht ungleich verteilt sind - d.h. es gibt wenig häufige und viele seltene - man darf also eine gewisse Regularität der unterstellen. Mit zunehmendem Alter nimmt zwar die Anzahl der möglichen Ausfälle ab, aber die Gleichverteilung nimmt zu - d.h. wenige häufige Ausfälle nehmen zugunsten von vielen seltenen Ausfällen ab - die Zufälligkeit der auftretenden Fehler nimmt zu.

Abbildung 4.71: Darstellung der Anzahl $ N$ der unterschiedlichen Worte, der Wortentropie $ h$ - gemessen in Bit - und der relativen Wortentropie $ h_R$ der Arbeitsbeschreibung in Abhängigkeit der Betriebszeit. Erläuterungen siehe Text.
Image entro_dif


next up previous contents index
Nächste Seite: 5 Schlussteil Aufwärts: 4 Analyse der Daten Vorherige Seite: 6 Assoziations-Analysen   Inhalt   Index
Thorsten Foerstemann (thorsten@foerstemann.name)