next up previous contents index
Nächste Seite: 4 Erstellung der Gesamtdatenbank Aufwärts: 3 Erhebung und Vorbereitung Vorherige Seite: 2 Datentransfer   Inhalt   Index

Unterabschnitte


3 Struktur- oder Syntaxanalyse der Daten

Nachdem die Daten vorbereitet sind, können sie auf ihre Struktur untersucht werden. Dabei geht es jetzt noch nicht um Bedeutungen (Semantik), sondern nur um die Darstellung (Syntax). Das Ergebnis dieser Analysen würde sich nicht ändern, wenn man jeden Buchstaben (jedoch bitte eindeutig) durch einen anderen ersetzen würde: die semantischen Informationen würden dabei verloren gehen, der Syntax der Daten bleibt jedoch unberührt.

Der Hauptvorteil dieser Analysen ist gleichzeitig auch der Hauptnachteil: dadurch, dass man die Bedeutungen der Daten ausblendet, ignoriert man viele Informationen, begeht aber garantiert keinen Interpretationsfehler bei der Zuordnung von Bedeutungen zu den Daten. Die Analyse ist also ungenau, aber robust.


1 Vorbereitungen

Zu jeder Datenbank, zu jeder Tabelle und zu jeder Spalte aus den Originaldaten werden Struktur-Informationen ermittelt und in einer Tabelle jeweils in einer Zeile abgelegt. Ein Ausschnitt dieser Daten ist in Tabelle 3.3 angegeben. Die Struktur-Informationen sind dabei im einzelnen:

Spalte ,,DB-Nr``:
Datenbanknummer
Spalte ,,Tab-Name``:
Tabellen-Name (nur bei Tabellen und Spalten)
Spalte ,,Sp-Name``:
Spaltenbezeichnung aus den Originaldaten (nur bei Spalten)
Spalte ,,Zellen``:
Anzahl der enthaltenen Zellen
Spalte ,,diff``:
Anzahl der enthaltenen, unterschiedlichen Zellen
Spalte ,,einmal``:
Anzahl der enthaltenen, einmaligen Zellen
Spalte ,,leer``:
Anzahl der leeren Zellen

Zusätzlich werden in einer weiteren Tabelle zu jeder internen Referenznummer aus der vorherigen Tabelle alle unterschiedlichen Zellen jeweils mit Häufigkeit abgelegt. Beispielhaft sind dazu die unterschiedlichen Zellinhalte der Spalte ,,art`` aus der Tabelle ,,DURCH120`` aus der Datenbank ,,22`` in der Untertabelle von Tabelle 3.3 absteigend nach Häufigkeit sortiert dargestellt. Diese beiden Tabellen werden als leicht zugängliches Zwischenergebnis in eine Access-Datenbank importiert und verknüpft und dienen damit als Arbeitsgrundlage für das weitere Vorgehen.


Tabelle 3.3: Beispielhafter Ausschnitt aus der Tabelle, die Strukturinformationen der Datenbanken, Tabellen und Spalten enthält. Die Tabelle wurde nach Datenbanknummer (Spalte ,,DB-Nr``) und Tabellenname (Spalte ,,Tab-Name``) sortiert. Zum Beurteilen von Inhalten der Datenbank, Tabelle oder Spalte sind Informationen über Anzahl der enthaltenen Zellen (Spalte ,,Zellen``), Anzahl der unterschiedlichen Zellen (Spalte ,,diff``), Anzahl der einmaligen Zellen (Spalte ,,einmal``) und Anzahl der leeren Zellen (Spalte ,,leer``) hilfreich. Zusätzlich enthalten ist ein beispielhafter Ausschnitt aus der Tabelle, die die unterschiedlichen Zellinhalte mit Häufigkeiten enthält. Der Ausschnitt enthält nur Zellinhalte der Spalte ,,art`` aus der Tabelle ,,DURCH120`` aus der Datenbank ,,22``. Die Tabelle ist absteigend nach der Häufigkeit der Zellinhalte sortiert. Man kann erkennen wie sich die Zellinhalte auf die unterschiedlichen Zellinhalte verteilen.
\begin{table}\centering
\includegraphics[width=11cm]{eps/strukt_3}
\end{table}



2 Analyse und Interpretation

Aus den oben erstellten Tabellen lässt sich leicht ermitteln, dass 50 % der Zellen, 42 % aller Spalten und 43 % aller Tabellen leer sind. Die 22 Mio. nicht leeren Zellen enthalten 450 000 verschiedene Zellinhalte. Man sieht, in den Daten ist eine Menge ,,Luft``. Um Spalten zu finden, die interessante Informationen bieten, kann man zunächst Spalten auswählen, die mehr als 10 Zellen enthalten. Dies sind 5137 Spalten (ca. 51 % aller Spalten). Davon enthalten

Von diesen 2059 Spalten, die mehr als 10 Zellen enthalten und wiederum zu weniger als 10 % leer sind, enthalten

Also bleiben 2059 - 391 - 854 = 814 Spalten (ca. 18 % - 3.5 % - 7.5 % = 7 % aller Spalten, also ca. 35 Spalten pro Datenbank), die

Die Datenbanken enthalten also viele ungenutzte Spalten. Außerdem beträgt der Anteil der leeren Zellen bei obiger Auswahl ca. 23%. D.h. der Anteil leerer Zellen ist in dieser Auswahl halb so groß wie bei allen Zellen.

Durch diese Spalten-Anforderungen schrumpft die Anzahl der interessanten Spalten auf ein Maß zusammen, das mit vertretbarem Aufwand manuell weiter untersuchbar ist. So können - wie im Abschnitt 3.3.3 dargestellt - Spalten zu Gruppen zusammengefasst werden, wobei jede Gruppe nur aus Spalten besteht, die Informationen zu einem bestimmten Merkmal enthalten (wie z.B. Gerätebezeichnung).

Unterstellt sei, dass diese Informationen jetzt schon vorliegen: In der Tabelle 3.4 sind Informationen einiger ausgewählter kategorialer Merkmale von Geräten und Tätigkeiten aufgeführt. Jeweils angegeben sind die Mittelwerte mit Standardabweichungen aller Spalten, die Informationen zu einem Merkmal enthalten. Die Anzahl der ,,unterschiedlichen Zellen`` pro Spalte und ,,einmaligen Zellen`` sind als prozentuale Anteile aller Zellen einer Spalte dargestellt.

Aus dieser Tabelle ist ableitbar, dass jede 5. (20.53 %) Eintragung im Feld ,,Anlagenbezeichnung`` vorher noch nicht verwendet wurde. Jede 2. (10.77 % / 20.53 %) neu eingeführte Bezeichnung wird danach nicht mehr verwendet.

Für die anderen Merkmale gelten die selben Überlegungen. Daraus folgt: es werden bedenklich viele unterschiedliche Bezeichnungen verwendet, insbesondere bei den Merkmalen ,,Anlagenbezeichnung`` und ,,Tätigkeitsart``. Bei dieser großen Zahl von verschiedenen Bezeichnungen ist zu vermuten, dass auch als gleich anzusehende Dinge unterschiedlich bezeichnet werden. Dies erschwert eine Analsyse der Daten erheblich.

Die hohen Standardabweichungen des Mittelwertes bei den Merkmalen ,,Tätigkeitsart`` und ,,Arbeitsbeschreibung`` deuten auf eine Unabhängigkeit der Anzahl der unterschiedlichen und einmaligen Zellen aus der Anzahl aller Zellen hin. Bei der hohen Anzahl von Tätigkeiten werden bei Neueintragungen kaum noch neue Begriffe eingeführt (Sättigung).

Bei dem Merkmal ,,E/F-Leistung`` ist jeder 1000. Eintrag ein neuer Eintrag. In den Tabellen überwiegen 3 verschiedene Eintragungen: jeweils für ,,Eigenleistung``, ,,Fremdleistung`` und ,,leer``. Daraus folgt: Bei einfachen Eingabealternativen wird vermutlich durch Eingabemasken ein hohes ,,Begriffs-Recycling`` erreicht.

Trägt man für jede der über 10 000 Spalten jeweils den Anteil der leeren Felder und der einmaligen Felder an allen Feldern einer Spalte auf, so erhält man die Abbildung 3.1. Es ist zu erkennen, dass sich viele Spalten in den Randbereichen befinden. Durch Ellipsen sind die Bereiche angedeutet, in denen sich gehäuft Spalten bestimmter Merkmale befinden.


Tabelle 3.4: In dieser Tabelle sind Informationen aller Spalten, die Informationen zum gleichen Merkmal (z.B. ,,Gerätebezeichnung``) in einer Zeile zusammengefasst. Beschreibung siehe Text.
unterschiedliche Zellen einmalige Zellen
  Mittelwert StdAbw Mittelwert StdAbw
Merkmal (Geräte)
Gerätebezeichnung 20,53% 6,91% 10,77% 4,94%
Typ/Modell 42,30% 15,40% 31,26% 16,41%
Hersteller 14,21% 5,32% 6,71% 2,55v
Standort, Abteilung 4,59% 3,14% 1,27% 1,69%
Merkmal (Maßnahmen)
Tätigkeitsart 8,37% 20,73% 5,26% 15,96%
Arbeitsbeschreibung 25,68% 21,04% 23,38% 19,96%
E/F-Leistung 0,10% 0,07% 0,03% 0,02%
Firma 2,68% 1,56% 0,97% 0,66%

Abbildung 3.1: Jeder Punkt der oberen Abbildung entspricht einer Spalte. Die Abbildung enthält alle 11.284 Spalten der eingesandten Daten. Die x-Koordinate eines Punktes stellt den Anteil der leeren Felder der zugehörigen Spalte dar, die Y-Koordinate den Anteil der einmaligen Felder je Spalte. Durch Ellipsen sind Bereiche gekennzeichnet in denen gehäuft Spalten bestimmter Merkmale auftreten. Am deutlichsten konzentriert sind die Spalten mit dem Merkmal ,,ID``, d.h. der Spalte, die die eindeutige Kennung jedes Datensatzes enthält, da diese Spalte kaum leere und fast nur einmalige Zellinhalte enthält. Der Anteil der einmaligen Zellinhalte beim Merkmal ,,Kaufpreis`` ist höher als beim Merkmal ,,Baujahr`` - auch dies ist klar: es gibt deutlich mehr Kaufpreise als Baujahre. Die große Streuung beim Anteil der leeren Felder deutet darauf hin, dass in den verschiedenen Datenbanken dieses Merkmal unterschiedlich konsequent erfasst wurde. Die durchgängig gute Erfassung des Merkmales ,,Datum`` ist ggf. darauf zurückzuführen, dass der Inhalt dieser Zellen automatisch beim Anlegen eines Datensatzes ausgefüllt wird.
Image struktur


3 Manuelle Auswahl und Gruppierung der Spalten

Mit Hilfe der im vorherigen Abschnitt gewonnen Informationen (welche Spalten sind interessant, was sind die häufigsten Zellinhalte) können nun die Spalten der einzelnen Tabellen zu Gruppen zusammengefasst werden. Eine Gruppe enthält dann alle Spalten eines Merkmales einer Entität. Der Auswahlprozess findet manuell statt und hat ca. 30 Stunden gedauert.

Ob zu einem Merkmal eine Gruppe gebildet wird, die alle Spalten mit dem Merkmal enthält, hängt davon ab, ob das betreffende Merkmal für die weiteren Analysen potentiell interessant ist und ob überhaupt ausreichend viele Spalten in den Daten vorhanden sind, die dann auch noch ausreichend mit sinnvollen Informationen erfüllt sind.

Am Ende des Auswahlprozesses ist also zu jeder Spalte bekannt, zu welchem Merkmal welcher Entität sie gehört. Dies wird in der Tabelle 3.5 unter der Spalten ,,Entität`` und ,,Merkmal`` vermerkt. Als Entitäten haben sich Geräte und Maßnahmen heraus kristallisiert. Andere Entitäten, wie z.B. Personen, werden nicht weiter untersucht, da sie für die in dieser Arbeit untersuchten Fragestellungen nicht interessant sind.

Die für die Entität Gerät (z.B. Infusionspumpe, Fahrstuhl etc) gruppierten Merkmale sind in Tabelle 3.6 mit Anzahl der Spalten und Anteil der leeren Zellen angegeben. Für die Betrachtungseinheit Maßnahme (z.B. Störungsmeldung, Maßnahme etc) sind die entsprechenden Größen in Tabelle 3.7 angegeben.


Tabelle 3.5: Beispielhafter Ausschnitt der Zuordnungen der Spalten zu den Entitäten und deren Merkmalen.
\begin{table}\centering\includegraphics[width=9cm]{eps/strukt_sel_1}
\end{table}



Tabelle: Merkmale der Entität ,,Gerät`` mit Anzahl der Zuordnungen und Anteil der leeren Zellen. Problematisch sind sowohl Merkmale, die zwar häufig Spalten zugeordnet werden konnten, aber viele leere Zellen enthalten, als auch Merkmale, die nur wenigen Spalten zugeordnet werden konnten, obwohl sie ggf. wenige leere Zellen enthalten.
\begin{table}\centering\includegraphics[width=11cm]{eps/strukt_sel_2}
\end{table}



Tabelle: Merkmale der Entität ,,Maßnahme`` mit Anzahl der Zuordnungen und Anteil der leeren Zellen. Problematisch sind sowohl Merkmale, die zwar häufig Spalten zugeordnet werden konnten aber viele leere Zellen enthalten, als auch Merkmale, die nur wenigen Spalten zugeordnet werden konnten, obwohl sie ggf. wenige leere Zellen enthalten.
\begin{table}\centering\includegraphics[width=11cm]{eps/strukt_sel_3}
\end{table}



next up previous contents index
Nächste Seite: 4 Erstellung der Gesamtdatenbank Aufwärts: 3 Erhebung und Vorbereitung Vorherige Seite: 2 Datentransfer   Inhalt   Index
Thorsten Foerstemann (thorsten@foerstemann.name)