Nächste Seite: 3 Struktur- oder Syntaxanalyse Aufwärts: 3 Erhebung und Vorbereitung Vorherige Seite: 1 Datenerhebung Inhalt Index

Unterabschnitte

2 Datentransfer

1 Transfer der Originaldaten ins Textformat

Jede Tabelle der Originaldaten wird in einer Textdatei exportiert. Zeilen werden durch das Zeilenende-Zeichen oder Return und Zellen durch Tabulatoren getrennt. Returns und Tabulatoren werden in Zellen durch Leerzeichen ersetzt. Dies kommt zwar relativ selten vor, macht dann aber oft Probleme. Falls das Ersetzen vor dem Export nicht möglich sein sollte, muss dies nach dem Export erfolgen. Dabei helfen folgende Regeln:

Zwischen den meisten Returns kommt eine bestimmte Anzahl von Tabulatoren - dies ist die reguläre Breite oder Spaltenzahl der Tabelle.
Folgt ein Return schon nach einer kleineren Anzahl von Tabulatoren, so wird dieses Return durch ein Leerzeichen ersetzt und anschließend geprüft, ob sich nun zwischen den Returns die passende Anzahl an Tabulatoren befinden. Ist das nicht der Fall, wird die Zeile markiert oder gelöscht.
Folgt ein Return erst nach einer größeren Anzahl von Tabulatoren, so wird die Zeile markiert oder gelöscht.
Die markierten Zellen werden manuell bearbeitet. Dies sind im allgemeinen nur wenige Zeilen.

Durch diese Vorarbeiten haben die Daten nun folgende Struktur: Jede Tabelle ist für sich in einer Textdatei gespeichert. Diese Dateien sind eindeutig nach Krankenhaus bzw. Datenbank und Tabellenname benannt (,,Krankenhaus-Tabellenname.txt``). Jede Zeile einer Tabelle hat nun die gleiche Anzahl von Zellen. Das Datenvolumen von insgesamt 310 MB an Textdateien verteilt sich auf:

23 Datenbanken
470 Tabellen (ca. 20 Tabellen pro Datenbank)
11.284 Spalten (ca. 24 Spalten pro Tabelle)
52 Mio. Zellen (ca. 4300 Zellen pro Spalte)

2 Codepage-Säuberungen, Teil I

Die für die folgenden Analysen interessanten Informationen lassen sich mit weniger Textzeichen darstellen, als in den Textdateien vorhanden sind. Ein Beschränken des Zeichensatzes (Codepage, siehe auch 2.1.3) hat die Vorteile, dass es weniger unterschiedliche Schreibweisen gibt - was die Analyse vereinfacht - und dass es auch keine Sonderzeichen mehr gibt - was den Ex- und Import vereinfacht.

In diesem ersten Teil der Codepage-Säuberung geht es hauptsächlich darum, bei der Verarbeitung störende (Sonder-)Zeichen zu ersetzen. Nur bei offensichtlich für den Informationstransport überflüssigen Variationen (Groß- / Kleinschreibung und Umlaute / Umlaute ausschreiben) werden Zeichen ersetzt. Im später folgenden zweiten Teil werden zusätzlich auch andere Zeichen entfernt, die kaum zum Informationstransport beitragen, auch wenn sie die Datenverarbeitung nicht stören. Dies erfolgt aber erst, wenn genauere Informationen über die zu untersuchenden Daten vorliegen.

Folgende Ersetzungsregeln werden für die Zellinhalte angewendet:

Großbuchstaben zu Kleinbuchstaben
Umlaute und ß ausschreiben
Sonderzeichen 00-1F und 7F-9F (siehe Tabelle 2.1) löschen

In den folgenden Tabellen sind ausschnittsweise Zellinhalte dargestellt, jeweils nach Häufigkeit (Tabelle 3.1) und Alphabet (Tabelle 3.2) sortiert. Man kann schon an diesen Ausschnitten erkennen, dass die Informationen nicht durchgehend systematisch abgelegt wurden, was bei einer Analyse zu berücksichtigen ist. Zum Beispiel enthält eine Zelle gemischte (nicht atomare) Informationen: Gerätebezeichnung und Identifikationsnummer - dies erschwert eine Verarbeitung der Daten, ohne dass diese Art der Speicherung einen anderen Vorteil bietet. Auch kann man ein Beispiel für unterschiedliche Schreibweisen einer Bezeichnung finden - auch das ist für Analysen problematisch.

**Tabelle 3.1:** In der folgenden Tabelle sind alle Zellinhalte aller Datenbanken absteigend nach Häufigkeit sortiert. Leere Zellen sind mit Abstand am häufigsten. Die hohe Anzahl von Nullen in den Daten ist darauf zurückzuführen, dass in vielen Spalten leere Zellen verboten sind und durch Nullen repräsentiert werden. Zellen mit lesbaren Textinhalten folgen erst ab Platz 30. Am Fuß der Tabelle ist erkennbar, dass es 454 992 verschiedene Zellinhalte in allen Datenbanken gibt.
$\begin{table}\centering\includegraphics[width=7cm]{eps/strukt_1} \end{table}$

**Tabelle 3.2:** Beispielhafter Ausschnitt der alphabetisch sortierten Zellinhalte. Man erkennt, gleiche Dinge werden unterschiedlich bezeichnet (z.B. Gerätebezeichnung ,,ueberwachungszentrale``). Zellen enthalten nicht atomare, d.h. gemischte Informationen (z.B. Gerätebezeichnung ,,ueberwachungsmonitor`` und vermutliche Seriennummer ,,t44bc96``). Der Name wurde nachträglich unkenntlich gemacht.
$\begin{table}\centering\includegraphics[width=12cm]{eps/strukt_2} \end{table}$

Nächste Seite: 3 Struktur- oder Syntaxanalyse Aufwärts: 3 Erhebung und Vorbereitung Vorherige Seite: 1 Datenerhebung Inhalt Index

Thorsten Foerstemann (thorsten@foerstemann.name)