next up previous contents index
Nächste Seite: 3 Struktur- oder Syntaxanalyse Aufwärts: 3 Erhebung und Vorbereitung Vorherige Seite: 1 Datenerhebung   Inhalt   Index

Unterabschnitte


2 Datentransfer


1 Transfer der Originaldaten ins Textformat

Jede Tabelle der Originaldaten wird in einer Textdatei exportiert. Zeilen werden durch das Zeilenende-Zeichen oder Return und Zellen durch Tabulatoren getrennt. Returns und Tabulatoren werden in Zellen durch Leerzeichen ersetzt. Dies kommt zwar relativ selten vor, macht dann aber oft Probleme. Falls das Ersetzen vor dem Export nicht möglich sein sollte, muss dies nach dem Export erfolgen. Dabei helfen folgende Regeln:

Durch diese Vorarbeiten haben die Daten nun folgende Struktur: Jede Tabelle ist für sich in einer Textdatei gespeichert. Diese Dateien sind eindeutig nach Krankenhaus bzw. Datenbank und Tabellenname benannt (,,Krankenhaus-Tabellenname.txt``). Jede Zeile einer Tabelle hat nun die gleiche Anzahl von Zellen. Das Datenvolumen von insgesamt 310 MB an Textdateien verteilt sich auf:


2 Codepage-Säuberungen, Teil I

Die für die folgenden Analysen interessanten Informationen lassen sich mit weniger Textzeichen darstellen, als in den Textdateien vorhanden sind. Ein Beschränken des Zeichensatzes (Codepage, siehe auch 2.1.3) hat die Vorteile, dass es weniger unterschiedliche Schreibweisen gibt - was die Analyse vereinfacht - und dass es auch keine Sonderzeichen mehr gibt - was den Ex- und Import vereinfacht.

In diesem ersten Teil der Codepage-Säuberung geht es hauptsächlich darum, bei der Verarbeitung störende (Sonder-)Zeichen zu ersetzen. Nur bei offensichtlich für den Informationstransport überflüssigen Variationen (Groß- / Kleinschreibung und Umlaute / Umlaute ausschreiben) werden Zeichen ersetzt. Im später folgenden zweiten Teil werden zusätzlich auch andere Zeichen entfernt, die kaum zum Informationstransport beitragen, auch wenn sie die Datenverarbeitung nicht stören. Dies erfolgt aber erst, wenn genauere Informationen über die zu untersuchenden Daten vorliegen.

Folgende Ersetzungsregeln werden für die Zellinhalte angewendet:

In den folgenden Tabellen sind ausschnittsweise Zellinhalte dargestellt, jeweils nach Häufigkeit (Tabelle 3.1) und Alphabet (Tabelle 3.2) sortiert. Man kann schon an diesen Ausschnitten erkennen, dass die Informationen nicht durchgehend systematisch abgelegt wurden, was bei einer Analyse zu berücksichtigen ist. Zum Beispiel enthält eine Zelle gemischte (nicht atomare) Informationen: Gerätebezeichnung und Identifikationsnummer - dies erschwert eine Verarbeitung der Daten, ohne dass diese Art der Speicherung einen anderen Vorteil bietet. Auch kann man ein Beispiel für unterschiedliche Schreibweisen einer Bezeichnung finden - auch das ist für Analysen problematisch.


Tabelle 3.1: In der folgenden Tabelle sind alle Zellinhalte aller Datenbanken absteigend nach Häufigkeit sortiert. Leere Zellen sind mit Abstand am häufigsten. Die hohe Anzahl von Nullen in den Daten ist darauf zurückzuführen, dass in vielen Spalten leere Zellen verboten sind und durch Nullen repräsentiert werden. Zellen mit lesbaren Textinhalten folgen erst ab Platz 30. Am Fuß der Tabelle ist erkennbar, dass es 454 992 verschiedene Zellinhalte in allen Datenbanken gibt.
\begin{table}\centering\includegraphics[width=7cm]{eps/strukt_1}
\end{table}



Tabelle 3.2: Beispielhafter Ausschnitt der alphabetisch sortierten Zellinhalte. Man erkennt, gleiche Dinge werden unterschiedlich bezeichnet (z.B. Gerätebezeichnung ,,ueberwachungszentrale``). Zellen enthalten nicht atomare, d.h. gemischte Informationen (z.B. Gerätebezeichnung ,,ueberwachungsmonitor`` und vermutliche Seriennummer ,,t44bc96``). Der Name wurde nachträglich unkenntlich gemacht.
\begin{table}\centering\includegraphics[width=12cm]{eps/strukt_2}
\end{table}



next up previous contents index
Nächste Seite: 3 Struktur- oder Syntaxanalyse Aufwärts: 3 Erhebung und Vorbereitung Vorherige Seite: 1 Datenerhebung   Inhalt   Index
Thorsten Foerstemann (thorsten@foerstemann.name)