Jede Tabelle der Originaldaten wird in einer Textdatei exportiert. Zeilen werden durch das Zeilenende-Zeichen oder Return und Zellen durch Tabulatoren getrennt. Returns und Tabulatoren werden in Zellen durch Leerzeichen ersetzt. Dies kommt zwar relativ selten vor, macht dann aber oft Probleme. Falls das Ersetzen vor dem Export nicht möglich sein sollte, muss dies nach dem Export erfolgen. Dabei helfen folgende Regeln:
Durch diese Vorarbeiten haben die Daten nun folgende Struktur: Jede Tabelle ist für sich in einer Textdatei gespeichert. Diese Dateien sind eindeutig nach Krankenhaus bzw. Datenbank und Tabellenname benannt (,,Krankenhaus-Tabellenname.txt``). Jede Zeile einer Tabelle hat nun die gleiche Anzahl von Zellen. Das Datenvolumen von insgesamt 310 MB an Textdateien verteilt sich auf:
Die für die folgenden Analysen interessanten Informationen lassen sich mit weniger Textzeichen darstellen, als in den Textdateien vorhanden sind. Ein Beschränken des Zeichensatzes (Codepage, siehe auch 2.1.3) hat die Vorteile, dass es weniger unterschiedliche Schreibweisen gibt - was die Analyse vereinfacht - und dass es auch keine Sonderzeichen mehr gibt - was den Ex- und Import vereinfacht.
In diesem ersten Teil der Codepage-Säuberung geht es hauptsächlich darum, bei der Verarbeitung störende (Sonder-)Zeichen zu ersetzen. Nur bei offensichtlich für den Informationstransport überflüssigen Variationen (Groß- / Kleinschreibung und Umlaute / Umlaute ausschreiben) werden Zeichen ersetzt. Im später folgenden zweiten Teil werden zusätzlich auch andere Zeichen entfernt, die kaum zum Informationstransport beitragen, auch wenn sie die Datenverarbeitung nicht stören. Dies erfolgt aber erst, wenn genauere Informationen über die zu untersuchenden Daten vorliegen.
Folgende Ersetzungsregeln werden für die Zellinhalte angewendet:
In den folgenden Tabellen sind ausschnittsweise Zellinhalte dargestellt, jeweils nach Häufigkeit (Tabelle 3.1) und Alphabet (Tabelle 3.2) sortiert. Man kann schon an diesen Ausschnitten erkennen, dass die Informationen nicht durchgehend systematisch abgelegt wurden, was bei einer Analyse zu berücksichtigen ist. Zum Beispiel enthält eine Zelle gemischte (nicht atomare) Informationen: Gerätebezeichnung und Identifikationsnummer - dies erschwert eine Verarbeitung der Daten, ohne dass diese Art der Speicherung einen anderen Vorteil bietet. Auch kann man ein Beispiel für unterschiedliche Schreibweisen einer Bezeichnung finden - auch das ist für Analysen problematisch.