next up previous contents index
Nächste Seite: 5 Normierung der Daten Aufwärts: 3 Erhebung und Vorbereitung Vorherige Seite: 3 Struktur- oder Syntaxanalyse   Inhalt   Index

Unterabschnitte


4 Erstellung der Gesamtdatenbank

Hier wird wieder auf die Ursprungsdaten zurückgegriffen. Tabellen, die Spalten enthalten, die weiter verwendet werden sollen, werden in Excel importiert, da mit Excel ein intuitives Verschieben von Zellen in Tabellen möglich ist. Leider kann Excel nur Tabellen mit maximal ca. 65 000 Zeilen verarbeiten, was dazu führt, dass man große Tabellen in kleinere aufteilen muss. Dieser Nachteil wird aber durch die leichte Bedienung mehr als aufgewogen.

Für jedes Krankenhaus bzw. für jede eingesandte Datenbank wird eine Geräte- und eine Maßnahmen-Tabelle erstellt, die alle eben ausgewählten Merkmale als Spalten enthält. In die Spalten dieser Tabelle werden dann die zugeordneten Spalten der Originaldaten kopiert. Werden mehrere Spalten in eine Spalte kopiert, so werden die ursprünglichen Zellinhalte durch Semikolons getrennt. Da diese Arbeiten manuell durchgeführt werden, sind hier etwa 5 Stunden pro Datenbank an Zeitaufwand nötig.

Um es deutlich zu sagen: wenn hier von manuellem Vorgehen gesprochen wird, so ist nicht gemeint, das die Zellen einzeln per Hand kopiert werden. Das Kopieren geschieht mit Hilfe von vordefinierten Makros oder Funktionen - anders wäre das Kopieren der vielen 100 000 Zellen nicht zu bewältigen. Manuell bedeutet hier nur, das das Auslösen eines Makros oder das Anwenden einer Funktion vom Benutzer entschieden wird und nicht von einem Algorithmus. Diese Vorbereitung ist nicht in wenigen Tagen zu bewältigen!

Alle Geräte- und Maßnahmen-Tabellen haben nun die gleiche Form und können leicht in eine Gesamtdatenbank kopiert werden.


1 Import von Relationen

Neben dem Kopieren der Spalten ist es an dieser Stelle auch wichtig, eine ggf. vorhandene Beziehung von Maßnahmen bzw. Ereignissen und Geräten mit in die neuen Tabellen zu übernehmen. Dazu bekommt jedes Gerät und jede Maßnahme bzw. jedes Ereignis eine die Gesamtdatenbank übergreifende, eindeutige Kennung. Die Gerätekennungen aus den Originaldaten werden durch diese neuen Kennungen ersetzt. Damit ist sichergestellt, das alle Kennungen das gleiche Format haben und in der gesamten Datenbank einmalig sind.


2 Codepage-Säuberungen, Teil II

Da, wie oben geschrieben, auf die Originaldaten zurückgegriffen wird, liegen wieder alle Zellinhalte als Text vor, der Sonderzeichen enthält. Da diese Sonderzeichen kaum Informationen transportieren aber den In- und Export erschweren, werden sie gelöscht oder ersetzt. Im einzelnen werden folgende Regeln der Reihe nach angewendet:

  1. Umlaute und ,,ß`` ausschreiben
  2. Sonderzeichen und Trennzeichen ersetzen (angegeben sind die Zeichennummern aus Tabelle 2.1)

  3. Schließlich werden mehrfache Leerzeichen durch einfache Leerzeichen ersetzt.


next up previous contents index
Nächste Seite: 5 Normierung der Daten Aufwärts: 3 Erhebung und Vorbereitung Vorherige Seite: 3 Struktur- oder Syntaxanalyse   Inhalt   Index
Thorsten Foerstemann (thorsten@foerstemann.name)