next up previous contents index
Nächste Seite: 2 Methoden des Data Aufwärts: 2 Methoden Vorherige Seite: 2 Methoden   Inhalt   Index

Unterabschnitte


1 Datenbanktechnik

Datenbanken sind das Hilfsmittel um Daten, wie sie z.B. bei der Gerätebewirtschaftung anfallen, effektiv zu erfassen und zu verwalten. Aus diesem Grunde werden in diesem Abschnitt kurz die Grundlagen der in dieser Arbeit verwendeten Datenbanktechnik dargestellt. Für umfassende Darstellungen sei auf z.B. [1] verwiesen.


1 Das Datenbanksystem Microsoft Access

Als Datenbanksystem kam in dieser Arbeit Microsoft Access 2000 zum Einsatz. Vorteile von Microsoft Access sind die intuitive Bedienungsoberfläche und die Integration in die anderen Microsoft Office Komponenten. Als Nachteil stellten sich die 2GB-Grenze von Access heraus sowie die teilweise geringe Verarbeitungsgeschwindigkeit bei Großen Datenbeständen. Auch das Eigenleben der Importassistenten von Access machte sich negativ bemerkbar. Da Access in der Lage ist, SQL-Befehle (Structured Query Language) auszuführen, ist es mächtig genug, um die in dieser Arbeit notwendigen Datenbankabfragen durchzuführen.

Access ist ein relationales Datenbanksystem, d.h. die Daten werden in Tabellen abgelegt, die miteinander verknüpft werden können. Durch die Möglichkeit Tabellen zu verknüpfen, können Darstellungsformen (sog. ,,Normalformen``) für die in der Datenbank abzulegenden Daten gefunden werden, die weitgehend redundanzfrei sind. Dies erleichtert die Datenbestände konsistent zu halten und verkleinert den benötigten Speicherplatz (siehe z.B. [1] Seite 216ff).

Tabellen können als ASCII-Text-Dateien (American Standard Code for Information Interchange) von Microsoft Access ex- und importiert werden. Da mit diesem Dateiformat viele Programme umgehen können, eignet es sich hervorragend zum Datenaustausch zwischen verschiedenen Anwendungen.


2 Begriffsdefinitionen

Da im weiteren viel mit in Datenbanken und Tabellen strukturierten Daten gearbeitet wird, sollen hier wichtige Begriffe definiert werden:

Datenbank
Eine Datenbank stellt eine Sammlung von Tabellen dar. Sie ist die oberste Strukturebene der eingesandten Daten. In einer Datenbank können alle eingesandten Informationen abgelegt werden.

Tabelle
Eine Tabelle stellt eine in Zeilen und Spalten strukturierte Sammlung von Zellen dar. In einer Tabelle können alle Informationen zu einer Gruppe von Betrachtungseinheiten (z.B. Geräte oder Maßnahmen) abgelegt werden, die den gleichen Satz an Merkmalen (z.B. Gewicht oder Durchführungszeitpunkt) aufweisen.

Zelle
Die Zelle ist die kleinste Struktureinheit der eingesandten Daten. Sie kann auch als Feld bezeichnet werden. In einer Zelle kann die Ausprägung (z.B. rot) eines Merkmales (z.B. Farbe) einer Betrachtungseinheit (z.B. Gerät) abgelegt werden.

Zeile
Eine Zeile ist eine Sammlung von Zellen. Sie ist Teil einer Tabelle. In einer Zeile können Informationen zu allen Merkmalen einer Betrachtungseinheit abgelegt werden.

Spalte
Eine Spalte ist eine Sammlung von Zellen. Sie ist Teil einer Tabelle. In einer Spalte können Informationen zu einem Merkmal aller Betrachtungseinheiten einer Tabelle abgelegt werden.

Betrachtungseinheit
Alle in den Datenbanken abgelegten Informationen sind Betrachtungseinheiten (z.B. Gerät, Maßnahme) zugeordnet. Eine Betrachtungseinheit ist mit verschiedenen Merkmalen (z.B. Farbe, Gewicht) in der Datenbank repräsentiert. Jede Betrachtungseinheit kann einer Zeile zugeordnet werden.

Merkmal
Merkmale (z.B. Farbe, Gewicht) sind Eigenschaften von Betrachtungseinheiten (z.B. Gerät, Maßnahme). Ein Merkmal einer Betrachtungseinheit kann in einer bestimmten Ausprägung (z.B. rot) realisiert sein. Jedem Merkmal kann man eine Spalte zuordnen. Merkmale können auch als Attribute bezeichnet werden.

Ausprägung
Ausprägungen (z.B. rot, grün) sind individuelle Realisierung eines Merkmales (z.B. Farbe) einer bestimmten Betrachtungseinheit (z.B. Gerät). Jede Ausprägung kann man einer Zelle zuordnen. Die Menge der verschiedenen Ausprägungen eines Merkmal soll als Ausprägungssatz bezeichnet werden. Ausprägungssätze können durchaus unendliche Mengen sein (z.B. zum Merkmal Gewicht in Kilogramm).

Index
Zur eindeutigen Identifikation von Zeilen enthalten Tabellen oft eine Spalte, die eine eindeutige Kennung enthält. Eine solche Spalte wird als Index bezeichnet.

Relation
Zwei Indizes aus verschieden Tabellen können miteinander verknüpft werden. Dazu wird eine neue zweispaltige Tabelle angelegt, die die verbunden Indizes enthält. Diese Tabelle nennt man Relation. Auf diese Weise können z.B. Geräte mit Maßnahmen verbunden werden.


3 Codepages




Tabelle 2.1: Codepage ISO 8859-1 oder Latin 1. In der ersten Spalte und Zeile sind jeweils die erste und zweite Ziffer in hexadezimaler Darstellung des jeweiligen Zeichens angegeben. Die Steuerzeichen sind nicht druckbar.
-0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -A -B -C -D -E -F
0-  
1- Steuerzeichen
2-   ! '' # $ % & ' ( ) * + , - . /
3- 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4- @ A B C D E F G H I J K L M N O
5- P Q R S T U V W X Y Z [ \ ] ^ _
6- ` a b c d e f g h i j k l m n o
7- p q r s t u v w x y z { | } ~  
8-  
9- Steuerzeichen
A-   \textexclamdown ¢ £ ¤ ¥ ¦ § '' © ª « $ \neg$ - \textregistered  
B- ° $ \pm$ ² ³ ´ $ \mu$ $ \cdotp$ ¸ ¹ º » ¼ ½ ¾ \textquestiondown
C- À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
D-   Ñ Ò Ó Ô Õ Ö $ \times$ /O Ù Ú Û Ü Ý Þ ß
E- à á â ã ä å æ ç è é ê ë ì í î ï
F- ð ñ ò ó ô õ ö   /o ù ú û ü ý þ ÿ

Da die Ursprungsdaten dieser Arbeit hauptsächlich im Textformat vorliegen, ist es wichtig zu verstehen, wie Text im Computer verarbeitet wird.

Texte werden in Textdateien zeichenweise als Bytes gespeichert. Ein Byte besteht aus 8 Bit oder Ja- / Nein-Informationen. Ein Byte kann also $ 2^8
= 256$ verschiedene Zustände annehmen. Die Zuordnung dieser Byte-Zustände zu den dargestellten Buchstaben nennt man Codepage.

Es gibt verschiedene genormte Codepages und damit das Problem der Vertauschung (Codepage-Konflikt) - gerade bei heterogenen Datenquellen. Einerseits kann man das Problem dadurch lösen, dass man darauf achtet, mit welcher Codepage die Textdateien erstellt wurden. Anderseits ist es auch möglich das Problem dadurch zu beseitigen, dass man sich auf die wichtigsten Zeichen beschränkt, die von fast allen Codepages gleich kodiert werden.

In der Tabelle 2.1 ist die in dieser Arbeit verwendete Codepage (ISO 8859-1 oder Latin 1) dargestellt. Diese ist eine Erweiterung des ASCII-Standards. Die dargestellten 256 Zeichen sind hexadezimal numeriert. Auf diese Numerierung wird im Laufe dieser Arbeit wieder zurückgegriffen. Die Zeichen 00-1F und 7F-9F sind nicht druckbare Steuerzeichen.


next up previous contents index
Nächste Seite: 2 Methoden des Data Aufwärts: 2 Methoden Vorherige Seite: 2 Methoden   Inhalt   Index
Thorsten Foerstemann (thorsten@foerstemann.name)