Data Mining (DM)
ist ein Sammelbegriff für unterschiedliche Methoden verschiedener
Fachbereiche. Aus den vielen verschiedenen Definitionen, was Data
Mining ist, hat sich bis jetzt noch keine durchgesetzt. Aus
[2] (Seite 95) wird hier beispielhaft eine Definition von
Hagedorn et al. (1997, Seite 601) zitiert, der den Begriff Data
Mining mit Datenmustererkennung
übersetzt und
anhand zweier Eigenschaften charakterisiert:
Gegenstand der Datenmustererkennung sind große, strukturierte
Bestände numerischer, ordinal oder nominal skalierter Daten, in
denen interessante aber schwer aufzuspürende Zusammenhänge
vermutet werden.
Das Forschungsziel der Datenmustererkennung sind allgemein
verwendbare, effiziente Methoden, die autonom aus großen
Datenmengen die bedeutsamsten und aussagekräftigsten Muster
identifizieren und sie dem Anwender als interessantes Wissen
präsentieren.
Beim Data Mining ist für eine Analyse der Daten fast immer eine
Vorbereitung nötig. Die Erfahrung zeigt, dass nur 10% der Zeit
in die Analyse jedoch 90% in die Datenaufbereitung einfließen
[2] (Seite 21).
In [2] (Seiten 21ff und 94ff) ist das Vorgehen beim Data
Mining strukturiert dargestellt. Im folgenden werden dieser
Arbeitsplan dargestellt und die in dieser Arbeit angefallenen
Arbeitspakete zu den entsprechenden Positionen zugeordnet. Dies
ermöglicht einen guten Überblick über das konzeptionelle Vorgehen
dieser Arbeit.
Formale Eigenschaften der Daten sind zu berücksichtigen, wie
Datenquelle, Datengenerierungsprozess,
Datenstandort
und Datenzugriffsmethoden
(siehe 3.1
und 3.2)
Dateiformat (siehe 3.1.4), Datenstruktur (siehe
3.3), Datenvolumen:
Anzahl der Datensätze und Merkmale (siehe
3.3.2)
Merkmalsdefinitionen, Kodierung
der Merkmale (siehe
3.3.3)
Inhaltliche Eigenschaften der Daten sind zu berücksichtigen, wie
Vollständigkeit der relevanten Merkmale (siehe 3.3.3 und
4.1.1)
Art und Häufigkeit von Datenfehlern und
fehlenden Daten (allgemeine Betrachtungen:
4.1.2, sachliche Datenfehler:
3.3.2 und 3.3.3, zeitliche Datenfehler:
4.3.4 und 4.4.4)
Verfügbarer Zeithorizont der Daten (siehe
4.3.4 und 4.4.4)
Sachliche (siehe 5.1.2) und zeitliche (siehe
4.3.4 und 4.4.4) Granularität der Daten
Heterogenität der Datenquelle (syntaktisch
siehe 3.3, semantisch
siehe 5.1.2)
Ausgelagerte Daten bei externen Dienstleistern (siehe
3.7.3)
Daten ohne direkten Bezug
unformatierte Daten
implizites Wissen
3 Datenaufbereitung
Transformation der Daten in das Standarddatenformat des Data
Mining
Querschnittanalyse: Tabelle enthalten
Angaben zu Merkmalen (Spalten) verschiedener
Betrachtungseinheiten (Zeilen) ohne Informationen des zeitlichen
Verlaufes. Zeitliche Verläufe können jedoch implizit dargestellt
werden, indem man z.B. als Betrachtungseinheit ,,Maßnahme`` wählt
und als Merkmale ,,betroffenes Gerät`` und
,,Durchführungszeitpunkt`` (siehe 3.3.3 und
3.4).
Längsschnittanalyse: Tabelle
enthalten Angaben zu Merkmalen bestimmter Betrachtungseinheiten
(Spalten) zu verschiedenen Zeitpunkten (Zeilen). Diese
Darstellung wird nicht eingesetzt, da die Erfassung der Merkmale
nicht zu festen Zeiten erfolgte.
Kombinierte Analyse: wird auch aus oben genanntem Grund nicht
eingesetzt.
Explorative Datenanalyse:
Hiermit ist eine sondierende
Untersuchung der vorliegenden Daten gemeint. Diese soll die
Informationen über die Qualität und Quantität der Daten liefern,
die für die Entscheidungen über das weitere Vorgehen bei der
Datenaufbereitung nötig sind (siehe 3.3 und 5.1.2).
Datenanreicherung:
Damit ist ein Rückgriff auf andere
Datenbestände gemeint, die in die zu untersuchenden Daten
integriert werden (siehe 3.7).