Nächste Seite: 3 Statistische Methoden Aufwärts: 2 Methoden Vorherige Seite: 1 Datenbanktechnik Inhalt Index

Unterabschnitte

2 Methoden des Data Mining

Data Mining (DM) ist ein Sammelbegriff für unterschiedliche Methoden verschiedener Fachbereiche. Aus den vielen verschiedenen Definitionen, was Data Mining ist, hat sich bis jetzt noch keine durchgesetzt. Aus [2] (Seite 95) wird hier beispielhaft eine Definition von Hagedorn et al. (1997, Seite 601) zitiert, der den Begriff Data Mining mit Datenmustererkennung übersetzt und anhand zweier Eigenschaften charakterisiert:

Gegenstand der Datenmustererkennung sind große, strukturierte Bestände numerischer, ordinal oder nominal skalierter Daten, in denen interessante aber schwer aufzuspürende Zusammenhänge vermutet werden.
Das Forschungsziel der Datenmustererkennung sind allgemein verwendbare, effiziente Methoden, die autonom aus großen Datenmengen die bedeutsamsten und aussagekräftigsten Muster identifizieren und sie dem Anwender als interessantes Wissen präsentieren.

Beim Data Mining ist für eine Analyse der Daten fast immer eine Vorbereitung nötig. Die Erfahrung zeigt, dass nur 10% der Zeit in die Analyse jedoch 90% in die Datenaufbereitung einfließen [2] (Seite 21).

In [2] (Seiten 21ff und 94ff) ist das Vorgehen beim Data Mining strukturiert dargestellt. Im folgenden werden dieser Arbeitsplan dargestellt und die in dieser Arbeit angefallenen Arbeitspakete zu den entsprechenden Positionen zugeordnet. Dies ermöglicht einen guten Überblick über das konzeptionelle Vorgehen dieser Arbeit.

1 Aufgabenstellung und Projektplanung

Beschreibung der Aufgabenstellung (siehe 1.3)
Bei der Projektplanung sind insbesondere zu berücksichtigen
- Ressourcen : Personal, Qualifikationen, Hardware, Software
- Ergebnisanforderungen (siehe 5.1.1)
- Beschränkungen
  - Datenvolumen (siehe 3.1.4)
  - Datenqualität (allgemeine Betrachtungen: 4.1.2, sachliche Datenfehler: 3.3.2 und 3.3.3, zeitliche Datenfehler: 4.3.4 und 4.4.4)
  - Rechtsvorschriften der Datennutzung (siehe 3.1.1)
- Projektrisiken

2 Auswahl der relevanten Datenquellen

Formale Eigenschaften der Daten sind zu berücksichtigen, wie
- Datenquelle, Datengenerierungsprozess, Datenstandort und Datenzugriffsmethoden (siehe 3.1 und 3.2)
- Dateiformat (siehe 3.1.4), Datenstruktur (siehe 3.3), Datenvolumen: Anzahl der Datensätze und Merkmale (siehe 3.3.2)
- Merkmalsdefinitionen, Kodierung der Merkmale (siehe 3.3.3)
Inhaltliche Eigenschaften der Daten sind zu berücksichtigen, wie
- Vollständigkeit der relevanten Merkmale (siehe 3.3.3 und 4.1.1)
- Art und Häufigkeit von Datenfehlern und fehlenden Daten (allgemeine Betrachtungen: 4.1.2, sachliche Datenfehler: 3.3.2 und 3.3.3, zeitliche Datenfehler: 4.3.4 und 4.4.4)
- Verfügbarer Zeithorizont der Daten (siehe 4.3.4 und 4.4.4)
- Sachliche (siehe 5.1.2) und zeitliche (siehe 4.3.4 und 4.4.4) Granularität der Daten
- Heterogenität der Datenquelle (syntaktisch siehe 3.3, semantisch siehe 5.1.2)
- unformatierte Daten (siehe 1.2.2)
Auf Datenbestände, die gerne übergangen werden, ist zu achten, wie
- Daten in Papierform (siehe 1.2.2 und 3.1.1)
- Ausgelagerte Daten bei externen Dienstleistern (siehe 3.7.3)
- Daten ohne direkten Bezug
- unformatierte Daten
- implizites Wissen

3 Datenaufbereitung

Transformation der Daten in das Standarddatenformat des Data Mining
- Querschnittanalyse: Tabelle enthalten Angaben zu Merkmalen (Spalten) verschiedener Betrachtungseinheiten (Zeilen) ohne Informationen des zeitlichen Verlaufes. Zeitliche Verläufe können jedoch implizit dargestellt werden, indem man z.B. als Betrachtungseinheit ,,Maßnahme`` wählt und als Merkmale ,,betroffenes Gerät`` und ,,Durchführungszeitpunkt`` (siehe 3.3.3 und 3.4).
- Längsschnittanalyse: Tabelle enthalten Angaben zu Merkmalen bestimmter Betrachtungseinheiten (Spalten) zu verschiedenen Zeitpunkten (Zeilen). Diese Darstellung wird nicht eingesetzt, da die Erfassung der Merkmale nicht zu festen Zeiten erfolgte.
- Kombinierte Analyse: wird auch aus oben genanntem Grund nicht eingesetzt.
Explorative Datenanalyse: Hiermit ist eine sondierende Untersuchung der vorliegenden Daten gemeint. Diese soll die Informationen über die Qualität und Quantität der Daten liefern, die für die Entscheidungen über das weitere Vorgehen bei der Datenaufbereitung nötig sind (siehe 3.3 und 5.1.2).
Datenanreicherung: Damit ist ein Rückgriff auf andere Datenbestände gemeint, die in die zu untersuchenden Daten integriert werden (siehe 3.7).
Datenreduktion
- Stichproben
- Aggregation: z.B. Summe, Mittelwert (siehe 4.1.3)
- Reduktion der Dimensionalität (siehe 3.3.3 und 4.1.1)
Behandlung fehlender Merkmalswerte (siehe 4.1.2)
Behandlung fehlerhafter Merkmalswerte (siehe 5.1.2, insbesondere 3.5.1)
Kodierung der Merkmale
- Skalentransformation (siehe 2.3.1 und 3.6)
- Transformation und Normierung (siehe 5.1.2)
- Abgeleitete Merkmale (siehe 4.3.4: Betriebszeit und Aktivgerätezahl; ansatzweise 5.1.3)

4 Auswahl der Data Mining Methoden

Für Beschreibungsprobleme stehen zur Verfügung
- Deskription (siehe 4.2, 4.3, 4.4 und 4.5.1)
- Assoziation (siehe 4.6.1)
- Gruppenbildung (siehe ansatzweise 5.1.3)
Für Prognoseprobleme stehen zur Verfügung
- Klassifikation
- Wirkungsprognosen
Auswahlkriterien für Data Mining Methoden
- Approximations- und Prognosegenauigkeit (siehe E.1)
- Generalisierungsfähigkeit (siehe 4.1.3, 4.3.3 und 4.4.3)
- Interpretierbarkeit, Robustheit (siehe 4.1.3)

5 Anwendung der Data Mining Methoden

Vorbereitende Methoden (siehe Abschnitt 3)
Analysierende Methoden (siehe Abschnitt 4)

6 Evaluation, Interpretation und Auswertung der Ergebnisse

Filtern handlungsrelevanter Data Mining Ergebnisse nach (siehe 4.1.4 und 5.1.3)
- Validität
- Neuheitsgrad
- Nützlichkeit
- Kompaktheit / Verständlichkeit
Betriebswirtschaftliche Bewertung der Data Mining Ergebnisse (siehe 5.1.3)
Anwendung der Data Mining Ergebnisse

Nächste Seite: 3 Statistische Methoden Aufwärts: 2 Methoden Vorherige Seite: 1 Datenbanktechnik Inhalt Index

Thorsten Foerstemann (thorsten@foerstemann.name)