next up previous contents index
Nächste Seite: 3 Erhebung und Vorbereitung Aufwärts: 2 Methoden Vorherige Seite: 4 Grundlagen der Instandhaltung   Inhalt   Index

Unterabschnitte


5 Visuelle Darstellung von Daten


1 Visualisierung hierarchischer Daten

1 Problemstellung

Hierarchische Strukturen werden oft in Form von Baumgrafen (treemaps) dargestellt. Ein typisches Beispiel für eine hierarchische Struktur ist das Dateisystem einer Festplatte mit Hauptverzeichnis, Unterverzeichnissen und Dateien. Oft wird diese Struktur in Datei-Browsern als Baum dargestellt, wie z.B. auch im Explorer von Microsoft, der der Standard-Datei-Browser des Betriebssystems Windows ist.

Um sich einen Überblick über eine gesamte Festplatte zu verschaffen - zum Beispiel um die Frage zu beantworten, warum sie schon wieder so voll ist - bedarf es schon in normalen Fällen vieler Manöver, um alle Unterverzeichnisse auf ihren Inhalt hin durchzusehen. Ein Anzeigen aller Dateien absteigend der Größe nach sortiert muss nicht zum Ziel führen, wenn der überwiegende Teil des Festplattenplatzes durch kleine Dateien, die aber sehr zahlreich sind und sich ggf. nur in wenigen Unterordner befinden, repräsentiert wird. Die Darstellung einer hierarchischen Struktur durch gewöhnliche Baumdiagramme verschafft einen also nur in glücklichen Fällen einen schnellen Überblick. Die Zahl der Fälle, in denen ein schneller Überblick gelingt, kann durch Verwendung spezieller treemaps, sogenannter squarified treemaps stark vergrößert werden [11].

2 Algorithmus mit Beispiel

Abbildung 2.7: Ablauf des Algorithmus zur Erstellung einer squarified treemap. Die Flächen der 6 einzupassenden Rechtecke lauten 10, 5, 3, 3, 2 und 1. Das Seitenverhältnis des Umfassenden Rechtecks beträgt 8/3. Der Algorithmus wird im Text beschrieben.
Image treemap_intro

Treemaps setzen die hierarchische Struktur statt in eine Baumstruktur in eine Karte um. Dabei werden die hierarchischen Ebenen durch Rechtecke repräsentiert, die durch ihre Schachtelung die hierarchische Struktur wiederspiegeln. Die Fläche der Rechtecke kann dabei, um beim Beispiel des Dateisystems zu bleiben, die Größe oder Anzahl der Dateien darstellen. Wichtig ist, das diese Größe über die Hierarchieebenen additiv ist, d.h. diese Größe muss für ein Element in einer bestimmten Hierarchieebene die Summe aller Elemente aus der nächsten tiefer liegenden Hierarchieebene sein. Damit ist z.B. die Darstellung der durchschnittlichen Dateigröße durch treemaps nicht darstellbar.

Bei squarified treemaps wird versucht die Form der Rechtecke möglichst wenig von Quadraten abweichen zu lassen, da dies sich günstig auf die visuelle Erscheinung der treemap auswirkt (siehe Abbildung 2.7 unten). Diese Optimierung wird durch einen Algorithmus durchgeführt, der zwar keine optimale Lösung garantiert, aber im Normalfall unter vertretbarem Aufwand brauchbare Ergebnisse liefert ([11] ab Seite 33).

Abbildung 2.7 zeigt an einem Beispiel, wie der Algorithmus arbeitet. In diesem Beispiel werden nur die Rechtecke einer Hierarchieebene in ein großes Rechteck eingepasst. Das Beispiel lässt sich aber leicht auf eine hierarchische Struktur mit mehreren Ebenen erweitern, indem man das Vorgehen des Beispiels iterativ auf die erzeugten Teilrechtecke anwendet und so eine Darstellung einer hierarchischen Struktur erzeugt.

In diesem Beispiel soll eine Hierarchieebene mit 6 Elementen Dargestellt werden, denen die Größen 10, 5, 3, 3, 2 und 1 zugeordnet sind. Die Rechtecke sollen in ein Rechteck mit Seitenverhältnis 8/3 eingepasst werden. Die Fläche aller Teilrechtecke ergibt die Fläche des Gesamtrechtecks. Beispielhaft sind an diesem Rechteck auch noch die Seitenlängen $ a$ und $ b$ eingezeichnet, aus denen das später benötigte Seitenverhältnis bestimmt werden kann. Dazu werden die Elemente der Größe nach absteigend in das Rechteck eingepasst. In der ersten Zeile der Abbildung 2.7 wird das größte Teilrechteck mit der Fläche 10 entsprechend seiner Größe in das Gesamtrechteck eingezeichnet. Es gibt zwei Möglichkeiten, dies zu tun. Hier wird die Möglichkeit mit dem ausgewogensten Verhältnis von $ a$ und $ b$ gewählt.

Nun wird das nächste kleinere Rechteck eingepasst. In Zeile zwei der Abbildung 2.7 sind dafür zwei Möglichkeiten angegeben: einmal kann das nächste Rechteck über dem Vorherigen eingepasst werden - beide Rechtecke haben dann die gleiche horizontale Kantenlänge, oder es kann daneben eingepasst werden. Für beide Alternativen ergeben sich unterschiedliche Seitenverhältnisse $ a/b$ . Für den Fall, dass $ a/b > 1$ ist wird im folgenden einfach der Kehrwert $ b/a$ betrachtet. Die Seitenverhältnisse sind also immer kleiner oder gleich eins. Um zu entscheiden, welche Alternative gewählt wird, um das neue Rechteck anzufügen, wird das Seitenverhältnis herangezogen, da es ermöglicht optisch leichter zu erfassende Rechtecke mit ausgeglichenem Seitenverhältnis nahe bei 1 gegenüber länglicheren zu bevorzugen. In diesem Auswahlschritt findet die ,,squarification`` statt - die Rechtecke sollen so eingepasst werden, dass sie möglichst eine quadratische Form erhalten.

Dieser Schritt wird für die folgenden und kleiner werdenden Rechtecke wiederholt, wie in den folgenden Zeilen der Abbildung 2.7 dargestellt. Rechtecke können dabei sowohl horizontal als auch vertikal angefügt werden.

In der letzten Zeile ist das Endergebnis dargestellt und zum Vergleich das Ergebnis, das man erhält, wenn man die Flächenaufteilung wie in einem gewöhnlichen Balkendiagramm vornimmt. Insbesondere bei den sehr schmalen Teilrechtecken ist das Einpassen einer weiteren tieferen Hierarchieebene in optische ansprechender Form kaum noch möglich.


2 Visualisierung von Kreuztabellen

Abbildung 2.8: Beispielhaft ist eine Differenz $ \Delta_{ij}$ zwischen zwei Rechteckkanten gepaarter Rechtecke zweier Spalten eingezeichnet. Die Spalten werden mit $ j$ die Rechtecke mit $ i$ durchgezählt. Die Spaltenlängen sind auf die Gleiche Länge normiert.
Image sale_intro0

Abbildung 2.9: In der oberen Abbildung sind beispielhaft die Daten einer Kreuztabelle als normiertes Balkendiagramm dargestellt. Die Spalten- und Zeilen der Kreuztabelle sind zufällig (zum Beispiel alphabetisch) sortiert. In der linken unteren Abbildung wurde eine Gruppierung dergestalt vorgenommen, dass nur die 6 häufigsten Zeilen- und Spalten-Kategorien übernommen wurden und die restlichen Kategorien jeweils für Spalten und Zeilen zusammengefasst wurden. In der rechten unteren Abbildung wurde nun eine Sortierung der Kategorien vorgenommen, wie sie im Text beschrieben ist. Es ist deutlich zu erkennen, das durch den ruhigeren Bildaufbau gegenüber der unteren linken Abbildung Zusammenhänge sichtbar werden, die vorher so nicht erkennbar waren. Insbesondere sei hier hervorgehoben, dass beide Abbildungen die gleichen Daten darstellen.
Image sale_intro1

1 Problemstellung

Soll die Anzahl der Geräte nach kategorialen Merkmalen wie z.B. ,,Krankenhaus`` und ,,Gerätebezeichnung`` gruppiert angegeben werden, so eignen sich zur Darstellung dieser Zahlen Balkendiagramme. Ein Balken repräsentiert dann z.B. ein Krankenhaus, und die Rechtecke, aus denen ein Balken zusammengesetzt ist, repräsentieren die Anzahl der Geräte in den betrachteten Gerätegruppen des Krankenhauses. Möchte man nicht die absoluten sondern die relativen Geräteanzahlen vergleichen, so normiert man die Gesamtzahl der Geräte in einem Krankenhaus auf 100%. Die tabellarische Anordnung dieser Zahlen nennt man Kreuz- oder Pivot-Tabelle.

Ein Problem bei der Darstellung einer Kreuztabelle durch ein Balkendiagramm ist, dass es sehr viele verschiedene Möglichkeiten gibt die Kreuztabelle darzustellen. Da die Kategorien keine natürliche Ordnung besitzen, können sie beliebig angeordnet werden. Für eine Kreuztabelle mit dem Merkmal A ($ n_A$ verschiedene Kategorien) und Merkmal B ($ n_B$ verschiedene Kategorien) ergibt sich eine Anzahl von $ n_A!n_B!$ verschiedenen Anordnungen der Kategorien mit jeweils verschiedenen Balkendiagrammen. Welches Diagramm ist für eine übersichtliche Darstellung der Zahlen zu wählen?

2 Algorithmus

Günstig auf die visuelle Wahrnehmung wirkt es sich aus, wenn das Balkendiagramm einen möglichst geordneten Eindruck macht - insbesondere lassen sich so auch leicht Gruppen von Kategorien erkennen. Der Eindruck eines geordneten Balkendiagramms lässt sich zumindest näherungsweise dadurch erreichen, dass man die Sortierung der Kategorien so wählt, dass die Rechteckkanten zu gleichen Kategorien benachbarter Spalten möglichst dicht beieinander liegen (siehe Abbildung 2.8). Diese Minimalbedingung lässt sich mit den Bezeichnungen aus Abbildung 2.8 schreiben als

$\displaystyle Min! = \sum_{i=1}^{n_A-1}\sum_{j=1}^{n_B} \Delta_{ij}$ (43)

Die Spalten sind dabei von $ i=1$ bis $ i=n_A$ und die Rechtecke der Spalten mit $ j=1$ bis $ j=n_B$ numeriert. Für auf 100% normierte Balken sind die $ \Delta_{in_B}=0$ , da die Spalten alle gleich hoch sind.

Diese Summe ist nun für alle Permutationen der Kategorien der Merkmale $ A$ und $ B$ zu bestimmen. Für $ n_A=n_B=6$ ergeben sich ca. 0.5 Millionen Möglichkeiten. Für $ n_A=n_B=7$ sind es schon ca. 25 Millionen und für $ n_A=n_B=8$ sind es gar 16 000 Millionen. Will man mittels ,,brute-force`` das Minimum ermitteln, so ist das nur noch bei sieben Kategorien pro Merkmal mit zeitlich vertretbarem aufwand möglich. Sollen Merkmale untersucht werden, die über mehr als sieben Kategorien verfügen, so können bis auf die sechs häufigsten Kategorien alle restlichen in der siebten Kategorie ,,sonstige`` zusammengefasst werden (siehe Abbildung 2.9).

Einen Algorithmus, der auch für größere Anzahlen von Kategorien eine wenn auch nicht optimale aber dennoch brauchbare Lösung bei vertretbarer Laufzeit ermittelt, konnte in dieser Arbeit nicht gefunden werden. Das Problem hat Ähnlichkeit zum Traveling-Salesman-Problem, für das eine Reihe solcher Lösungen existiert. Da bei diesem Problem jedoch nicht nur ein Merkmal sondern zwei zu sortieren sind, können die Algorithmen zur Lösung von Traveling-Salesman-Problemen nicht verwendet werden. Das entwickeln eines neuen Algorithmus ist im Rahmen dieser Arbeit nicht gelungen. Es zeigt sich aber auch häufig, dass ab der sechst-häufigsten Kategorie die Häufigkeiten schon so stark abgefallen sind, das das Diagramm davon kaum noch beeinflusst wird.


3 Visualisierung von Ungleichverteilungen

1 Problemstellung

Hat man Entitäten oder Gruppen von Entitäten $ E_i$ , denen zwei metrische Merkmale $ A_i$ und $ B_i$ zugeordnet werden können, so ist zunächst die Frage von Interesse, ob zwischen diesen Merkmalen ein Zusammenhang (Korrelation) besteht. In diesen Fällen hilft die Korrelations- oder Regressionsanalyse weiter. Zum Beispiel können die $ E_i$ Gerätegruppen sein, Merkmal $ A_i$ kann die Anzahl der Geräte und Merkmal $ B_i$ kann die Summe der Kaufpreise der Geräte sein jeweils für die Gruppe $ E_i$ . Findet sich nun ein linearer Zusammenhang zwischen $ A_i$ und $ B_i$ , so kann man die Steigung dieses linearen Zusammenhangs als über die Gerätegruppen hinweg existenten mittleren Kaufpreises pro Gerät interpretieren, den man durch eine Regressionsanalyse bestimmen kann.

Lässt sich jedoch keine Korrelation zwischen den Merkmalen finden, so kann man dennoch ggf. wertvolle Informationen gewinnen: Es liegt eine ausreichend deutliche Ungleichverteilung der Merkmale $ A_i$ und $ B_i$ in den Gruppen $ E_i$ vor, die eine Einteilung in verschiedene neue Gruppen erlaubt. Es können im obigen Beispiel sich für die verschiedenen Gerätegruppen deutlich unterschiedliche mittlere Kaufpreise ergeben, die Anzahl der Geräte also unabhängig von der Summe der Kaufpreise sein. Gegebenenfalls sind die Unterschiede der mittleren Kaufpreise sogar so groß, dass sie eine neue Einteilung der Gerätegruppen rechtfertigen.

Zur Beurteilung der Stärke der Ungleichverteilung sollen die im folgenden vorgestellten Lorenzkurve und der Gini-Koeffizient verwendet werden (z.B. [12] Seite 52).

2 Lorenzkurve und Gini-Koeffizient

Abbildung 2.10: Beispielhafte Darstellung zweier Lorenzkurven. Es sind die Gini-Koeffizienten $ F_1$ und $ F_2$ eingezeichnet. Es gilt $ F_R+F_2=0.5$ und nicht $ F_R+F_2+F_1=0.5$ . Details siehe Text.
Image lorenz-bsp

Zum Erstellen einer Lorenzkurve sortiert man die Gruppen $ E_i$ mit $ i \in {i \dots n}$ aufsteigend oder absteigend nach dem Quotienten $ A_i/B_i$ . Dann ordnet man den sortierten $ E_i$ jeweils die kumulierten

$\displaystyle A^K_i = \sum^i_{j=1} A_j$   und$\displaystyle \quad B^K_i = \sum^i_{j=1} B_j$ (44)

zu. Dann kann man die kumulierten $ A^K_i$ und $ B^K_i$ noch als

$\displaystyle A^N_i = \frac{A^K_i}{\sum^n_{j=1} A_j}$   und$\displaystyle \quad B^N_i = \frac{B^K_i}{\sum^n_{j=1} B_j}$ (45)

auf eins normieren und als sog. ,,Lorenz- oder Konzentrationskurve`` mit Definitions- und Wertebereich $ [0,1]$ auftragen. Als Beispiel sind in Abbildung 2.10 zwei Lorenzkurven zu den Werten ((5,45), (7,91), (3,20), (6,62), (5,57) und zu den Werten ((10,21), (1,71), (5,77), (7,12)) angegeben. Die größere Ungleichverteilung in der zweiten Wertereihe lässt sich anhand der stärker gebogenen Lorenzkurve deutlich erkennen. Zur objektiven Beurteilung der Wölbung kann man die in Abbildung 2.10 eingezeichneten Flächen heranziehen: je größer die Ungleichverteilung desto größer die Wölbung der Lorenzkurve desto größer die Fläche zwischen Lorenzkurve und der gedachten Line durch die Punkte (0,0) und (1,1). Diese Fläche wird als ,,lorenzisches Konzentrationsmaß`` oder ,,Gini-Koeffizient`` bezeichnet.

3 Andere Konzentrationsmaße

Neben dem Gini-Koeffizienten gibt es noch eine Reihe anderer Ungleichverteilungskoeffizienten. Ein Vorteil des Gini-Koeffizienten - seine anschauliche Interpretation als Fläche der Lorenzkurve kann auch als Nachteil gedeutet werden: der Zahlenwert hat keine praktische Bedeutung und besitzt eine komplizierte Berechnungsvorschrift. Diese Nachteile besitzt der Hoover-Ungleichverteilungskoeffizient $ h$ nicht [13]. Er berechnet sich zu

$\displaystyle h = \sum^n_{i=1} \mid A^N_i - B^N_i \mid$ (46)

Die Berechnung des Koeffizienten ist einfach und damit transparenter als beim Gini-Koeffizienten. Außerdem kann man den Zahlenwert des Hoover-Koeffizienten als den Anteil interpretieren, der umverteilt werden muss, um eine Gleichverteilung zu erhalten.

Andere Koeffizienten quantifizieren die Ungleichverteilung anhand von Entropiebetrachtungen der zu untersuchenden Verteilung. Diese Koeffizienten lassen rich zwar schlüssig aus der Theorie ableiten, setzten aber auf den wenig anschaulichen Begriff der Entropie auf und werden deswegen in dieser Arbeit nicht zur Untersuchung herangezogen.


next up previous contents index
Nächste Seite: 3 Erhebung und Vorbereitung Aufwärts: 2 Methoden Vorherige Seite: 4 Grundlagen der Instandhaltung   Inhalt   Index
Thorsten Foerstemann (thorsten@foerstemann.name)