5 Visuelle Darstellung von Daten

Hierarchische Strukturen werden oft in Form von Baumgrafen (treemaps) dargestellt. Ein typisches Beispiel für eine hierarchische Struktur ist das Dateisystem einer Festplatte mit Hauptverzeichnis, Unterverzeichnissen und Dateien. Oft wird diese Struktur in Datei-Browsern als Baum dargestellt, wie z.B. auch im Explorer von Microsoft, der der Standard-Datei-Browser des Betriebssystems Windows ist.

Um sich einen Überblick über eine gesamte Festplatte zu verschaffen - zum Beispiel um die Frage zu beantworten, warum sie schon wieder so voll ist - bedarf es schon in normalen Fällen vieler Manöver, um alle Unterverzeichnisse auf ihren Inhalt hin durchzusehen. Ein Anzeigen aller Dateien absteigend der Größe nach sortiert muss nicht zum Ziel führen, wenn der überwiegende Teil des Festplattenplatzes durch kleine Dateien, die aber sehr zahlreich sind und sich ggf. nur in wenigen Unterordner befinden, repräsentiert wird. Die Darstellung einer hierarchischen Struktur durch gewöhnliche Baumdiagramme verschafft einen also nur in glücklichen Fällen einen schnellen Überblick. Die Zahl der Fälle, in denen ein schneller Überblick gelingt, kann durch Verwendung spezieller treemaps, sogenannter squarified treemaps stark vergrößert werden [11].

2 Algorithmus mit Beispiel

**Abbildung 2.7:** Ablauf des Algorithmus zur Erstellung einer squarified treemap. Die Flächen der 6 einzupassenden Rechtecke lauten 10, 5, 3, 3, 2 und 1. Das Seitenverhältnis des Umfassenden Rechtecks beträgt 8/3. Der Algorithmus wird im Text beschrieben.

Treemaps setzen die hierarchische Struktur statt in eine Baumstruktur in eine Karte um. Dabei werden die hierarchischen Ebenen durch Rechtecke repräsentiert, die durch ihre Schachtelung die hierarchische Struktur wiederspiegeln. Die Fläche der Rechtecke kann dabei, um beim Beispiel des Dateisystems zu bleiben, die Größe oder Anzahl der Dateien darstellen. Wichtig ist, das diese Größe über die Hierarchieebenen additiv ist, d.h. diese Größe muss für ein Element in einer bestimmten Hierarchieebene die Summe aller Elemente aus der nächsten tiefer liegenden Hierarchieebene sein. Damit ist z.B. die Darstellung der durchschnittlichen Dateigröße durch treemaps nicht darstellbar.

Bei squarified treemaps wird versucht die Form der Rechtecke möglichst wenig von Quadraten abweichen zu lassen, da dies sich günstig auf die visuelle Erscheinung der treemap auswirkt (siehe Abbildung 2.7 unten). Diese Optimierung wird durch einen Algorithmus durchgeführt, der zwar keine optimale Lösung garantiert, aber im Normalfall unter vertretbarem Aufwand brauchbare Ergebnisse liefert ([11] ab Seite 33).

Abbildung 2.7 zeigt an einem Beispiel, wie der Algorithmus arbeitet. In diesem Beispiel werden nur die Rechtecke einer Hierarchieebene in ein großes Rechteck eingepasst. Das Beispiel lässt sich aber leicht auf eine hierarchische Struktur mit mehreren Ebenen erweitern, indem man das Vorgehen des Beispiels iterativ auf die erzeugten Teilrechtecke anwendet und so eine Darstellung einer hierarchischen Struktur erzeugt.

In diesem Beispiel soll eine Hierarchieebene mit 6 Elementen Dargestellt werden, denen die Größen 10, 5, 3, 3, 2 und 1 zugeordnet sind. Die Rechtecke sollen in ein Rechteck mit Seitenverhältnis 8/3 eingepasst werden. Die Fläche aller Teilrechtecke ergibt die Fläche des Gesamtrechtecks. Beispielhaft sind an diesem Rechteck auch noch die Seitenlängen

und

eingezeichnet, aus denen das später benötigte Seitenverhältnis bestimmt werden kann. Dazu werden die Elemente der Größe nach absteigend in das Rechteck eingepasst. In der ersten Zeile der Abbildung 2.7 wird das größte Teilrechteck mit der Fläche 10 entsprechend seiner Größe in das Gesamtrechteck eingezeichnet. Es gibt zwei Möglichkeiten, dies zu tun. Hier wird die Möglichkeit mit dem ausgewogensten Verhältnis von

und

gewählt.

Nun wird das nächste kleinere Rechteck eingepasst. In Zeile zwei der Abbildung 2.7 sind dafür zwei Möglichkeiten angegeben: einmal kann das nächste Rechteck über dem Vorherigen eingepasst werden - beide Rechtecke haben dann die gleiche horizontale Kantenlänge, oder es kann daneben eingepasst werden. Für beide Alternativen ergeben sich unterschiedliche Seitenverhältnisse

. Für den Fall, dass

ist wird im folgenden einfach der Kehrwert

betrachtet. Die Seitenverhältnisse sind also immer kleiner oder gleich eins. Um zu entscheiden, welche Alternative gewählt wird, um das neue Rechteck anzufügen, wird das Seitenverhältnis herangezogen, da es ermöglicht optisch leichter zu erfassende Rechtecke mit ausgeglichenem Seitenverhältnis nahe bei 1 gegenüber länglicheren zu bevorzugen. In diesem Auswahlschritt findet die ,,squarification`` statt - die Rechtecke sollen so eingepasst werden, dass sie möglichst eine quadratische Form erhalten.

Dieser Schritt wird für die folgenden und kleiner werdenden Rechtecke wiederholt, wie in den folgenden Zeilen der Abbildung 2.7 dargestellt. Rechtecke können dabei sowohl horizontal als auch vertikal angefügt werden.

In der letzten Zeile ist das Endergebnis dargestellt und zum Vergleich das Ergebnis, das man erhält, wenn man die Flächenaufteilung wie in einem gewöhnlichen Balkendiagramm vornimmt. Insbesondere bei den sehr schmalen Teilrechtecken ist das Einpassen einer weiteren tieferen Hierarchieebene in optische ansprechender Form kaum noch möglich.

2 Visualisierung von Kreuztabellen

**Abbildung 2.8:** Beispielhaft ist eine Differenz $\Delta_{ij}$ zwischen zwei Rechteckkanten gepaarter Rechtecke zweier Spalten eingezeichnet. Die Spalten werden mit die Rechtecke mit durchgezählt. Die Spaltenlängen sind auf die Gleiche Länge normiert.

**Abbildung 2.9:** In der oberen Abbildung sind beispielhaft die Daten einer Kreuztabelle als normiertes Balkendiagramm dargestellt. Die Spalten- und Zeilen der Kreuztabelle sind zufällig (zum Beispiel alphabetisch) sortiert. In der linken unteren Abbildung wurde eine Gruppierung dergestalt vorgenommen, dass nur die 6 häufigsten Zeilen- und Spalten-Kategorien übernommen wurden und die restlichen Kategorien jeweils für Spalten und Zeilen zusammengefasst wurden. In der rechten unteren Abbildung wurde nun eine Sortierung der Kategorien vorgenommen, wie sie im Text beschrieben ist. Es ist deutlich zu erkennen, das durch den ruhigeren Bildaufbau gegenüber der unteren linken Abbildung Zusammenhänge sichtbar werden, die vorher so nicht erkennbar waren. Insbesondere sei hier hervorgehoben, dass beide Abbildungen die gleichen Daten darstellen.

1 Problemstellung

Soll die Anzahl der Geräte nach kategorialen Merkmalen wie z.B. ,,Krankenhaus`` und ,,Gerätebezeichnung`` gruppiert angegeben werden, so eignen sich zur Darstellung dieser Zahlen Balkendiagramme. Ein Balken repräsentiert dann z.B. ein Krankenhaus, und die Rechtecke, aus denen ein Balken zusammengesetzt ist, repräsentieren die Anzahl der Geräte in den betrachteten Gerätegruppen des Krankenhauses. Möchte man nicht die absoluten sondern die relativen Geräteanzahlen vergleichen, so normiert man die Gesamtzahl der Geräte in einem Krankenhaus auf 100%. Die tabellarische Anordnung dieser Zahlen nennt man Kreuz- oder Pivot-Tabelle.

Ein Problem bei der Darstellung einer Kreuztabelle durch ein Balkendiagramm ist, dass es sehr viele verschiedene Möglichkeiten gibt die Kreuztabelle darzustellen. Da die Kategorien keine natürliche Ordnung besitzen, können sie beliebig angeordnet werden. Für eine Kreuztabelle mit dem Merkmal A (

verschiedene Kategorien) und Merkmal B (

verschiedene Kategorien) ergibt sich eine Anzahl von

verschiedenen Anordnungen der Kategorien mit jeweils verschiedenen Balkendiagrammen. Welches Diagramm ist für eine übersichtliche Darstellung der Zahlen zu wählen?

2 Algorithmus

Günstig auf die visuelle Wahrnehmung wirkt es sich aus, wenn das Balkendiagramm einen möglichst geordneten Eindruck macht - insbesondere lassen sich so auch leicht Gruppen von Kategorien erkennen. Der Eindruck eines geordneten Balkendiagramms lässt sich zumindest näherungsweise dadurch erreichen, dass man die Sortierung der Kategorien so wählt, dass die Rechteckkanten zu gleichen Kategorien benachbarter Spalten möglichst dicht beieinander liegen (siehe Abbildung 2.8). Diese Minimalbedingung lässt sich mit den Bezeichnungen aus Abbildung 2.8 schreiben als

Die Spalten sind dabei von

bis

und die Rechtecke der Spalten mit

bis

numeriert. Für auf 100% normierte Balken sind die $\Delta_{in_B}=0$ , da die Spalten alle gleich hoch sind.

Diese Summe ist nun für alle Permutationen der Kategorien der Merkmale

und

zu bestimmen. Für

ergeben sich ca. 0.5 Millionen Möglichkeiten. Für

sind es schon ca. 25 Millionen und für

sind es gar 16 000 Millionen. Will man mittels ,,brute-force`` das Minimum ermitteln, so ist das nur noch bei sieben Kategorien pro Merkmal mit zeitlich vertretbarem aufwand möglich. Sollen Merkmale untersucht werden, die über mehr als sieben Kategorien verfügen, so können bis auf die sechs häufigsten Kategorien alle restlichen in der siebten Kategorie ,,sonstige`` zusammengefasst werden (siehe Abbildung 2.9).

Einen Algorithmus, der auch für größere Anzahlen von Kategorien eine wenn auch nicht optimale aber dennoch brauchbare Lösung bei vertretbarer Laufzeit ermittelt, konnte in dieser Arbeit nicht gefunden werden. Das Problem hat Ähnlichkeit zum Traveling-Salesman-Problem, für das eine Reihe solcher Lösungen existiert. Da bei diesem Problem jedoch nicht nur ein Merkmal sondern zwei zu sortieren sind, können die Algorithmen zur Lösung von Traveling-Salesman-Problemen nicht verwendet werden. Das entwickeln eines neuen Algorithmus ist im Rahmen dieser Arbeit nicht gelungen. Es zeigt sich aber auch häufig, dass ab der sechst-häufigsten Kategorie die Häufigkeiten schon so stark abgefallen sind, das das Diagramm davon kaum noch beeinflusst wird.

3 Visualisierung von Ungleichverteilungen

1 Problemstellung

Hat man Entitäten oder Gruppen von Entitäten

, denen zwei metrische Merkmale

und

zugeordnet werden können, so ist zunächst die Frage von Interesse, ob zwischen diesen Merkmalen ein Zusammenhang (Korrelation) besteht. In diesen Fällen hilft die Korrelations- oder Regressionsanalyse weiter. Zum Beispiel können die

Gerätegruppen sein, Merkmal

kann die Anzahl der Geräte und Merkmal

kann die Summe der Kaufpreise der Geräte sein jeweils für die Gruppe

. Findet sich nun ein linearer Zusammenhang zwischen

und

, so kann man die Steigung dieses linearen Zusammenhangs als über die Gerätegruppen hinweg existenten mittleren Kaufpreises pro Gerät interpretieren, den man durch eine Regressionsanalyse bestimmen kann.

Lässt sich jedoch keine Korrelation zwischen den Merkmalen finden, so kann man dennoch ggf. wertvolle Informationen gewinnen: Es liegt eine ausreichend deutliche Ungleichverteilung der Merkmale

und

in den Gruppen

vor, die eine Einteilung in verschiedene neue Gruppen erlaubt. Es können im obigen Beispiel sich für die verschiedenen Gerätegruppen deutlich unterschiedliche mittlere Kaufpreise ergeben, die Anzahl der Geräte also unabhängig von der Summe der Kaufpreise sein. Gegebenenfalls sind die Unterschiede der mittleren Kaufpreise sogar so groß, dass sie eine neue Einteilung der Gerätegruppen rechtfertigen.

Zur Beurteilung der Stärke der Ungleichverteilung sollen die im folgenden vorgestellten Lorenzkurve und der Gini-Koeffizient verwendet werden (z.B. [12] Seite 52).

2 Lorenzkurve und Gini-Koeffizient

Zum Erstellen einer Lorenzkurve sortiert man die Gruppen

mit $i \in {i \dots n}$ aufsteigend oder absteigend nach dem Quotienten

. Dann ordnet man den sortierten

jeweils die kumulierten

auf eins normieren und als sog. ,,Lorenz- oder Konzentrationskurve`` mit Definitions- und Wertebereich

auftragen. Als Beispiel sind in Abbildung 2.10 zwei Lorenzkurven zu den Werten ((5,45), (7,91), (3,20), (6,62), (5,57) und zu den Werten ((10,21), (1,71), (5,77), (7,12)) angegeben. Die größere Ungleichverteilung in der zweiten Wertereihe lässt sich anhand der stärker gebogenen Lorenzkurve deutlich erkennen. Zur objektiven Beurteilung der Wölbung kann man die in Abbildung 2.10 eingezeichneten Flächen heranziehen: je größer die Ungleichverteilung desto größer die Wölbung der Lorenzkurve desto größer die Fläche zwischen Lorenzkurve und der gedachten Line durch die Punkte (0,0) und (1,1). Diese Fläche wird als ,,lorenzisches Konzentrationsmaß`` oder ,,Gini-Koeffizient`` bezeichnet.

3 Andere Konzentrationsmaße

Neben dem Gini-Koeffizienten gibt es noch eine Reihe anderer Ungleichverteilungskoeffizienten. Ein Vorteil des Gini-Koeffizienten - seine anschauliche Interpretation als Fläche der Lorenzkurve kann auch als Nachteil gedeutet werden: der Zahlenwert hat keine praktische Bedeutung und besitzt eine komplizierte Berechnungsvorschrift. Diese Nachteile besitzt der Hoover-Ungleichverteilungskoeffizient

nicht [13]. Er berechnet sich zu

Die Berechnung des Koeffizienten ist einfach und damit transparenter als beim Gini-Koeffizienten. Außerdem kann man den Zahlenwert des Hoover-Koeffizienten als den Anteil interpretieren, der umverteilt werden muss, um eine Gleichverteilung zu erhalten.

Andere Koeffizienten quantifizieren die Ungleichverteilung anhand von Entropiebetrachtungen der zu untersuchenden Verteilung. Diese Koeffizienten lassen rich zwar schlüssig aus der Theorie ableiten, setzten aber auf den wenig anschaulichen Begriff der Entropie auf und werden deswegen in dieser Arbeit nicht zur Untersuchung herangezogen.

5 Visuelle Darstellung von Daten

1 Visualisierung hierarchischer Daten

1 Problemstellung

2 Algorithmus mit Beispiel

2 Visualisierung von Kreuztabellen

1 Problemstellung

2 Algorithmus

3 Visualisierung von Ungleichverteilungen

1 Problemstellung

2 Lorenzkurve und Gini-Koeffizient

3 Andere Konzentrationsmaße