Hierarchische Strukturen werden oft in Form von Baumgrafen (treemaps) dargestellt. Ein typisches Beispiel für eine hierarchische Struktur ist das Dateisystem einer Festplatte mit Hauptverzeichnis, Unterverzeichnissen und Dateien. Oft wird diese Struktur in Datei-Browsern als Baum dargestellt, wie z.B. auch im Explorer von Microsoft, der der Standard-Datei-Browser des Betriebssystems Windows ist.
Um sich einen Überblick über eine gesamte Festplatte zu verschaffen - zum Beispiel um die Frage zu beantworten, warum sie schon wieder so voll ist - bedarf es schon in normalen Fällen vieler Manöver, um alle Unterverzeichnisse auf ihren Inhalt hin durchzusehen. Ein Anzeigen aller Dateien absteigend der Größe nach sortiert muss nicht zum Ziel führen, wenn der überwiegende Teil des Festplattenplatzes durch kleine Dateien, die aber sehr zahlreich sind und sich ggf. nur in wenigen Unterordner befinden, repräsentiert wird. Die Darstellung einer hierarchischen Struktur durch gewöhnliche Baumdiagramme verschafft einen also nur in glücklichen Fällen einen schnellen Überblick. Die Zahl der Fälle, in denen ein schneller Überblick gelingt, kann durch Verwendung spezieller treemaps, sogenannter squarified treemaps stark vergrößert werden [11].
![]() |
Treemaps setzen die hierarchische Struktur statt in eine Baumstruktur in eine Karte um. Dabei werden die hierarchischen Ebenen durch Rechtecke repräsentiert, die durch ihre Schachtelung die hierarchische Struktur wiederspiegeln. Die Fläche der Rechtecke kann dabei, um beim Beispiel des Dateisystems zu bleiben, die Größe oder Anzahl der Dateien darstellen. Wichtig ist, das diese Größe über die Hierarchieebenen additiv ist, d.h. diese Größe muss für ein Element in einer bestimmten Hierarchieebene die Summe aller Elemente aus der nächsten tiefer liegenden Hierarchieebene sein. Damit ist z.B. die Darstellung der durchschnittlichen Dateigröße durch treemaps nicht darstellbar.
Bei squarified treemaps wird versucht die Form der Rechtecke möglichst wenig von Quadraten abweichen zu lassen, da dies sich günstig auf die visuelle Erscheinung der treemap auswirkt (siehe Abbildung 2.7 unten). Diese Optimierung wird durch einen Algorithmus durchgeführt, der zwar keine optimale Lösung garantiert, aber im Normalfall unter vertretbarem Aufwand brauchbare Ergebnisse liefert ([11] ab Seite 33).
Abbildung 2.7 zeigt an einem Beispiel, wie der Algorithmus arbeitet. In diesem Beispiel werden nur die Rechtecke einer Hierarchieebene in ein großes Rechteck eingepasst. Das Beispiel lässt sich aber leicht auf eine hierarchische Struktur mit mehreren Ebenen erweitern, indem man das Vorgehen des Beispiels iterativ auf die erzeugten Teilrechtecke anwendet und so eine Darstellung einer hierarchischen Struktur erzeugt.
In diesem Beispiel soll eine Hierarchieebene mit 6 Elementen
Dargestellt werden, denen die Größen 10, 5, 3, 3, 2 und 1
zugeordnet sind. Die Rechtecke sollen in ein Rechteck mit
Seitenverhältnis 8/3 eingepasst werden. Die Fläche aller
Teilrechtecke ergibt die Fläche des Gesamtrechtecks. Beispielhaft
sind an diesem Rechteck auch noch die Seitenlängen
und
eingezeichnet, aus denen das später benötigte Seitenverhältnis
bestimmt werden kann. Dazu werden die Elemente der Größe nach
absteigend in das Rechteck eingepasst. In der ersten Zeile der
Abbildung 2.7 wird das größte Teilrechteck mit
der Fläche 10 entsprechend seiner Größe in das Gesamtrechteck
eingezeichnet. Es gibt zwei Möglichkeiten, dies zu tun. Hier wird
die Möglichkeit mit dem ausgewogensten Verhältnis von
und
gewählt.
Nun wird das nächste kleinere Rechteck eingepasst. In Zeile zwei
der Abbildung 2.7 sind dafür zwei Möglichkeiten
angegeben: einmal kann das nächste Rechteck über dem Vorherigen
eingepasst werden - beide Rechtecke haben dann die gleiche
horizontale Kantenlänge, oder es kann daneben eingepasst werden.
Für beide Alternativen ergeben sich unterschiedliche
Seitenverhältnisse
. Für den Fall, dass
ist wird
im folgenden einfach der Kehrwert
betrachtet. Die
Seitenverhältnisse sind also immer kleiner oder gleich eins. Um zu
entscheiden, welche Alternative gewählt wird, um das neue Rechteck
anzufügen, wird das Seitenverhältnis herangezogen, da es
ermöglicht optisch leichter zu erfassende Rechtecke mit
ausgeglichenem Seitenverhältnis nahe bei 1 gegenüber länglicheren
zu bevorzugen. In diesem Auswahlschritt findet die
,,squarification`` statt - die Rechtecke sollen so eingepasst
werden, dass sie möglichst eine quadratische Form erhalten.
Dieser Schritt wird für die folgenden und kleiner werdenden Rechtecke wiederholt, wie in den folgenden Zeilen der Abbildung 2.7 dargestellt. Rechtecke können dabei sowohl horizontal als auch vertikal angefügt werden.
In der letzten Zeile ist das Endergebnis dargestellt und zum Vergleich das Ergebnis, das man erhält, wenn man die Flächenaufteilung wie in einem gewöhnlichen Balkendiagramm vornimmt. Insbesondere bei den sehr schmalen Teilrechtecken ist das Einpassen einer weiteren tieferen Hierarchieebene in optische ansprechender Form kaum noch möglich.
![]() |
![]() |
Soll die Anzahl der Geräte nach kategorialen Merkmalen wie z.B. ,,Krankenhaus`` und ,,Gerätebezeichnung`` gruppiert angegeben werden, so eignen sich zur Darstellung dieser Zahlen Balkendiagramme. Ein Balken repräsentiert dann z.B. ein Krankenhaus, und die Rechtecke, aus denen ein Balken zusammengesetzt ist, repräsentieren die Anzahl der Geräte in den betrachteten Gerätegruppen des Krankenhauses. Möchte man nicht die absoluten sondern die relativen Geräteanzahlen vergleichen, so normiert man die Gesamtzahl der Geräte in einem Krankenhaus auf 100%. Die tabellarische Anordnung dieser Zahlen nennt man Kreuz- oder Pivot-Tabelle.
Ein Problem bei der Darstellung einer Kreuztabelle durch ein
Balkendiagramm ist, dass es sehr viele verschiedene Möglichkeiten
gibt die Kreuztabelle darzustellen. Da die Kategorien keine
natürliche Ordnung besitzen, können sie beliebig angeordnet
werden. Für eine Kreuztabelle mit dem Merkmal A (
verschiedene Kategorien) und Merkmal B (
verschiedene
Kategorien) ergibt sich eine Anzahl von
verschiedenen
Anordnungen der Kategorien mit jeweils verschiedenen
Balkendiagrammen. Welches Diagramm ist für eine übersichtliche
Darstellung der Zahlen zu wählen?
Günstig auf die visuelle Wahrnehmung wirkt es sich aus, wenn das Balkendiagramm einen möglichst geordneten Eindruck macht - insbesondere lassen sich so auch leicht Gruppen von Kategorien erkennen. Der Eindruck eines geordneten Balkendiagramms lässt sich zumindest näherungsweise dadurch erreichen, dass man die Sortierung der Kategorien so wählt, dass die Rechteckkanten zu gleichen Kategorien benachbarter Spalten möglichst dicht beieinander liegen (siehe Abbildung 2.8). Diese Minimalbedingung lässt sich mit den Bezeichnungen aus Abbildung 2.8 schreiben als
![]() |
(43) |
Die Spalten sind dabei von
bis
und die
Rechtecke der Spalten mit
bis
numeriert. Für auf
100% normierte Balken sind die
, da die Spalten
alle gleich hoch sind.
Diese Summe ist nun für alle Permutationen
der Kategorien der Merkmale
und
zu bestimmen. Für
ergeben sich ca. 0.5 Millionen Möglichkeiten. Für
sind es schon ca. 25 Millionen und für
sind es gar 16 000 Millionen. Will man mittels ,,brute-force``
das Minimum ermitteln, so ist das nur noch bei sieben Kategorien
pro Merkmal mit zeitlich vertretbarem aufwand möglich. Sollen
Merkmale untersucht werden, die über mehr als sieben Kategorien
verfügen, so können bis auf die sechs häufigsten Kategorien alle
restlichen in der siebten Kategorie ,,sonstige`` zusammengefasst
werden (siehe Abbildung 2.9).
Einen Algorithmus, der auch für größere Anzahlen von Kategorien eine wenn auch nicht optimale aber dennoch brauchbare Lösung bei vertretbarer Laufzeit ermittelt, konnte in dieser Arbeit nicht gefunden werden. Das Problem hat Ähnlichkeit zum Traveling-Salesman-Problem, für das eine Reihe solcher Lösungen existiert. Da bei diesem Problem jedoch nicht nur ein Merkmal sondern zwei zu sortieren sind, können die Algorithmen zur Lösung von Traveling-Salesman-Problemen nicht verwendet werden. Das entwickeln eines neuen Algorithmus ist im Rahmen dieser Arbeit nicht gelungen. Es zeigt sich aber auch häufig, dass ab der sechst-häufigsten Kategorie die Häufigkeiten schon so stark abgefallen sind, das das Diagramm davon kaum noch beeinflusst wird.
Hat man Entitäten oder Gruppen von Entitäten
, denen zwei
metrische Merkmale
und
zugeordnet werden können, so
ist zunächst die Frage von Interesse, ob zwischen diesen
Merkmalen ein Zusammenhang (Korrelation) besteht. In diesen Fällen
hilft die Korrelations- oder Regressionsanalyse weiter. Zum
Beispiel können die
Gerätegruppen sein, Merkmal
kann
die Anzahl der Geräte und Merkmal
kann die Summe der
Kaufpreise der Geräte sein jeweils für die Gruppe
. Findet
sich nun ein linearer Zusammenhang zwischen
und
, so
kann man die Steigung dieses linearen Zusammenhangs als über die
Gerätegruppen hinweg existenten mittleren Kaufpreises pro Gerät
interpretieren, den man durch eine Regressionsanalyse bestimmen
kann.
Lässt sich jedoch keine Korrelation zwischen den Merkmalen
finden, so kann man dennoch ggf. wertvolle Informationen
gewinnen: Es liegt eine ausreichend deutliche Ungleichverteilung
der Merkmale
und
in den Gruppen
vor, die eine
Einteilung in verschiedene neue Gruppen erlaubt. Es können im
obigen Beispiel sich für die verschiedenen Gerätegruppen deutlich
unterschiedliche mittlere Kaufpreise ergeben, die Anzahl der
Geräte also unabhängig von der Summe der Kaufpreise sein.
Gegebenenfalls sind die Unterschiede der mittleren Kaufpreise
sogar so groß, dass sie eine neue Einteilung der Gerätegruppen
rechtfertigen.
Zur Beurteilung der Stärke der Ungleichverteilung sollen die im folgenden vorgestellten Lorenzkurve und der Gini-Koeffizient verwendet werden (z.B. [12] Seite 52).
![]() |
Zum Erstellen einer Lorenzkurve sortiert man die Gruppen
mit
aufsteigend oder absteigend nach dem
Quotienten
. Dann ordnet man den sortierten
jeweils
die kumulierten
![]() ![]() |
(44) |
zu. Dann kann man die kumulierten
und
noch als
![]() ![]() |
(45) |
auf eins normieren und als sog. ,,Lorenz- oder
Konzentrationskurve`` mit Definitions- und Wertebereich
auftragen. Als Beispiel sind in Abbildung
2.10 zwei Lorenzkurven zu den Werten ((5,45),
(7,91), (3,20), (6,62), (5,57) und zu den Werten ((10,21),
(1,71), (5,77), (7,12)) angegeben. Die größere Ungleichverteilung
in der zweiten Wertereihe lässt sich anhand der stärker gebogenen
Lorenzkurve deutlich erkennen. Zur objektiven Beurteilung der
Wölbung kann man die in Abbildung 2.10
eingezeichneten Flächen heranziehen: je größer die
Ungleichverteilung desto größer die Wölbung der Lorenzkurve desto
größer die Fläche zwischen Lorenzkurve und der gedachten Line
durch die Punkte (0,0) und (1,1). Diese Fläche wird als
,,lorenzisches Konzentrationsmaß`` oder ,,Gini-Koeffizient``
bezeichnet.
Neben dem Gini-Koeffizienten gibt es noch eine Reihe anderer
Ungleichverteilungskoeffizienten. Ein Vorteil des
Gini-Koeffizienten - seine anschauliche Interpretation als
Fläche der Lorenzkurve kann auch als Nachteil gedeutet werden:
der Zahlenwert hat keine praktische Bedeutung und besitzt eine
komplizierte Berechnungsvorschrift. Diese Nachteile besitzt der
Hoover-Ungleichverteilungskoeffizient
nicht [13]. Er
berechnet sich zu
![]() |
(46) |
Die Berechnung des Koeffizienten ist einfach und damit transparenter als beim Gini-Koeffizienten. Außerdem kann man den Zahlenwert des Hoover-Koeffizienten als den Anteil interpretieren, der umverteilt werden muss, um eine Gleichverteilung zu erhalten.
Andere Koeffizienten quantifizieren die Ungleichverteilung anhand von Entropiebetrachtungen der zu untersuchenden Verteilung. Diese Koeffizienten lassen rich zwar schlüssig aus der Theorie ableiten, setzten aber auf den wenig anschaulichen Begriff der Entropie auf und werden deswegen in dieser Arbeit nicht zur Untersuchung herangezogen.