Die Tücken der Aggregation im Reporting

Dass sich genaues Hinschauen und Hinterfragen auch und insbesondere im Reporting lohnt, zeigt Tim Sonnenberg am Beispiel des Simpson-Paradoxons. Er plädiert zugleich für eine enge Zusammenarbeit zwischen Experten für Information Design und den Fachabteilungen, um Missverständnisse und daraus resultierende Fehlentscheidungen bei der Unternehmenssteuerung zu vermeiden.

Dass sich genaues Hinschauen und Hinterfragen auch und insbesondere im Reporting lohnt, zeigt Tim Sonnenberg am Beispiel des Simpson-Paradoxons. Er plädiert zugleich für eine enge Zusammenarbeit zwischen Experten für Information Design und den Fachabteilungen, um Missverständnisse und daraus resultierende Fehlentscheidungen bei der Unternehmenssteuerung zu vermeiden.

Aggregation im Reporting ist immer gut – oder etwa doch nicht? Im Bereich Information Design ist ein Arbeiten auf einer hochaggregierten Ebene gefragt. Schließlich sollen Dashboards für das Management Reporting den Entscheidern einen groben Überblick über die wichtigsten Kennzahlen des Unternehmens geben. Um tiefergehende Analysen zu ermöglichen, bieten solche Management Cockpits die Möglichkeit, Drill-Downs durchzuführen oder in eine Detailansicht abzuspringen.

Doch was ist, wenn die Aggregation der Daten zu falschen Entscheidungen führt? Das Dashboard an sich und sein zugrundeliegendes Konzept, Informationen schnell und verständlich zu vermitteln, werden dann ad absurdum geführt. Ein Dashboard kann noch so aussagekräftige Visualisierungen enthalten – wenn die Datenqualität nicht stimmt, steht das komplette Dashboard in Frage.

Ein berühmter Aggregationsfehler, der auch eine praktische Relevanz aufweist, ist das sogenannte Simpson-Paradoxon, das im folgenden Beispiel dargestellt wird. Dazu werden für die beiden Produkte A und B jeweils Testverkäufe in Hamburg und München durchgeführt:

Anzahl der Testverkäufe für die Produkte A und B in Hamburg und München; Quelle: eigene Darstellung

 

Die Unterteilung in Produkt A/B beschreibt in diesem Beispiel die sogenannte Zielvariable. Die Grundgesamtheit wird hier hinsichtlich des Untersuchungsgegenstands aufgeteilt. Die Unterteilung in Verkäufe/Versuche ist die Effektvariable. Sie beantwortet die Frage, ob der gewünschte Effekt eintritt oder nicht. Die Unterteilung in Hamburg/München ist die Einflussvariable und beschreibt eine weitere Einschränkung.

Für die einzelnen Ausprägungen des Beispiels wurden anschließend die bedingten Wahrscheinlichkeiten berechnet. Daraus wird ersichtlich, dass das Produkt A sowohl in Hamburg als auch in München das effektivere Produkt ist und mit einer höheren Wahrscheinlichkeit verkauft werden kann.

Wird nun eine Aggregation auf einer höheren Ebene und ohne Unterteilung in München und Hamburg, durchgeführt, ergibt sich ein anderes Bild:

Anzahl der Testverkäufe für die Produkte A und B; Quelle: eigene Darstellung

 

Auf dieser Aggregationsebene würde die Entscheidung zugunsten des Produkts B ausfallen. Es weist mit 62,86 Prozent eine höhere Kaufwahrscheinlichkeit auf, obwohl das Produkt A sowohl in Hamburg als auch in München für sich genommen führend ist.

Um ein besseres Verständnis für dieses statistische Problem zu schaffen, bietet sich die Möglichkeit einer Visualisierung. Als Vorbereitung darauf ist es notwendig, die oben dargestellte Tabelle ein wenig abwandeln:

Visualisierung der Testverkäufe für die Produkte A und B; Quelle: eigene Darstellung

 

Statt der Versuche insgesamt wird nun die Differenz zwischen Verkäufen und Gesamtversuchen angezeigt. Dies ermöglicht es, ein gestapeltes Balkendiagramm zu erstellen, welches auf die Gesamtsumme der Versuche aufaddiert.

Balkendiagramm zu Visualisierung der Testverkäufe für die Produkte A und B; Quelle: eigene Darstellung, cMORE/XL

 

Nun lässt sich sehr deutlich erkennen, dass die Erhebung für Produkt B auf einer viel größeren Grundgesamtheit basiert. Während in Hamburg eine gleiche Gewichtung und somit auch eine gute Vergleichbarkeit zwischen Produkt A und B besteht, ist festzustellen, dass das Produkt A in München stark unterrepräsentiert ist. Der Aggregationsfehler entsteht also aufgrund einer nicht ausbalancierten Gewichtung in München.

Natürlich sind die Fälle, in denen eine nicht ausbalancierte Gewichtung solch gravierende Auswirkungen hat, rar gesät. Das reale Beispiel eines angeblichen Diskriminierungsfalls an der Universität Berkeley (USA) zeigt jedoch, dass dieser Aggregationsfehler durchaus auch in der Realität auftreten kann.

 

Der „Berkeley gender bias case“

Die Universität Berkeley wurde 1973 verklagt, da es offensichtlich einen großen Unterschied bei der Zulassungsrate für das Studium zwischen Männern und Frauen gab:

Erste Darstellung der Zulassungsrate; Quelle: wikipedia.org, Stichwort: simpson paradox

 

Diese Abweichung konnte nicht mehr mit einer entsprechenden Varianz erklärt werden. Die Ankläger schlussfolgerten, dass Frauen an der Universität diskriminiert werden. Im Zuge der Ermittlungen wurde dann eine Untersuchung auf Fachbereichsebene (departments) durchgeführt, die zu einem gänzlich anderen Ergebnis kam:

Überarbeitete Darstellung der Zulassungsrate nach Fachbereichsebene; Quelle: wikipedia.org, Stichwort: simpson paradox

 

Offenkundig verteilen sich Männer und Frauen nicht zufällig auf die einzelnen Departments. Vielmehr bewerben sich Männer tendenziell eher bei Departments mit hohen und Frauen eher bei Departments mit niedrigen Zulassungsquoten. Bei der initialen Untersuchung jedoch wurden die unterschiedlichen Vorlieben von Männern und Frauen bei der Fachbereichswahl vollkommen außer Acht gelassen. Es trat der Effekt ein, dass eine stark unterschiedliche Gewichtung zu einem Aggregationsproblem führt und die Entscheider zu einer falschen Schlussfolgerung verleitet wurden.

Im Kontext Information Design stellt sich nun die Frage nach dem Aggregationsgrad von Dashboards bzw. ob eine Aggregation generell sinnvoll ist?

Auf jeden Fall zeigt das Simpson-Paradoxon ganz deutlich, warum eine enge Zusammenarbeit zwischen Information Designer und Fachbereich unabdingbar ist. Denn ohne den Input des Fachbereichs ist eine Beantwortung der ursprünglichen Frage oft nicht möglich. Obwohl sich die Fachleute für Information Design hauptsächlich mit einer standardisierten Darstellung von Daten beschäftigen, sollten auch immer der Kontext und die Problemstellung hinterfragt werden. Während der Visualisierung oder beim Designen des Dashboards sollten sie sich selbstverständlich auch die Daten auf einer feingranularen Ebene anschauen. Zudem ist eine zusätzliche Abstimmungsrunde mit dem Fachbereich gut investierte Zeit, wenn andernfalls die zur Verfügung gestellte Visualisierung zu einer falschen Entscheidung führt. Zu bedenken ist ferner, dass die Visualisierung bzw. das Dashboard immer stellvertretend für die Datenqualität steht und gegebenenfalls als erstes hinterfragt wird.

Am Ende sei noch kurz auf eine Website verwiesen, die das Simpson-Paradoxon eindrucksvoll visualisiert. Interessant ist, dass diese Seite von der Universität Berkeley betrieben wird, die damit also ihre eigene Historie aufarbeitet. Die Visualisierungen sind zwar nicht nach den klassischen Prinzipien des Information Designs erstellt, doch ist das Storytelling sehr schön umgesetzt, und die Visualisierungen tragen zum besseren Verständnis des Aggregationsproblems bei. Es lassen sich sehr dynamisch verschiedene Szenarien durchspielen, und man kann erkennen, unter welchen Gegebenheiten ein Simpson-Paradoxon auftritt.

http://vudlab.com/simpsons/

Visualisierung des Simpson-Parodoxon - detailllierte Darstellung über den hinterlegten Link

 

Quellen:

Auszug aus der Originaluntersuchung bezüglich des „berkeley sex bias“ case: http://www.unc.edu/~nielsen/soci708/cdocs/Berkeley_admissions_bias.pdf

Eine Aufbereitung zu dem Thema von der HS-Fulda: http://www2.hs-fulda.de/~grams/Denkfallen/Simpson.pdf

Interessanter Blogbeitrag zu dem Thema: http://www.significancemagazine.org/details/webexclusive/2671151/Simpsons-Paradox-A-Cautionary-Tale-in-Advanced-Analytics.html

Wikipedia: http://en.wikipedia.org/wiki/Simpson%27s_paradox