A/B Tests und was man falsch machen kann

Ich schätze, also weiß ich? 

Bei einem sogenannten A/A Test gibt es keine Alternativvariante – man teilt den Traffic in zwei Gruppen, präsentiert jedoch beiden Gruppen ein und dieselbe Originalvariante. Man kann sich nun natürlich zurecht fragen: Wozu das Ganze? Die Idee ist, dass man auf diese Weisedas Testsetup auf seine Funktionalität hin überprüfen kann – bei zwei identischen Varianten und gleicher Zielgruppe sollte es, sollte man auf den ersten Blick annehmen, unabhängig von der Natur der gemessenen Metrik keine signifikanten Unterschiede in den Messwerten geben. Klingt erstmal einleuchtend.

Vielleicht habt Ihr selbst schon einmal einen solchen A/A Test aufgesetzt – und seid später völlig frustriert vor Eurem Testergebnis gesessen.  Beispielsweise konvertierte Euer CTA Button “abonnieren” in der einen Gruppe um 400% besser als in der zweiten Gruppe. Vierhundert Prozent – wow, am besten schnell live nehmen! Ach ne, isser ja schon.

Also was ist hier falsch gelaufen? Das Management resumiert nun vermutlich: Unser Setup taugt nichtsWie will ich eine “bessere” Voraussage z.B. gegenüber einer HIPPO Entscheidung treffen, wenn das Setup mir bei einer Nullvariation eine anregende Uplift-Erfolgsgeschichte erzählt? Dieses Szenario ist nicht an den Haaren herbei gezogen, sondern kann von jeder Leserin und jedem Leser mit ausreichend Zeit & Stressresiszenz reproduziert werden.

A/B Tests sind also eine unsichere Geschichte, das ist das Brimborium nicht wert. Schluss, aus und vorbei. Jetzt, wo das endlich gesagt wurde, kommt man vielleicht sogar etwas schneller voran, denn der Bau eines Tests und das teilweise langwierige Diskutieren der Ergebnisse kann einen einiges an Zeit kosten, die man sicherlich auch produktiver hätte nutzen können.  

Das oben genannte Fazit ist tatsächlich nicht grundsätzlich falsch, gilt jedoch nur dann, wenn der Marketer, Product Manager o.ä. nicht so richtig weiß, was zu einem soliden Testsetup dazugehört und wie er seine Zahlen interpretieren sollte.

Mit dieser Einleitung möchte ich den Startpunkt für wohl zukünftige weitere Blogartikel zu diesem Thema setzen. Damit der Text hier nicht abrupt endet und den Leser noch frustrierter zurücklässt, als er es nach der oben (natürlich nicht ganz ernst gemeinten) Aussage eh schon ist, hier zwei klassische Fehler bei der Betrachtung von Testdaten:

  1. Man “stöbert” viel zu früh in den Daten 
  2. Man weiß nicht, was eine Statistik “sagt”

Zu früh in den Daten herumstöbern

Insbesondere Sozial- und Geisteswissenschaftlicher haben es hier etwas leichter: Möchte man beispielsweise ein Medikament gegen ein anderes Medikament testen, gehört es für gewöhnlich zum guten Standard, vor der Durchführung der Studie zumindest eine grobe zu erfüllende Stichrobengröße zu definieren (fixed horizon) – das ist schon organisatorisch kaum anders realisierbar, da Ressourcen eingeplant werden müssen. Die Studien werden durchgeführt, Daten werden gesammelt – und nach Erreichung der vereinbarten Probandenzahl setzt man sich bei 2 Liter Café an das Statistikprogramm persönlicher Präferenz. Kaum ein Psychologe würde seinen Datensatz schon nach einigen wenigen Probanden durch den t-test jagen, es sei denn, ihm ist unfassbar langweilig.

Bei uns ist das anders: Der PM kommuniziert stolz den Launch eines A/B Tests an seine Vorgesetzten und drei Stunden später wird das erste Mal in die Google Analytics Daten geschielt – und nach dem Mittagessen wieder – und am nächsten Tag dann schon das fünfte Mal, schließlich ist man tierisch gespannt, ob man mit seinem Bauchgefühl richtig lag. Und siehe da: 20 Visitor später grinst der PM schon wie ein Honigkuchenpferd, denn die Variante performt um den Faktor 2 besser als das Original (Beispiel: 3 Conversions gegen 1 Conversion) – good job!

Das Problem des sogenannten “continous monitorings” (ich-schaue-einfach-ständig-in-die-Daten, siehe Kasten) ist natürlich, dass man ggf. noch keine ausreichende Stichprobengröße erreicht hat und somit zwar ein derzeit statistisch signifikantes Ergebnis vorfindet, dieses jedoch keinerlei Aussagekraft hat (siehe Beispiel oben). Abhilfe kann hier z.B. ein Stichprobenrechner schaffen, wie man ihn häufig im Netz findet. Wenn dieser eine Mindeststichprobengröße von 3000 Visitors pro Bedingung empfiehlt, sollte man es (vereinfacht ausgedrückt) tunlichst unterlassen, sich nach 20 Visitors überhaupt erst in Google Analytics einzuloggen. Fazit: Sich der Notwendigkeit einer ausreichend großen Stichprobengröße bewusst zu sein und im Idealfall davon abzusehen, vorzeitig den Datensatz zu interpretieren, ist ein guter Anfang. Auswertungshilfen wie z.B. die Stats Engine von Optimizely erleichtern einem hier übrigens die Arbeit: Durch sequentielles Testing werden frühzeitige Falschaussagen so gut es geht vermieden und es wird nur dann ein Ergebnis als signifikant bewertet, wenn das System von einer ausreichenden Stichprobengröße ausgehen kann.

Nicht wissen was eine Statistik “sagt”

Ein statistisch signifikantes Testergebnis ist vor allem eine Sache nicht: Eine Abbildung der (zu prognostizierenden) Wirklichkeit. Das wird sehr häufig falsch verstanden. Ein statistisch relevantes Ergebnis gibt keine Garantie für ein Ereignis in der Zukunft, es dient nur als “besserer Schätzer” als dies ein Münzwurf oder eine Bauchentscheidung wäre. Man arbeitet bis zuletzt mit Wahrscheinlichkeiten. Hat man dies verstanden, ist schon viel gewonnen. Am Beispiel oben wird so z.B. klar, dass selbst ein signifikantes Ergebnis im Rahmen eines A/A Tests nicht die Wirklichkeit abbildet, sondern nur eine berechnete Wahrscheinlichkeit für ein Ereignis darstellt.

Soll heißen: Ein A/B Testergebnis wird niemals ein Garant für Erfolg sein, das kann und will es gar nicht. Es reduziert lediglich das Risiko gegenüber einem schlechten Schätzer (Münzwurf). Was bei “riskanten” Entscheidungen helfen kann: Den Test (mehrmals) wiederholen.

Jan
Jan
Autor
Psychologe, Web Analyst, Science Junkie, Star Wars Missionar und Gründer des Blogs

Hinterlasse einen Kommentar

Please enter your comment!
Please enter your name here