p-Wert: Affenbanner und Bananenverkauf

Was ist der p-Wert

Die (leicht)gängigsten Hyptothesentestarten im CRO Bereich sind ganz klar der t-Test und der Chi²-Test – und beide Tests haben mit vielen weiteren Testverfahren eine Sache gemeinsam: Sie liefern als Ergebnis u.a. einen sogenannten p-Wert. Darüber hinaus gibt es, auch das wird den meisten Lesern bekannt sein, ein sogenanntes Signifikanzniveau alpha, also eine für gewöhnlich vorher festzulegende “Akzeptanzgrenze”.

Den p-Wert korrekt zu erklären und zu verstehen ist zwar eher etwas für die Uni-Prüfung in Statistik I, kann jedoch auch durchaus mal dabei helfen, die kommunizierten Werte korrekt an die Stakeholder zu verkaufen. Also: Was ist denn nun der p-Wert?

Verkaufte Bananen

Angenommen, wir vergleichen zwei Startseiten miteinander. Eine der beiden Startseite enthält einen schicken Schimpansenbanner, die andere Startseite enthält keinen Banner. Gemessen wurde nun in beiden Bedingungen die verkaufte Menge an Bananen – und in der Bannergruppe wurden nach Durchführung unseres Tests im Durchschnitt mehr Bananen verkauft. Wir möchten an dieser Stelle natürlich wissen, ob es einen Effekt auf den Banner gab, also ob die beiden Populationen tatsächlich unterschiedliche Mittelwerte aufweisen.

Nun muss man sich folgendes klarmachen: Die alleinige Tatsache, dass wir bei unserer Stichprobe (≠ Population) unterschiedliche Mittelwerte erhalten haben, reicht nicht aus um den Schluss zu ziehen, dass die Mittelwerte in den Populationen (also in der hypothetischen Grundgesamtheit aller User) ebenfalls unterschiedlich wären. Der gemessene Unterschied könnte auch nur per Zufall aufgetreten sein und die beiden Populationen haben in Wirklichkeit den gleichen Mittelwert. Nachvollziehbar? Schauen wir uns das etwas genauer an:

Die Nullhypothese hilft

Klassischer Weise formuliert man für jedes Experiment eine sogenannte Nullhypothese, oder auch H0 genannt, in welcher man davon ausgeht, dass es keinen Unterschied in den Gruppen gibt – in unserem Fall würde die H0 daher lauten: Der Banner hat keinen Einfluss auf die Menge verkaufter Bananen.

Ausgehend von dieser Nullhypothese lässt sich der p-Wert folgendermaßen verstehen:

Kurzerklärung des p-Werts

Der p-Wert ist eine berechnete Wahrscheinlichkeit, also ein Wert zwischen 0 und 1, der eine numerische Antwort auf die folgende Frage liefert:

Davon ausgehend, dass die Populationen (!) in Wirklichkeit denselben Mittelwert haben: Wie wahrscheinlich ist es, dass bei einem Experiment dieser Stichprobengröße trotzdem ein solcher oder sogar größerer Unterschied zwischen den Gruppenmittelwerten auftritt, wie wir ihn gemessen haben?

Nochmal etwas leichter verständlich: Wir haben in unserem Experiment zwei Stichproben gezogen, eine aus Gruppe A (keinen Banner), eine aus Gruppe B (Affenbanner). Wichtig zu verstehen: Es sind nur Stichproben – das bedeutet, man hat nicht alle jemals möglichen User in den Gruppen gehabt, sondern nur eine kleine Teilmenge. Stellt Euch einfach ein klassisches Experiment für ein Medikament gegen Herzkrankheiten vor: Man testet dieses Medikament stets nur mit einer Teilmenge an Patienten, niemals mit allen herzkranken Patienten auf der Welt. Da wir also keinen vollumfänglichen Gruppenmittelwert haben, können wir bei dieser Stichprobenziehung zum Beispiel auch einfach Pech gehabt haben (Gruppe B hat zufällig überproportional viele Bananenesser auf der Seite gehabt). Ergo könnten die beiden Gruppen in Wirklichkeit, also in der Population, den gleichen Mittelwert haben. Der p-Wert berechnet eine Wahrscheinlichkeit für ein solches (oder größeres) Ergebnis bei einem Experiment dieser Stichprobengröße, unter der Voraussetzung, dass die Mittelwerte in Wirklichkeit gleich sind.

Die häufigsten Fehlinterpretationen des p-Werts

Wir haben festgestellt, dass der p-Wert etwas über die Wahrscheinlichkeit X (z.B. 1,5%) aussagt, dass ein solcher oder ein größerer Unterschied in den Gruppen gefunden wurde, auch wenn der Mittelwert in den Populationen identisch ist. Das ginge auch andersrum: Bei einer zufälligen (random) Ziehung aus identischen Populationen würde ein kleinerer Wert als Dein beobachteter Wert in 1-X (hier: 98,5 %) Deiner Experimente auftreten, ein größerer hingegen in X % (hier: 1,5%) der Fälle.

Falsch hingegen sind Aussagen wie: 

Es gibt eine 98,5%ige Wahrscheinlichkeit, dass der Unterschied den wirklichen Unterschied widerspiegelt, und eine 1,5%ige Wahrscheinlichkeit, dass der Unterschied zufällig war.

Der p-Wert ist die Wahrscheinlichkeit, dass meine Nullhypothese korrekt ist.

Der Wert 1-p ist die Wahrscheinlichkeit, dass meine Alternativhypothese korrekt ist.

Ein hoher p-Wert zeigt, dass meine Nullhypthese korrekt ist

Der p-Wert zeigt die Wahrscheinlichkeit, dass mene Nullhypothese verworfen wird.

War die Erklärung hilfreich? Kennt Ihr noch andere, typische Interpretationsfehler? Findet Ihr einen Fehler im Text 🙂 ? Oder habt Ihr Fragen zum p-Wert? Dann hinterlasst doch einfach einen Kommentar!

Jan
Jan
Autor
Psychologe, Web Analyst, Science Junkie, Star Wars Missionar und Gründer des Blogs

Hinterlasse einen Kommentar

Please enter your comment!
Please enter your name here