Die (vermeintliche) Wunderwaffe NPS

Der Net Promoter Score ist die bekannteste Kennzahl zur Messung der Kundenloyalität. Wer den NPS noch nicht kennt, findet bei Textbroker eine ausgewogene Beschreibung.

Wir Online Market(i)er(e) und Researcher (egal ob Brand, UX oder MaFo) haben es bisher noch nicht geschafft, eine robuste und skalierbare Echtzeit-Metrik zur Erhebung der Nutzerloyalität oder der Nutzerzufriedenheit als zuverlässigen Standard zu definieren. Sicherlich ist dies einer der Gründe, weshalb der NPS auch heute noch in vielen Firmen eingesetzt wird. Daraus sollte jedoch nicht fälschlicher Weise abgeleitet werden, dass diese weite Verbreitung für dessen Qualität spricht.  

Da sich bis heute erschreckend wenige kritische Blog-Artikel zum NPS im Netz finden, möchten wir an dieser Stelle gerne ein paar besonders heikle Punkte mit Euch diskutieren. Ich nehme dabei vorerst eine primär kritische Perspektive ein, was nicht bedeutet, dass der NPS in jeglicher Hinsicht “böse” ist.

Alles wissenschaftlich belegt.
Oder auch nicht.

Los geht es direkt durch die Vordertür: Der NPS hat keine wissenschaftliche Basis und ist kein ausreichend validiertes Konstrukt! Autsch. Schaut man sich bisherige Publikationen zum Thema an, findet man schnell heraus, dass die Studienlage hier völlig unklar ist. Vielmehr finden sich eine Menge negativer Fazits (z.B. 1, 2, 3, 4, 5). Auch die von Reichheld festgestellte Korrelation mit dem Wachstum einer Firma (z.B. 1, 2) wurde in vielen Studien widerlegt (z.B. hier). Soviel schonmal dazu.

FunFact:
Der NPS wird für gewöhnlich gemeinsam mit dem Registered Trade Mark Symbol dargestellt. Warum? Weil Bain & Company (eine Firma, die den NPS ursprünglich gemeinsam mit Satmetrix Systems und Fred Reichheld entwickelt hat) die Markenrechte besitzt. Möchte man die Skala im Rahmen eines Programms anbieten, benötigt man die entsprechende Lizenz dazu – kostenpflichtig, versteht sich.

Immerhin wird da was gerechnet!
Nur: Was denn eigentlich?

Nüchtern betrachtet basiert der NPS auf “schlechter Mathematik”: Er nutzt zur Beantwortung der Frage nach der Wahrscheinlichkeit einer Weiterempfehlung eine 11-Punkte-Skala mit Werten zwischen 0 und 10. Somit handelt es sich hierbei also um eine sogenannte unipolare Fragestellung (ein Ergebniswert zwischen 0 und 1). 

NPS - Die SkalaDie Wertegruppen des NPS

Blöd nur: Die Interpretation verläuft schlussendlich bipolar (Detraktoren vs. Promotoren; ein Wert zwischen -1 und 1). Die Werte von 0-6 werden zur Gruppe der Detraktoren, Werte von 7-8 zu den Passiven und die Werte von 9-10 zu den Promotoren gezählt. Schon an dieser Stelle steht daher der Vorwurf im Raum, dass die Metrik letztendlich nur bedingt valide sein könnte.

Validität:
Grad an Genauigkeit, mit der dasjenige Merkmal oder diejenige Verhaltensweise, das bzw. die hier gemessen werden soll,  auch wirklich gemessen wird. Siehe auch Operationalisierung

Eine Bewertung mit 0-6 entspricht der Aussage “eine Weiterempfehlung ist nicht wahrscheinlich”, was sich semantisch durchaus stark von der Aussage unterscheidet, ein “Gegner” von etwas zu sein bzw. negative Attribute zu assoziieren. Die Interpretation ist hier inkonsistent mit der genutzten Skala, was die Wahrscheinlichkeit eines Missverständnisses auf Nutzerseite dramatisch steigert. Dieses Problem schreit geradezu nach einem Wechsel auf eine bipolare Likert Skala (z.B.: -5, -4, -3, -2, -1, 0, 1, 2, 3 ,4 ,5), da eine solche Skala einer für den Nutzer kaum misszuverstehenden Bewertung zwischen den Polen  “Empfehlung NICHT zu nutzen” und “Nutzungsemfpfehlung” entsprechen würde (mehr dazu u.a. hier).

Übrigens: Die Antworten auf Fragen nach der Zufriedenheit und dem Gefallen sagen eine wirkliche spätere Weiterempfehlung durch den Kunden besser vorher (sind also bessere Prädiktoren), als ein direktes Nachfragen nach der Wahrscheinlichkeit zur Weiterempfehlung (Quelle). Aber das nur am Rande.

Markt- und Grenzübergreifend einsetzbar.
Oder auch nicht.

Ein sehr großes Problem für den weltweit eingesetzten NPS sind nicht berücksichtige Antworttendenzen. Es gehört zur Standardausbildung in der Fragebogenkonstruktion, solche Tendenzen bei der Formulierung von Surveyfragen im Hinterkopf zu behalten – oder Fragebögen entsprechend an auf die Zielgruppe anzupassen. Auch dieses Problem wird in Forschungsartikeln (s.o.) mehrfach aufgegriffen, da es im Kontext der NPS-Anwendung überhaupt nicht berücksichtigt wird.  

Hier ein plakatives Beispiel zur Relevanz der Kultursensitivität:

Tendenz zur Milde bzw. Härte
Wenn Du einen US-Amerikaner nach seiner Meinung zum soeben voller Stolz aufgetischten selbstgebackenen Schokomuffin befragst, neigt dieser dazu, Dir ein völlig überzogenes (“extremes”) Feedback zu geben. So wird der Muffin schnell zum “best ever”! Andere Dinge sind auch gerne “huge”, “stunning” oder “mindblowing” (so wie grundsätzlich auch jedes neue Appleprodukt). Die Alternative ist dann das genaue Gegenteil: Dein liebevoll mit Zuckerguss aufgehübschter Muffin ist dann plötzlich einfach nur “miserably bad” – und Dein Back-Ego versinkt im Küchenboden. Diese Form der Antwortdendenz nennt man in der Psychologie auch
Tendenz zur Milde bzw. Härte.

Tendenz zur Mitte
Die Deutschen hingegen haben eine eigene Redewendung für ein stereotypisches, deutsches Verhalten: Sie finden stets das Haar in der Suppe. Egal, wie hervorragend etwas ist – man könnte stets noch dies oder das verbessern. Beispielsweise farbige Zuckerkugeln auf den sonst genialen Muffin kippen. Genauso selten ist etwas entsprechend grundsätzlich schlecht. Diesen Effekt nennt man
Tendenz zur Mitte, auch Extremscheue genannt, welche eine Tendenz beschreibt, bei der bei mehrstufigen Skalen (z. B. Likert-Skalen) eher die mittleren Skalenpunkte ausgewählt werden. Ein sinnvoller Vergleich zwischen Unternehmen unterschiedlicher Natur und über Grenzen hinweg ist hier daher, sagen wir mal: ausgesprochen schwierig.

Dieses Problem wird umso kritischer, wenn Skalenpunkte nicht klar definiert bzw. verständlich sind (Mehrdeutigkeit, siehe “schlechte Mathematik”). Das Sahnehäubchen kommt jedoch erst: Ein Teil der Punkte (und somit der Userantworten) wird im Score überhaupt nicht berücksichtig. Beim NPS bilden die Skalenpunkte 7-8 die Gruppe der sogenannten “Passives”. Zur Berechnung des Scores wird jedoch nur der prozentuale Anteil an Detractors vom Anteil an Promoters abgezogen – die Passives fallen einfach komplett durch das Raster. Großes Kino.

NPS - Die BerechnungDie Berechnung des Scores

Durch ein solches Vorgehen verliert man stets an statistischer Power und an Präzision, da auf diese Weise Datenpunkte willkürlich bewertet und aus der Stichprobe geworfen werden. Bevor ich nun auch noch über so geschaffenen zwei Konfidenzintervalle schwadroniere und Euch langweile: Wer mehr über die Nachteile dieses “top-box-minus-bottom-box” Ansatzes lesen möchte, sollte sich das Buch Quantifying the User Experience gönnen (S. 52 ff). Übrigens: Ihr erinnert Euch an die Tendenz zur Mitte? Was sagt Euch diese Antworttendenz nun über die Gruppe der Passiven und die isolierte Aussagekraft des NPS z.B. auf dem deutschsprachigen Markt? 🙂

Eine klare Stärke ist der Benchmark.
Oder auch nicht.  

Der Score ist in seiner Interpretation alles andere als reliabel, insbesondere im Kontext eines Vergleichs zwischen Firmen. Wie Ihr spätestens jetzt wisst, wird zur Berechnung des Scores der prozentuale Anteil an Detractors vom prozentualen Anteil an Promoters abgezogen. Nun, hier mal zwei Beispiele:

  • Eine Firma hat 20% Promoter, 80% Passives und 0% Detractor
  • Eine andere Firma hat 60% Promoter, 0 % Passives und 40% Detractor

Was haben diese beiden Firmen nun gemeinsam? Genau. Einen NPS von 20Schon auf diesem Level haben wir also keine Ahnung mehr, wie sich der Score zusammengesetzt hat. Möchte man weiter eintauchen (Beispielfrage: Bestehen die 40% Detraktoren zu 100% aus Nullen oder Sechsen? Ein gewaltiger qualitativer Unterschied!), hat man komplett verloren.

Und alle so: Yaay!

Kundenloyalität messen. Überall.
Oder auch nicht.

Ursprünglich wurde der NPS entworfen, um die Einstellung bzw. Wahrnehmung von Käufern (!) von Produkten oder Services zu erheben – und somit ausdrücklich nicht aller Kunden. Es gibt diverseste Möglichkeiten, beim Kunden ein Feedback mit direktem Bezug z.B. zu einem zuvor durchgeführten Kauf abzuholen. Häufig wird der NPS jedoch ohne eine solche Zuweisung abgefragt, und zwar auf allen nur möglichen Kanälen. Online auf der Webseite, in Newslettern, ohne Segmentierung über alle Produkte hinweg…einfach überall. Auf Bewertungsportalen kann es so auch schon mal passieren, dass über den NPS ein Feedback zu einem Fernseher, Buch, Hotel o.ä. abgegeben wird, statt zur Marke. Oder andersrum. Auf diese Weise kann man, wenn überhaupt, nur auf Umwegen herausfinden, wem oder was dieses Feedback ursprünglich überhaupt gelten sollte. Von der Kontrolle auf nutzlose Feedbacks mal ganz abgesehen.

Generell liegt es auch in der Natur von Selbstreports, dass die gewonnenen Daten den oben schon einmal angesprochenen Antworttendenzen unterliegen. So gibt es hier beispielsweise die kognitive Verzerrung oder auch die allseits bekannte soziale Erwünschtheit. Ob ein Kunde also voraussagt, dass er ein Produkt oder einen Brand weiterempfehlen würde, heißt nicht zwangsläufig, dass er das auch tun wird. Noch wertloser ist diese Aussage natürlich, wenn er bisher gar nichts gekauft/keinen Service in Anspruch genommen hat und einfach nur antwortet, weil er oder sie halt gerade gefragt wird (#targeting).

Die gute Nachricht:
Der NPS kann auch anders

Selbst begeisterte NPS-Missionare geben (meistens) zu, dass der NPS nur einen eingeschränkten Mehrwert bietet, wenn nicht auch zusätzlich erhoben wird, weshalb ein Nutzer eine entsprechende Bewertung abgegeben hat. Denn nur direkt gekoppelt an das “warum”, das gezielte Hinzufügen von weiteren Fragen und das Sammeln von diesen Daten über einen längeren Zeitraum hinweg lässt sich mit diesem Datensatz auch wirklich sinnvoll arbeiten. 

Erin Bradner von Autodesk skizziert im (ebenfalls empfehlenswerten) Buch Measuring the User Experience ein wunderbares Beispiel: Zusätzlich zum NPS hat man bei Autodesk die User nach der generellen Produktqualität, dem Produktwert sowie nach der Einfachheit der Anwendung befragt, um auf diese Weise die “Treiber” einer guten UX zu isolieren. Anhand einer multiplen Regressionsanalyse mit dem NPS als abhängige Variable und den Zusatzfragen als unabhängige Variablen konnte man herausfinden, welche der drei Attribute signifikant dazu beitragen, den NPS positiv zu beeinflussen. Auf diese Weise ließ sich beispielsweise folgende These aufstellen:

Wenn wir die Zufriedensheitswerte für die Einfachheit der Bedienung erhöhen (die anderen beiden Faktoren jedoch belassen wie sie sind), sollten wir eine Wahrscheinlichkeitssteigerung um 5% erhalten, dass Leute uns weiterempfehlen.

Und schwupps: So war es dann auch. Natürlich gibt es auch andere Positivbeispiele, z.B. bei Hotwire. Und vereinfacht gesagt: Solche Positivbeispiele erklären auch den “Erfolg” des NPS, der sich hier mehr oder minder im Lichte guter Prozesse sonnt. Es ist nämlich IMMER empfehlenswert für eine Firma, die Erfahrungen der Nutzer zu erheben! Entsprechend differenzierte Herangehensweisen helfen stets dabei, die Schwierigkeiten auf Kundenseite besser zu verstehen. Der Score selbst ist hierbei jedoch nur ein Mittel zum Zweck. Statt dem NPS kann man auch aus einer Fülle aus anderen Metriken als abhängige Variable wählen. 

Kein Score, sondern ein Prozess

Hier stimme ich Richard Burns uneingeschränkt zu, wichtig hierbei ist einzig und allein der Prozess selbst: Dem User zuhören, die Daten genau anschauen, Cluster bilden, priorisieren etc. Durch gezieltes Aufspüren von Attributen auf die Bedürfnisse des Users eingehen. DAS ist der Dreh- und Angelpunkt! 

Man könnte auch andere, auf die eigenen Bedürfnisse zugeschnittene Skalen benutzen. Vielleicht auch eine System Usability Scale (SUS), die zu .632 (p<0.001) mit dem NPS korreliert (Quelle). Eine bipolare Skala. Vielleicht sogar eine ganz einfache Stimmungsskala. Bei Beachtung der hier diskutierten Schwachstellen finden sich auf dem Markt sehr gute Alternativen.

Mein persönliches Fazit

Hört auf damit, den NPS isoliert zu erheben, zu kommunizieren oder gar die eigene Leistung daran zu messen. Das ist eine völlig simplifizierte Management-Metrik (#WirBrauchenEineUXKPI) mit zweifelhafter Aussagekraft. Der ganze Buzz um den NPS ist für meine Begriffe lediglich auf das gute Marketing der Erschaffer des NPS zurückzuführen. Der Score selbst ist jedoch vollkommen auswechselbar. Macht Euch Gedanken über einen für Euch passenden Prozess. Dann seid Ihr auf dem absolut richtigen Weg. Mit dem NPS. Oder ohne ihn.

Photo credit: sanickels via VisualHunt.com / CC BY-NC-ND

Jan
Jan
Autor
Psychologe, Web Analyst, Science Junkie, Star Wars Missionar und Gründer des Blogs

Hinterlasse einen Kommentar

Please enter your comment!
Please enter your name here