Anmeldung Newsletter

Was ist A/B-Testing? Guideline & Best Practices

Posted by Maxim Drejdink on 08.09.2020 13:25:51

Was ist A/B-Testing? Guideline & Best Practices

Wenn Unternehmen mit der Gpredictive-Software arbeiten, stellen sie sich natürlich die Frage, welchen Effekt der Einsatz der Software auf ihr Marketing und auf einzelne Kampagnen und Maßnahmen hat. Diese Frage lässt sich mithilfe verschiedener Testszenarien datenseitig genau beantworten. Nur durch sinnvolle Testdesigns ergibt sich die Möglichkeit zu prüfen, inwieweit eine Optimierungsmaßnahme den gewünschten positiven Effekt erzielt.

Eine Möglichkeit der Bewertung von Optimierungsmaßnahmen (und wahrscheinlich die meist angewandte) ist ein A/B Test. In diesem Blogbeitrag stellen wir Ihnen vor, worauf es ankommt, um einen sauberen A/B-Test für Ihre Marketing-Kampagnen aufzusetzen.

Übersicht
1. Warum überhaupt testen? 
2. Was ist ein A/B-Test und warum wird dieser angewendet?
3. Entscheidung für ein konkretes Testdesign
3.1 Einfacher A/B-Test
3.2 Überschneidungstest
3.3 Uplift-Vergleichstest
3.4 Uplift-Vergleichstest für unterschiedliche Kundengruppen
4. Durchführung eines A/B-Tests
5. Auswertung eines A/B-Tests
6. Fazit: Checkliste für die Durchführung eines A/B-Tests

1. Warum überhaupt testen?

Testen hilft dabei, die richtigen Entscheidungen zu treffen und Sicherheit bei Entscheidungsfindungen zu gewinnen. Immer wenn z.B. eine neue Marketing-Maßnahme eingeführt oder eine bestehende Maßnahme verändert wird (andere Selektionsart, anderes Werbemittel etc.), sollte diese Anpassung durch einen Test validiert werden. Nur so können Sie wirklich statistisch relevante und messbare Aussagen über von Ihnen vorgenommene Veränderungen treffen.

2. Was ist ein A/B-Test und warum wird dieser angewendet?

Ein A/B-Test ist eine Testmethode, die es ermöglicht, die Wirksamkeit einer Veränderung festzustellen. Das grundsätzliche Vorgehen ist bei den unterschiedlichen Ausprägungen eines A/B-Tests immer gleich:20200831 Blogpost A_B-Testdesign

20200831 Blogpost A_B-Testdesign20200831 Blogpost A_B-TestdesignAbbildung 1: grundsätzliches Vorgehen bei einem A/B-Test

Das Gesamtpotential (also alle Kunden, die für eine Marketing-Maßnahme infrage kommen) wird zufällig auf zwei Gruppen aufgeteilt, die sich darin unterscheiden, welche Marketing-Maßnahme angewandt wird: die neue Maßnahme (Testgruppe) vs. die bisherige Maßnahme (Kontrollgruppe).

Grundsätzlich folgt man damit zwei Prinzipien: Kontrolle & Randomisierung (“Goldstandard”):

- Unter Kontrolle versteht man, dass eine Testgruppe mit einer Kontrollgruppe verglichen wird. Erst so lässt sich beantworten, ob sich die Ergebnisse der neuen und der alten Maßnahme unterscheiden.

- Durch die zufällige Aufteilung (Randomisierung) wird gewährleistet, dass die Gruppen statistisch gleich sind und ein fairer Vergleich möglich ist. Würde man die Gruppenzuteilung nicht randomisiert vornehmen (z.B. nach Geschlecht, gerade vs. ungerade Kundennummern, Nord vs. Süd), sind die Ergebnisse nicht repräsentativ, da sich die Testgruppen zumindest in diesem Merkmal zwangsläufig unterscheiden und gefundene Effekte nicht ausschließlich auf die Maßnahmen zurückzuführen wären.


Eine 50/50 Aufteilung des Gesamtpotentials ist nicht zwangsläufig notwendig, es können auch andere Aufteilungsschlüssel festgelegt werden. Die einzige Bedingung ist, dass die kleinere der beiden Gruppen ausreichend groß ist, um signifikante Ergebnisse zu erzielen.

Der Vergleich der beiden Gruppen kann über unterschiedliche KPI's wie den Umsatz pro Kontakt, die Konversionsrate, Warenkorbgrößen oder den Uplift erfolgen.

Wichtig:

Ergebnisse, die auf Basis eines einzelnen Tests erzielt werden, bilden nur den kurzfristigen Effekt einer Veränderung ab. Bei Entscheidungen, die eine signifikante Veränderung des Marketingprogramms bedeuten, empfehlen wir einen längeren Testzeitraum, um die mittelfristigen Auswirkungen abschätzen zu können. 

3. Entscheidung für ein konkretes Testdesign

Um in den kommenden Ausführungen die verschiedenen Testdesigns zu beschreiben, gehen wir von folgendem Szenario aus, mit dem wir bei Gpredictive meistens zu tun haben:

Gpredictive-Nutzer selektieren ihre Kunden für ihre Marketingkampagnen bisher nach RFM-Kriterien (recency, frequency, monetary), die sie selbst oder in Kooperation mit einem Dienstleister entwickelt haben. Alternativ haben Gpredictive-Nutzer bereits Prognosemodelle im Einsatz, die sie selbst oder mithilfe eines Dienstleisters manuell entwickelt haben. Nun soll verglichen werden, welchen Unterschied Selektionen über in Gpredictive erstellte Prognosemodelle gegenüber dem bisherigen Vorgehen haben (Benchmark).

Zunächst wählt man dafür das passende Testdesign. Dieses hängt sowohl von dem Anwendungsfall als auch von den KPIs ab, die man gerne testen möchte. Die folgenden Variationen entsprechen im Grunde dem in Abbildung 1 vorgestellten Aufbau. Je nach Anwendungsfall können aber eine verschiedene Anzahl an Stufen der Kontrolle benötigt werden.

3.1 Einfacher A/B-Test:
Vergleich zweier Selektionen für die gleiche Kundengruppe

Bauen die Selektionsverfahren auf der gleichen Kundengruppe auf (z.B. Stammkunden oder Reaktivierungskunden), kann das folgende Testdesign genutzt und auf mögliche individuelle Bedürfnisse hin angepasst werden:

Das Gesamtpotential wird gemäß dem Aufteilungsschlüssel zufällig in zwei Kundenpotentiale geteilt: auf dem einen Potential (Standard-Verfahren) wird das bisherige Selektionsverfahren genutzt, auf dem anderen Potential (Gpredictive-Software) wird über die Gpredictive-Software selektiert. Die Top-Kunden der Selektionen gehen dann dem Aufteilungsschlüssel entsprechend (wie vorher definiert nach 50/50, 70/30 o.ä.) in die Gesamtauflage ein.20200831 Blogpost A_B-Testdesign (1)20200831 Blogpost A_B-Testdesign (1)

Abbildung 2: Testdesign beim “einfachen A/B-Test”

Vorteil des einfachen A/B-Tests:

Sehr einfaches Testverfahren, um eine Optimierungsmaßnahme zu bewerten.

3.2 Überschneidungstest:
Vergleich zweier Selektionen für die gleiche Kundengruppe mit Schnittmenge

Soll bei einem großen Gesamtpotential der zuvor von der Standard-Selektion angesprochene Kundenkern sicher in der Gesamtauflage enthalten sein, kommt ein Überschneidungstest in Frage. Der Unterschied zum einfachen A/B-Test liegt primär darin, dass die Aufteilung auf zwei getrennte Potentiale wegfällt. Das bisherige Selektionsverfahren (“Standard-Verfahren”) und die Gpredictive-Software-Selektion werden beide auf dem Gesamtpotential durchgeführt. Die daraus resultierende Schnittmenge fließt sicher in die Gesamtauflage ein. Die noch freien Plätze in der Gesamtauflage werden dann wieder gemäß eines Aufteilungsschlüssels mit den Top-Kunden nach Scores aufgefüllt.

Für die Erfolgsbewertung werden die disjunkten Mengen (Kontakte, die sich nicht in der Schnittmenge befinden) verglichen.

20200831 Blogpost A_B-Testdesign (1) copy20200831 Blogpost A_B-Testdesign (1) copyAbbildung 3: Testdesign beim Überschneidungstest

Vorteil des Überschneidungstests:

Bereits beim Aufsetzen des Tests ist ersichtlich, wie unterschiedlich die beiden Selektionen sind.

Geringeres Risiko, da die durch das etablierte Verfahren als “gute Kunden” bewerteten Kontakte in der Selektion enthalten sind.

Nachteil des Überschneidungstests:

Die Schnittmenge muss für die Auswertung wieder herausgerechnet werden. Das beeinträchtigt je nach Größe die statistische Aussagekraft des Vergleichs.

3.3 Uplift-Vergleichstest:

Vergleich zweier Selektionen für die gleiche Kundengruppe mit Uplift-Vergleich

Unter Uplift versteht man die zusätzlichen Auswirkungen einer Kampagne oder Maßnahme im Vergleich zu einem vorherigen Status-Quo. Interessiert man sich für den Uplift, den die verschiedenen Selektionsverfahren jeweils einzeln genommen erzeugen (gegenüber dem “Nichtstun”), vergleicht man zusätzlich jedes Selektionsverfahren mit einer eigenen Nullgruppe.20200831 Blogpost A_B-Testdesign (1) copy 220200831 Blogpost A_B-Testdesign (1) copy 2

Abbildung 4: Testdesign beim Uplift-Vergleichstest

Das Vorgehen beginnt wie unter dem einfachen A/B-Test: Das Gesamtpotential wird nach einem Aufteilungsschlüssel zufällig in zwei Potentiale geteilt:

- auf dem einen Potential wird das bisherige Selektionsverfahren genutzt

- auf dem anderen Potential wird über die Gpredictive-Software selektiert.

Pro Selektionsverfahren wird ein Kontaktpool an Top-Kunden gebildet. Dieser Top-Kunden-Pool enthält dann die nach dem jeweiligen Selektionsverfahren (Standardverfahren oder Selektion mithilfe der Gpredictive-Software) als gut bewerteten Kunden. Die Anzahl der Kunden pro Top-Kunden-Pool hängt von dem vorher festgelegten Aufteilungsschlüssel ab (50/50, 70/30 o.ä.).

Aus diesem Pool werden die Kunden dann zufällig auf die Test- und Nullgruppe verteilt. Damit muss der Kontaktpool der Top-Kunden so groß sein, wie die nachfolgende Testgruppe und Nullgruppe zusammen. Die Testgruppen gehen in die Gesamtauflage ein. Die Nullgruppen werden nicht beworben. So kann pro Selektion der Uplift der Testgruppe gegenüber der Nullgruppe berechnet werden (in relativen oder absoluten Zahlen). Im Anschluss können die Selektionsverfahren nun auch hinsichtlich ihres individuellen Uplifts verglichen werden.

3.4 Uplift-Vergleichstests für unterschiedliche Kundengruppen

Sollen Selektionen verglichen werden, die auf unterschiedlichen Kundengruppen aufbauen (z.B. Churn-Prevention VS. klassische Reaktivierung), wird das gleiche Testdesign angewendet wie beim Uplift-Vergleichstest. Dieses Testdesign ist bei unterschiedlichen Gruppen sinnvoll, da KPIs wie Kontaktwert oder Konversionsrate wenig aussagekräftig sind, wenn sich die angesprochenen Kundengruppen unterscheiden. So ist z.B. bei einer Churn-Prevention ohnehin von einer höheren Konversionsrate auszugehen als bei einer klassischen Reaktivierung, da beim ersten noch Bestandskunden und beim zweiten bereits inaktive Kunden angesprochen werden, die per Definition schon unterschiedlich agieren. Ein Vergleich der Raten könnte zu falschen Schlüssen führen.20200831 Blogpost A_B-Testdesign (1) copy 3

Abbildung 5: Testdesign beim Uplift-Vergleichstests für unterschiedliche Kundengruppe

4. Durchführung eines A/B-Tests

Vor der Umsetzung der Maßnahmen muss neben der Auswahl des richtigen Testdesigns eine Abstimmung über den Aufteilungsschlüssel erfolgen, also darüber, wie groß die Kontaktanzahl bei der Testgruppe vs. Kontrollgruppe und beim Uplift-Test zusätzlich auch bei der Testgruppe vs. Nullgruppe sein soll. Die Gruppen müssen nicht gleich groß sein, es ist auch möglich, die Gruppen nach 70/30, 80/20 o.ä. aufzuteilen.  Beide Gruppen müssen jedoch groß genug sein, um eine Signifikanz zu erzeugen. 

Mithilfe des Sample-Size-Calculator kann berechnet werden, wie groß die Kontroll- oder Nullgruppe mindestens sein sollte (die Testgruppe ist üblicherweise mindestens gleich groß oder größer). Um den Sample-Size-Calculator anwenden zu können, müssen folgende Informationen vorliegen:

- Die Baseline-Konversionsrate der bereits vorhandenen Alternative

- Der Effekt, der im Test mindestens messbar sein soll

Die Baseline-Konversionsrate ist typischerweise sehr einfach auf Basis vergangener Kampagnen zu bestimmen; sie stellt die durchschnittliche Konversionsrate der letzten (ähnlichen) Kampagnen dar. Den minimalen Effekt einer neuen Maßnahme richtig einzuschätzen ist deutlich schwerer. Grundsätzlich gilt: Je kleiner der Effekt, desto größer müssen die Gruppen ausfallen. Dabei gibt es keinen allgemein gültigen Richtwert. Es kommt eher darauf an, wie hoch man selbst den Effekt setzt, den man mindestens messen möchte und wie viele Kontakte man außerdem zur Verfügung hat. Was gut ist und was nicht, hat hier auch ein wenig mit Erfahrungswerten und Fingerspitzengefühl zu tun. Eine Interpretationsmöglichkeit ist: Wenn man mindestens 5% zusätzlichen Effekt in einem A/B-Test (unabhängig vom Testdesign) messen will, braucht man Auflage X (wird bspw. vom Sample-Size-Calculator automatisch berechnet) bzw. andersherum – es kann eine bestimmte Kontaktanzahl als Kontroll-/Nullgruppe selektiert werden, um damit einen Mindesteffekt von Y% zu messen.

Des Weiteren muss eine randomisierte Teilung des Potentials sichergestellt werden. Dies kann z.B. mithilfe eines Befehls in Excel (“RAND()”), in SQL (“RAND() <= 0.5”) oder mit anderen Methoden in Ihrem CRM, DWH, etc. durchgeführt werden.

5. Auswertung eines A/B-Tests

Um einen A/B-Test auswerten zu können, müssen zunächst die KPIs (z.B. Kontaktwert oder Konversionsrate) für alle Gruppen gesammelt und berechnet werden, sodass die Gruppen miteinander verglichen werden können. Um sicherzugehen, dass es sich um signifikante Unterschiede (und nicht zufällige Schwankungen) zwischen den Ergebnissen der Gruppen handelt, empfiehlt sich die Durchführung eines statistischen Signifikanztests. Bei einem Signifikanztest wird untersucht, ob sich der beobachtete Unterschied zwischen Null- und Testgruppe so stark unterscheidet, dass der Unterschied nicht mehr zufällig passiert sein kann und somit die Wirkung der getesteten Maßnahme statistisch signifikant wird.

Für die Konversionsraten kann ein Chi-Quadrat-Test (Signifikanztest in der Statistik) die Frage nach der Relevanz des gefundenen Unterschieds beantworten. Man benötigt hierzu die Angabe eines Konfidenzniveaus. Aus diesem ergibt sich ein Konfidenzintervall, das einen statistisc berechneten Bereich darstellt, mit welchem man einschätzen kann, ob die Unterschiede in den Ergebnissen tatsächlich eine statistische Relevanz haben oder nur durch Zufall entstanden sind.

Um einen Chi-Quadrat-Test ganz einfach durchführen zu können, empfehlen wir diesen Link. Dort benötigt man jeweils für die Test- und Kontrollgruppe die Anzahl der beworbenen Kunden und die Anzahl der Kunden aus dieser Gruppe, die im Testzeitraum tatsächlich einen Kauf getätigt haben. Außerdem muss ein Konfidenzniveau vorgegeben werden, das bei Marketing-Fragestellungen üblicherweise bei 90 oder 95 % liegt.

Die Konfidenzintervalle sind so konstruiert, dass sie mit einer dem Konfidenzniveau entsprechenden Wahrscheinlichkeit “den wahren Wert” enthalten. Bei einem Konfidenzniveau von 95% und einem Konfidenzintervall [8.5% - 22.1%] liegt die tatsächliche Konversionsrate also mit 95-prozentiger Wahrscheinlichkeit zwischen 8.5% und 22.1%.

Fazit: Checkliste für die Durchführung eines A/B-Tests

✔️ Definition des Gesamtpotentials (Kundengruppe, die die getestete Maßnahme erhalten soll, z.B. Bestandskunden oder ehemalige Kunden)

✔️ Definition der Maßnahme, die getestet werden soll (z.B. Print-Mailing, für das Kunden über ein Prognosemodell aus der Gpredictive-Software selektiert wurden vs. Standard-Vorgehen)

✔️ Definition der KPIs, die später ausgewertet werden sollen (z.B. Umsatz pro Kontakt)

✔️ Auswahl eines sinnvollen Testdesigns (siehe oben ausgeführte Alternativen)

✔️ Randomisierte Aufteilung des Gesamtpotentials in eine Testgruppe und eine Kontrollgruppe nach einem definierten Verteilungsschlüssel

✔️ Durchführung des Tests je nach ausgesuchtem Testdesign

✔️ Ggf. Definition der Nullgruppen- und Kontrollgruppengrößen mit dem Sample-Size-Calculator

✔️ Ergebnisse auswerten, (ggf. auf statistische Signifikanz überprüfen (z.B. mit einem Chi-Quadrat-Test)), Learnings aus dem A/B-Test und seinen Ergebnissen ziehen und ggf. weiter iterieren

Haben Sie Interesse an einem Test, um zu vergleichen, ob die Gpredictive-Software auch Ihnen bei der Optimierung Ihrer Direktmarketing-Maßnahmen helfen kann? Vereinbaren Sie ein unverbindliches Gespräch.

Topics: Predictive Analytics, AI, RFM, CRM, A/B-Test, Statistik, Testdesign, Scoring

SOMETHING TO SAY?