Vandaag heb ik 100 keer kop of munt gedaan zonder sokken te dragen. Resultaat : 49 keer kop. Toen heb ik rode sokken aan gedaan en nog een keer 100 keer kop of munt gedaan. 51 keer kop. Het dragen van rode sokken in plaats van geen geeft een 4.1% hogere conversie. Wil je vaker kop dan munt gooien, trek dan altijd rode sokken aan! Belachelijk experiment? Met een nog belachelijkere conclusie? Absoluut, maar toch is dit wat er vaak gebeurd in de praktijk.
In de praktijk spreek ik wel eens met collega webwinkel bezitters over A/B testing en de uitkomsten die ze hebben gehaald. Wanneer ik vraag naar de P-waarde en Z-test waarden wordt ik vaak met grote vragende ogen aangekeken. Vaak worden A/B testen uitgevoerd met te weinig conversies of verschil in conversie om met voldoende zekerheid te stellen dat het verschil niet kan worden verklaard door kans.
Stel je hebt een normale conversie van ongeveer 3%. Je gaat een experiment uitvoeren met twee varianten (A : huidige, B : nieuw). Je verwacht 10% hogere conversie op de B-variant. Hoeveel sales heb je dan nodig om te spreken van een significant resultaat? Enig idee? 50? 100? 200? 1000? 2000?
Bij een statistische significantie van 95% is dat (Z-waarde : 0.05) heb je in dit geval zo’n 1165 sales nodig om te kunnen spreken van een significant resultaat. 555 op variant A en dus 610 op variant B. Bij een 20% hogere conversie (dus 3% op A-variant en 3,60% op B-variant) heb je aan 317 sales al genoeg (144 op A-variant en 173 op B-variant) om vast te kunnen stellen dat de B-variant beter functioneert.
Let dus goed op voordat je conclusies trekt uit je A/B testen, zeker bij kleine verschillen en een laag aantal waarnemingen. Ik zal binnenkort een tooltje online zetten waarmee je dit eenvoudig kan berekenen.