Arrêtez-vous vos tests A/B au bon moment ?

Problématique

A partir de quel moment peut-on affirmer qu’une variation de test est gagnante ou perdante et que votre campagne de test A/B peut être arrêtée ?  Cette question parait simple et pourtant je constate que, de plus en plus de résultats de tests menés par des équipes internes ne sont pas exploitables. Bien souvent le test est arrêté dès que l’indicateur de confiance est supérieur à 90% ou lorsque les résultats semblent stables.

Le premier risque est de croire qu’une version est positive alors qu’elle ne l’est pas (oui c’est possible !).
Le second, plus fourbe, est lié aux enseignements que vous tirez de vos tests A/B. Un mauvais enseignement aura une conséquence sur le long terme et sur vos décisions internes (projet refonte, nouvelles fonctionnalités, campagne de testing, …).

Les outils de testing vous mentent !

Les éditeurs de solution de testing ont mis en place un indice de confiance pour déterminer si une variation de test était statistiquement meilleure que la version originale. Cet indicateur à destination des marketeux doit être supérieur à 95% pour être valide et il se base sur le taux de conversion.

Alors quel est le problème ?

Cet indicateur fait une photographie des résultats d’un test à un instant T et ne tient pas compte du contexte de certaines variables : Type d’utilisateur, la durée du test, l’impact des opérations commerciales, le changement de stratégie sur les sources de trafic, etc…

Prenons cet exemple :

Résultats d'un test A/B après quelques jours. L'indice de confiance est de 100%.
Résultats d’un test A/B après quelques jours. L’indice de confiance est de 100%.

Dans cet exemple, Visual Website Optimizer affiche un taux de confiance de 100%  et suggère que les résultats sont fiables. Pourtant il n’est pas possible d’affirmer que la combinaison n°3 est gagnante à cause de 2 informations :

  • La faible durée du test (4 jours)
  • Le faible volume de transactions (134 VS 125)

Voyons comment évolue le même test après 3 semaines :

VWO résultats test A/B après plusieurs semaines. L'indice est de 0% et indique que le test est perdant.
VWO résultats test A/B après plusieurs semaines. L’indice est de 0% et indique que le test est perdant.

Avec une durée et un volume de transactions plus important, le test devient négatif et surtout l’indice de confiance passe à 0%.

Un autre problème ???

L’autre point noir de cet indicateur est qu’il prend uniquement en compte le taux de conversion et laisse de côté le panier moyen (pour la plupart des outils de testing). Mon premier conseil est de pondérer cet indicateur si votre gain se fait essentiellement sur le panier moyen. Le second est de baser votre suivi de test sur un KPI plus réaliste comme la « valeur de la visite » sous Google Analytics qui regroupe le taux de conversion et le panier moyen.

La méthodologie

Voici ma méthode pour déterminer si un test peut être arrêté :

1) Une période représentative : Le test doit se dérouler sur une période minimale de 10 jours pour vérifier le comportement de vos variations de test sur des journées particulières comme le mercredi ou le weekend. Par expérience, un test dure entre 10 à 20 jours.

2) Un volume de commande suffisant : Vous devez avoir un volume d’au moins 100 commandes par variation et par semaine de test. En-dessous, le volume de transactions sera trop faible et vous aurez des difficultés à atteindre un indice de confiance suffisant même après plusieurs semaines.

3) Vérifier la stabilité des courbes cumulées : C’est peut-être l’indicateur le plus important dans votre prise de décision. En cumulant les données journalières de votre outil analytics, vous pourrez apprécier la stabilité de vos KPIs (taux de conversion, AOV, inscription, …) dans le temps. Vous trouverez un exemple de reporting de test A/B simplifié sur Google Drive.

Voici l’exemple d’un test qui prend quelques semaines avant de se stabiliser. Vous pouvez voir que les courbes se croisent sur le premier tiers de la période, puis les courbes se stabilisent doucement. La variation A est stable, malgré certaines fluctuations (qui s’expliquent) et je peux affirmer qu’elle est gagnante :

Le test met environ 30 jours à se stabiliser dans cet exemple. Ce cas est rare mais existe sur certains types de business ou conditions.
Le test met environ 30 jours à se stabiliser dans cet exemple. Ce cas est rare mais existe sur certains types de business ou conditions.

4) Indice de confiance : Il doit être supérieur à 95% pour affirmer qu’une variation sera supérieure à la version originale. Attention, cet indicateur est basé sur le taux de conversion et ne prend pas en compte votre gain sur le panier moyen. Dans un test avec un faible volume de trafic, vous pouvez vous fixer comme objectif d’atteindre 90% seulement si, vos courbes sont stables dans le temps.

5) Une performance identique sur plusieurs profils : Votre variation semble être gagnante mais avez-vous vérifié que la performance est identique sur différents segments ? Prenons l’exemple d’un test positif sur les nouveaux clients (+5%) et négatif sur les anciens (-6%). Si la répartition est favorable aux nouveaux client, vous aurez l’impression d’avoir un test positif sur une période donnée. Malheureusement dès que vos nouveaux clients reviendront sur le site, l’impact ne sera plus visible et le résultat global négatif.

6) Une performance positive sur plusieurs indicateurs : Vous devez être capable de déterminer l’origine de votre optimisation en analysant différents KPIs. L’optimisation est-elle cohérente par rapport à votre hypothèse de test ? J’ai déjà eu le cas d’un test qui avait pour objectif de booster la conversion qui était positif et stable dans le temps.
Après analyse des KPIs, j’ai pu constater que le gain ne se faisait pas sur le taux de conversion mais sur le prix par article. Ça n’était pas cohérent et après quelques jours, le test est devenu négatif.

7) Comportements anormaux : Vous devez vérifier si vos résultats contiennent des commandes exceptionnelles avec un panier moyen plus important que la moyenne ou avec un volume de produits anormal. Est-ce réaliste ? Est-ce réalisé par une personne en interne ou un bug technique ? Il peut être intéressant d’analyser vos résultats sans ces comportements anormaux.

Vous avez des questions sur cette méthodologie ? Vous utilisez une autre méthode ? Dites-le moi dans les commentaires !

Laisser un commentaire

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *