Capisco quello che intendi, però secondo me il 90% delle volte che un test A/B fallisce è:
Si sono testate troppe cose alla volta
Non si è aspettata la significatività statistica
Il primo caso è abbastanza chiaro. Il secondo, per me, viene troppo spesso sottovalutato.
Vengo giusto da un test che dopo 2 giorni dava una variante in vantaggio all'80% sulla seconda. Dopo 6gg, sta al 40%.
A questo ovviamente va accompagnata un'analisi delle idee da validare, possibili influenze sull'esperimento etc...
Cioè la vedo un po' come valutare un pokerista.
Fagli fare un torneo e potrà uscire ultimo quando invece è il migliore dei partecipanti.
Fagliene fare 10mila e potrai cominciare a dare un giudizio sulle sue qualità (a prescindere dagli avversari, dalle carte e da come si è svegliato quel giorno).
La varianza la si può abbattere solo accumulando molti tornei (o nel nostro caso molti dati), altrimenti è come giocare al gratta e vinci.
Magari sono troppo ottimista