O que você vai aprender
Saiba como saber se um teste A/B é considerado estaticamente significativo ou não. Por exemplo, se a variação A de uma campanha tem uma taxa de abertura de 15% e a variação B tem uma taxa de abertura de 14%, como o senhor sabe com certeza se a variação A ou B teve um desempenho melhor?
Com o lançamento do iOS15, macOS Monterey, iPadOS 15 e WatchOS 8, a Proteção de Privacidade do Mail (MPP) da Apple alterou a forma como recebemos os dados da taxa de abertura de e-mails, buscando previamente nosso pixel de rastreamento. Com essa mudança, é importante entender que as taxas de abertura serão infladas.
Com relação aos testes A/B, prevemos que nossas ferramentas devem levar em conta essas taxas de abertura inflacionadas; no entanto, talvez o senhor precise de um limite mais alto para atingir a significância estatística. Se o senhor realiza testes A/B regularmente E tem mais de ~45% de aberturas no Apple Mail, sugerimos criar um relatório personalizado que inclua uma propriedade MPP. O senhor também pode identificar essas aberturas em seus segmentos de assinantes individuais.
Para obter informações completas sobre a abertura de MPP, visite nosso guia iOS 15: como se preparar para as mudanças da Apple.
Categorias de significância estatística
Significância estatística é quando o Klaviyo é matematicamente capaz de determinar se uma variação produzirá um desempenho melhor. Para campanhas, a Klaviyo observa o número de pessoas que receberam uma mensagem e a probabilidade de vitória, que é a probabilidade de uma variação produzir melhores resultados com base no desempenho superior ao das outras variações.
Ao fazer um teste A/B, o senhor deve evitar qualquer fator que possa influenciar significativamente o seu público; por exemplo, não faça um novo teste perto de um fim de semana de feriado, quando é muito mais provável que seu público esteja procurando seus e-mails.
Quando se trata de campanhas de teste A/B, há quatro categorias de significância estatística:
- Estatisticamente significativo
- Promissor
- Não estatisticamente significativo
- Inconclusivo
Nas próximas seções, veremos quando um teste se enquadra em cada uma dessas categorias.
O senhor não tem tempo para ler? O senhor pode fazer o checkout da árvore de decisão no final deste artigo.
Estatisticamente significativo
A marca estatisticamente significativa em seu teste A/B significa que uma determinada variação do seu teste tem grande probabilidade de vencer a(s) outra(s) opção(ões). Isso também indica que o senhor seria capaz de reproduzir os resultados e poderia aplicar o que aprendeu em seus futuros envios.
Para as campanhas da Klaviyo, um resultado de teste A/B é considerado estatisticamente significativo quando
- 50 pessoas receberam cada variação
- A probabilidade de vitória é de pelo menos 90%
Isso garante que um tamanho de amostra grande o suficiente de destinatários tenha visto o teste A/B e que a variação vencedora tenha superado amplamente a(s) outra(s) para a métrica vencedora escolhida (que, para campanhas, é a taxa de abertura, a taxa de cliques ou a taxa de pedidos feitos).
Por exemplo, digamos que o senhor esteja testando se um emoji na linha de assunto afeta ou não a taxa de abertura. Os resultados do teste mostram que a variação vencedora é aquela com o emoji e há uma etiqueta verde de significância estatística. Nesse caso, o senhor pode ter certeza de que uma linha de assunto com um emoji terá um desempenho consistentemente melhor do que uma sem emoji, e não há necessidade de refazer o teste.
No entanto, o senhor deve sempre usar seu bom senso ao agir de acordo com os resultados do teste. Se o senhor estiver enviando uma mensagem mais séria ou sombria, por exemplo, talvez não seja apropriado usar um emoji.
PromissorPromissor
Quando os resultados são promissores, uma variação parece ter um desempenho melhor do que a(s) outra(s), mas as evidências não são suficientemente fortes no teste em si. Se um teste for considerado promissor, não aparecerá nenhuma etiqueta indicando isso; no entanto, o senhor verá um alerta indicando que deve executar o teste novamente.
Para um resultado de teste que seja promissor, o senhor deve realizar outro teste A/B para ter mais certeza. Por exemplo, voltando ao exemplo do emoji acima, se os resultados forem promissores, realize esse teste novamente. Se continuar a ver resultados promissores a favor do emoji depois de vários testes A/B, pode confiar que os emojis têm um impacto leve, mas positivo, no seu público-alvo, e deve continuar a usá-los nas campanhas.
Para campanhas, um resultado de teste A/B é considerado promissor quando:
- 50 pessoas receberam cada variação
- A probabilidade de vitória está entre 75% e 89%
Não estatisticamente significativo
Se algo não for estatisticamente significativo, uma variação supera a(s) outra(s) no teste por apenas uma pequena quantidade, de modo que o senhor talvez não consiga replicar o resultado em outro teste. Para o nosso exemplo, isso pode significar que a variação com o emoji superou a(s) variação(ões) sem emoji, mas apenas por uma quantidade muito pequena - e não o suficiente para que o resultado do teste seja significativo.
Nesse caso, recomendamos testar novamente esse fator mais duas ou três vezes e ficar de olho nos resultados. Se o resultado do teste continuar a ser considerado não estatisticamente significativo, não continue o teste; em vez disso, passe a fazer o teste A/B em um tópico diferente. Se um teste se enquadrar nessa categoria, uma tag cinza dizendo Not statistically significant (Não estatisticamente significativo ) aparecerá na página de resultados do teste A/B.
Para campanhas, um resultado de teste A/B é considerado não estatisticamente significativo quando:
- 1.800 receberam cada variação
- A diferença percentual entre a variação principal e a variação em segundo lugar é de 4% ou menos
- A probabilidade de vitória é inferior a 60%
Inconclusivo
Se um teste for inconclusivo, isso significa que não há informações suficientes para determinar se algo é ou não estatisticamente significativo. Se os resultados do teste não corresponderem a nenhum dos critérios das opções acima, ele será classificado como inconclusivo. O senhor pode visualizar isso usando a árvore de decisão mostrada na próxima seção. Observe que os testes inconclusivos não mostrarão uma tag indicando se o teste foi ou não estatisticamente significativo na página de resultados.
Nesse caso, o senhor pode querer expandir seu público para qualquer teste de acompanhamento. Se o teste for feito com um grupo pequeno, interprete os resultados como achar melhor e teste novamente para verificar se o que encontrou está correto. Further, focus on learning about your subscribers through other means; e.g., surveys, polls, etc.
Árvore de decisão de significância estatísticaÁrvore de decisão de significância estatística
A árvore de decisão a seguir mostra quando um teste A/B se enquadra em cada categoria. As linhas verdes indicam que a resposta é "sim", enquanto as vermelhas representam "não".
Recursos adicionaisRecursos adicionais
Saiba mais sobre os resultados dos testes A/B neste artigo.
Confira as práticas recomendadas para testes A/B.
Veja como fazer testes A/B em seus e-mails: