Marketing

Aprende a determinar el tamaño de la muestra y la duración de una prueba A/B para correos electrónicos

Written by Laura Martinez Molera | junio 16 2017

¿Recuerdas la primera vez que hiciste una prueba A/B en un correo electrónico? Yo sí (tengo muy buena memoria). Sentí emoción y miedo al mismo tiempo, ya que sabía que debía poner en práctica todo lo que había aprendido sobre estadísticas en la universidad. 

Empecé a trabajar sabiendo tan poco sobre estadística que podía ser peligroso. Por ejemplo, sabía que necesitaba una muestra de un tamaño lo suficientemente grande para ejecutar la prueba. Sabía también que debía realizar la prueba durante un periodo lo suficientemente extenso para obtener resultados que tengan una relevancia estadística.

<< Descarga gratis la guía para crear email newsletters efectivos >>

Sabía que podía llevar a cabo una prueba con facilidad si lo deseaba, usando la aplicación de correo electrónico de HubSpot.

Pero eso era todo. No estaba seguro del tamaño real de una prueba “suficientemente grande” ni de la duración específica de ese periodo “suficientemente extenso” (y las búsquedas en Google arrojaban una variedad de respuestas para las que claramente la universidad no me había preparado).

Resultó que no era el único en esta situación: esas son dos de las preguntas sobre pruebas A/B más comunes que recibimos de nuestros clientes todo el tiempo. Además, las respuestas típicas que obtienen los clientes de una búsqueda en Google no son útiles, dado que ofrecen explicaciones sobre las pruebas A/B de una forma ideal, teórica y alejada del mundo del marketing. Por eso, decidí realizar una investigación más detallada para ayudar a responder estas preguntas de una manera práctica. Al final de esta publicación, deberías saber cómo determinar el tamaño de muestra correcto y la duración adecuada para el envío de tu próximo email.

Teoría vs. realidad sobre el tamaño de la muestra y la duración de las pruebas A/B de correos electrónicos

En teoría, para determinar un ganador entre la variante A y la variante B, debes esperar hasta obtener resultados suficientes para verificar si existe una diferencia importante a nivel estadístico entre ambas. Según tu empresa, el tamaño de la muestra y cómo ejecutes la prueba A/B, reunir datos estadísticamente importantes podría tomar horas, días o semanas (y simplemente tienes que esperar hasta que consigas esas conclusiones). En teoría, no deberías limitar el tiempo necesario para obtener los resultados que buscas.

Para muchas pruebas A/B, esperar no es un problema. ¿Quieres probar el texto del título de una página de destino? Está bien, puedes esperar un mes para obtener resultados. Lo mismo ocurre con la creación de una CTA del blog; de todos modos, estás apostando por la generación de oportunidades de venta a largo plazo. 

Sin embargo, esperar puede ser un verdadero problema para las pruebas en emails, por las siguientes razones prácticas:

1) Cada envío de correo electrónico tiene una audiencia limitada.

A diferencia de una página de destino (donde puedes conseguir nuevos miembros de la audiencia con el tiempo), una vez que envías la prueba A/B de un correo, no hay vuelta atrás; ya no puedes “agregar” más personas a esa prueba A/B. Por eso, debes averiguar cómo sacar el máximo provecho de tus correos electrónicos. Por lo general, esto requiere enviar una prueba A/B a la porción más pequeña de tu lista que necesitas para obtener resultados estadísticamente importantes, elegir una variante ganadora y, por último, enviarla al resto de la lista. 

2) Ejecutar un programa de email marketing implica gestionar el envío de, al menos, un par de emails por semana (en realidad, seguramente sean muchos más). 

Si dedicas mucho tiempo a la recopilación de resultados, puedes olvidarte de enviar tu próximo correo, y eso podría provocar efectos aun más negativos que si enviaras un ganador sin relevancia estadística a un segmento de tu base de datos. 

3) Los correos electrónicos suelen estar diseñados para enviarse en el momento adecuado.

Tus mensajes de marketing están optimizados para entregarse en un momento específico del día; ya sea que estén sincronizados con el programa del lanzamiento de una nueva campaña o deban enviarse a la bandeja de entrada de los destinatarios en el momento preciso que ellos desean recibirlos. Si esperas que tu mensaje sea absolutamente significativo a nivel estadístico, podrías perder la oportunidad de enviar correos relevantes y oportunos (lo que se opone directamente al objetivo inicial por el cual envías tus correos). 

Es por eso que los programas de pruebas A/B de emails tienen una configuración de “plazos” incorporada: al final de ese periodo, si los resultados no son estadísticamente importantes, una de las dos variantes (que debes elegir de antemano) será la que se envíe al resto de tu lista. De esa manera, puedes ejecutar pruebas A/B en tus correos, pero también puedes satisfacer las demandas de programación de tu campaña de email marketing y asegurarte de que los destinatarios siempre reciban el contenido en el momento justo.

Por eso, para realizar pruebas A/B en tus correos electrónicos y, al mismo tiempo, optimizar tus envíos para lograr los mejores resultados, es importante que tengas en cuenta el tamaño de la muestra y la duración de las pruebas. Descubre a continuación cómo usar datos para determinar el tamaño de la muestra y la duración de la prueba.

Cómo determinar el tamaño de la muestra y la duración de la prueba

¡Ahora sí! Llegamos a la sección que estabas esperando: cómo calcular exactamente el tamaño de la muestra y la duración que necesitas para tu próxima prueba A/B de correo electrónico. 

Cómo calcular el tamaño de la muestra de tu prueba A/B de correo electrónico

Como ya mencioné anteriormente, cada prueba A/B de un email puede enviarse a una audiencia limitada; eso significa que debes averiguar cómo aprovechar al máximo los resultados de esa prueba A/B. Para lograrlo, debes determinar cuál es la porción más pequeña de la lista total que necesitas para conseguir resultados estadísticamente significativos. Puedes hacerlo de las siguientes maneras:

1) En primer lugar, evalúa si tienes los contactos suficientes en tu lista para realizar una prueba A/B a una muestra.

Para ejecutar una prueba A/B a una porción de tu lista, esta debe tener un tamaño medianamente importante (1.000 contactos, como mínimo). Cuanto menor sea tu número de contactos, mayor será la proporción de la lista que necesitas para realizar pruebas A/B y obtener resultados valiosos. 

Por ejemplo, para conseguir resultados estadísticamente importantes a partir de una lista pequeña, es posible que necesites probar el 85% o 95% de tu lista. De esa manera, el número de personas de la lista que no recibe la prueba es tan pequeño que sería mejor dividir el total en dos y enviar a cada mitad una variante, y, finalmente, medir la diferencia entre ambas. Los resultados quizá no tengan la relevancia estadística que buscas, pero al menos reúnes datos importantes mientras buscas aumentar el tamaño de tu lista para tener más de 1.000 contactos. Si quieres obtener más consejos sobre cómo aumentar el tamaño de tu lista para superar el límite de los 1.000 contactos, echa un vistazo a esta publicación

Nota para los clientes de HubSpot: este número también es nuestro valor de referencia para realizar pruebas A/B en muestras de correos electrónicos; si tienes menos de 1.000 contactos en la lista que seleccionaste, la versión A de tu prueba se enviará automáticamente a la mitad de tu lista y el resto recibirá la versión B.

2) Haz clic aquí para abrir esta calculadora.

Esto es lo que verás cuando la abras:

3) Completa las categorías “Nivel de confianza”, “Intervalo de confianza” y “Población” en la herramienta.

Mucho vocabulario técnico, ¿cierto? A continuación puedes leer lo que cada uno de estos términos significa en tu correo electrónico:

Población: tu muestra representa a un grupo de personas más amplio. Este grupo más grande se llama “población”.

En los correos electrónicos, la población es el número de personas de tu lista a quienes se entregan tus correos, no el número de usuarios a quienes se los envías. Para calcular la población, una buena táctica es observar los últimos tres a cinco emails que enviaste a esta lista y hacer un promedio del número total de los correos entregados. Cuando calcules el tamaño de la muestra, utiliza el promedio, dado que el número total de los emails entregados suele variar.

Intervalo de confianza: también se conoce como “margen de error” y muchas encuestas lo usan, incluso los sondeos políticos. Este es el rango de resultados que puedes esperar de esta prueba A/B una vez que se ejecute con la población completa. 

Por ejemplo, si aplicas un intervalo de 5 en tus correos electrónicos y el 60% de tu muestra abre una variante, puedes asegurarte de que entre el 55% (60 menos 5) y el 65% (60 más 5) del total de los destinatarios también abrirán ese email. Cuanto mayor sea el intervalo seleccionado, mayor será tu certeza que de que las acciones reales de la población se han tenido en cuenta. Pero, al mismo tiempo, los intervalos más amplios proporcionarán resultados menos definitivos. Deberás encontrar un término medio cuando realices pruebas a tus correos. 

En este caso, no vale la pena centrarse demasiado en los intervalos de confianza. Cuando recién empiezas a realizar pruebas A/B, es recomendable elegir un intervalo más pequeño (p. ej., alrededor de 5).  

Nivel de confianza: este número indica el grado de seguridad que puedes tener de que tu muestra realmente se ajuste al intervalo de confianza anterior. Cuanto menor sea el porcentaje, menos seguridad tendrás sobre los resultados. Además, cuanto mayor sea el porcentaje, más personas necesitarás en tu muestra. 

Nota para los clientes de HubSpot: la app Correo electrónico utiliza de forma automática el 85% del nivel de confianza para determinar un ganador. Dado que esa opción no está disponible en esta herramienta, recomendamos elegir el 95%. 

Ejemplo:

imaginemos que vamos a enviar nuestra primera prueba A/B. Nuestra lista contiene 1.000 personas y una tasa de capacidad de entrega del 95%. En este caso, queremos establecer un nivel de confianza del 95% de que nuestras métricas de email se ajustarán a un intervalo de 5 puntos de las métricas de nuestra población. 

Completamos esos datos en la herramienta de la siguiente manera.

  • Población: 950
  • Nivel de confianza: 95%
  • Intervalo de confianza: 5

4) Haz clic en “calcular”.

5) Ya podrás ver el tamaño de tu muestra. 

¡Listo! La calculadora simplemente te mostrará el número final. En nuestro ejemplo, el tamaño de nuestra muestra es 274.

Este es el tamaño que debería tener una de tus variantes. Para el envío de tu correo, si tienes una versión de control y una variante, deberás duplicar este número. Si tuvieras una versión de control y dos variantes, deberías triplicarlo, y así sucesivamente.

6) Según tu programa de correo electrónico, quizá necesites calcular el porcentaje del tamaño de la muestra de todo tu email.

Esta sección es específica para los clientes de HubSpot. Cuando ejecutes una prueba A/B de un correo, deberás seleccionar también el porcentaje de los contactos a quienes quieres enviar la lista (no solamente el número del tamaño de la muestra). 

Para ello, debes dividir el número de tu muestra por el número total de contactos en tu lista. Así se ve nuestro cálculo usando los números que planteamos en el ejemplo:

274 / 1000 = 27.4%

Esto significa que debes enviar cada muestra (de tu opción de control y de tu variante) al 27% o 28% de tu audiencia; en otras palabras, enviarás la prueba a aproximadamente un 55% de tu lista completa.

¡Eso es todo! Ahora deberías prepararte para seleccionar el plazo de envío. 

Cómo seleccionar el periodo adecuado para tu prueba A/B

Ahora sí ingresamos a la realidad del envío de emails. Aquí deberás averiguar durante cuánto tiempo tienes que ejecutar tu prueba A/B hasta que puedas enviar una de las versiones (la ganadora) al resto de tu lista. Determinar la duración no depende tanto de datos estadísticos, pero definitivamente deberías usar información del pasado para ayudarte a tomar mejores decisiones. A continuación, te explicaré cómo hacerlo.

Si no tienes restricciones de tiempo para enviar el correo electrónico ganador al resto de la lista, echa un vistazo a tus analíticas. 

Averigua cuándo comienzan a disminuir las tasas de apertura o clics de tus emails (o cualquier métrica de éxito que utilices). Observa los envíos de correos anteriores para conseguir esa información. Por ejemplo, ¿qué porcentaje de clics totales obtuviste en tu primer día? Si descubres que conseguiste el 70% de los clics durante las primeras 24 horas, y luego un 5% cada día siguiente, sería lógico que limites el plazo de tu prueba A/B a 24 horas, dado que no vale la pena retrasar tus resultados solo para reunir apenas un poco más de información. En este escenario, probablemente quieras mantener tu periodo de 24 horas y, al final de ese plazo, tu programa de email debería informarte si puedes determinar un ganador de importancia estadística.

A continuación, depende de ti lo que quieras hacer. Si tienes una muestra lo suficientemente grande y pudiste determinar un ganador estadísticamente relevante al final del periodo de prueba, muchos programas de email marketing enviarán la variante ganadora de forma inmediata y automática. Si tienes una muestra lo suficientemente grande, pero no pudiste determinar un ganador estadísticamente relevante al final del periodo de prueba, las herramientas de email marketing también podrían permitirte enviar automáticamente una variante de tu elección.

Si tienes una muestra más pequeña o estás ejecutando una prueba A/B 50/50, tú debes decidir cuándo enviar el próximo correo electrónico según los resultados de tu email inicial. 

Si tienes restricciones de tiempo para enviar el correo electrónico ganador al resto de la lista, averigua cuál es el mayor plazo que puedes usar para mandar la variante ganadora, sin enviarla fuera de tiempo ni afectar los envíos de otros emails. 

Por ejemplo, si has enviado un correo a las 18.00 EST sobre una oferta fugaz que termina a la medianoche, no debes determinar el ganador de la prueba A/B a las 23.00 horas. En cambio, debes enviar el correo electrónico cerca de las 20 o 21 horas, ya que eso le dará tiempo suficiente a las personas que no participaron en la prueba A/B para actuar a partir de tu mensaje.

Después de realizar estos cálculos y analizar tus datos, deberías estar mucho mejor preparado para enviar pruebas A/B; pruebas que sean estadísticamente válidas y que te ayuden a generar un impacto positivo en tus estrategias de email marketing.