Cómo A/B Probar Páginas de Aterrizaje y Medir el Ganador en GA4

Por Emily Redmond, Analista de Datos en Emilytics · Abril 2026

TL;DR: A/B testing en GA4 requiere: define tu hipótesis, divide tráfico 50/50, ejecuta por 2–4 semanas, luego verifica significancia estadística. Una prueba es real solo si p-value < 0.05.

Vi una empresa declarar victoria después de 3 días. La variante estaba arriba 25%. La implementaron al 100% del tráfico. Luego cayó 8%.

Tres días no fueron suficientes datos. El lift del 25% fue ruido aleatorio. Hirieron su tasa de conversión al apresurarse.

A/B testing es poderoso. Pero solo si lo haces correctamente.

El Framework de A/B Testing

A/B testing tiene una regla: cambia una variable a la vez.

Si cambias titular, imagen, y color de botón todo a la vez, no sabrás cuál movió la aguja.

El proceso:

Forma una hipótesis (específica, medible)
Cambia una variable
Ejecutala en 50% del tráfico
Mantén el otro 50% como control
Mide por 2–4 semanas
Calcula significancia estadística
Decide

Paso 1: Forma tu Hipótesis

Una buena hipótesis es específica y comprobable.

Mala hipótesis: "El formulario es probablemente muy largo."

Buena hipótesis: "Nuestro formulario de 5 campos tiene 25% tasa de finalización. Los formularios de competidores con 2 campos tienen 40% finalización. Si reducimos nuestro formulario a 2 campos (email + empresa), aumentaremos finalización en al menos 15%."

La buena hipótesis:

Nombra el problema (5 campos)
Tiene un benchmark (datos de competidor)
Es medible (mejora mínima del 15%)
Tiene una razón (fricción reducida)

Paso 2: Decide Qué Probar

Pruebas A/B comunes:

Elemento	Ejemplo
Titular	"Comienza tu Prueba Gratuita Hoy" vs. "Obtén Superpoderes de Productividad"
Texto de CTA	"Enviar" vs. "Empieza" vs. "Reclama tu Prueba Gratuita"
Color de CTA	Azul vs. Naranja vs. Verde
Campos de formulario	5 campos vs. 3 campos vs. 1 campo
Imagen	Foto de stock vs. foto de cliente vs. sin imagen
Longitud de copia	200 palabras vs. 500 palabras
Prueba social	Sin testimonios vs. 3 testimonios vs. 5 testimonios

Regla: Prueba los elementos que impulsan conversión, no los que se sienten bien.

Cambiar color de botón: impacto bajo usualmente (lifts de 5–10% máximo). Cambiar titular: impacto alto usualmente (lifts del 15–30% posible). Cambiar longitud de formulario: impacto alto (lifts del 20–40% posible).

Paso 3: Configura tu Prueba en GA4

GA4 tiene una herramienta nativa de A/B testing: GA4 Experiments.

Para configurar:

Ve a GA4 Admin → Experiments
Haz clic en "Create Experiment"
Nómbralo: "Homepage CTA Test" o similar
Selecciona tu campaña: ¿qué tráfico estás probando? (todo tráfico, o fuente específica)
Elige variantes:
- Control (original)
- Variante 1 (versión nueva)
Establece asignación de tráfico: 50% control, 50% variante
Elige tu métrica primaria: Conversion rate
Establece tu hipótesis: efecto mínimo detectable (ej. mejora del 15%)

GA4 calculará el tamaño de muestra necesario.

Alternativa: Usa una herramienta de tercero

Si usas Optimizely, VWO, o Unbounce, manejan la división y medición. No necesitas GA4 Experiments.

Ventaja: más fácil de usar, reportes mejores Desventaja: otra herramienta a pagar

Para esta guía, asumiré GA4 Experiments.

Paso 4: Calcula tu Tamaño de Muestra

Esto es crítico. Muy pocos visitantes y estás midiendo ruido. Demasiados y estás desperdiciando tiempo.

GA4 Experiments calcula esto por ti, pero aquí están las matemáticas:

Necesitas suficientes visitantes para detectar tu mejora objetivo con 95% de confianza.

Ejemplo:

Tasa de conversión actual: 2%
Mejora objetivo: 15% (a 2.3%)
Nivel de confianza: 95%
Tamaño de muestra requerido: ~33,000 visitantes por variante

Si tienes 10,000 visitantes mensuales:

5,000 a control
5,000 a variante
Eso es media semana por variante
Así que 1 mes total de duración de prueba

Usa una calculadora en línea (Optimizely, VWO, o GCALC) para computar tu tamaño de muestra específico.

Paso 5: Ejecuta tu Prueba

Reglas para ejecutar una prueba:

Regla 1: No mires resultados antes de que la prueba termine Cada vez que miras, estás tentado de parar temprano. No. Espera la duración completa.

Regla 2: Ejecuta por al menos 2 semanas La variación de día de la semana es real. Lunes ≠ Viernes. Ejecuta dos semanas completas mínimo.

Regla 3: Ejecuta por al menos 1 ciclo de ventas completo (si aplica) Si tu ciclo de ventas es 4 semanas, ejecuta 4 semanas mínimo. Si no, estás comparando manzanas con naranjas.

Regla 4: No cambies tu hipótesis a mitad de camino Comenzaste probando "longitud de formulario." No cambies a probar "color de botón" a mitad de camino. Termina la prueba.

Regla 5: Rastrea todas las conversiones, no solo la principal Si estás probando para aumentar envíos de formulario, también rastrea:

Tasa de finalización de formulario
Abandono de formulario
Conversiones downstream (¿realmente compraron?)

Una prueba podría aumentar envíos de formulario pero disminuir calidad de formulario. Necesitas ver ambos.

Paso 6: Analiza los Resultados

La prueba se acabó. Ahora lees los datos.

Paso 1: Revisa tamaño de muestra ¿Tienes suficientes visitantes para hacer una conclusión? Usa la calculadora de nuevo.

Si sí, continúa
Si no, necesitas más tiempo o más tráfico

Paso 2: Calcula significancia estadística Esta es la métrica más importante. Usa estadísticas integradas de GA4 o una calculadora como esta:

Significancia estadística = ¿Qué tan seguros estamos de que este resultado es real (no aleatorio)?

Quieres 95% de confianza mínimo. En lenguaje de estadísticas: p-value < 0.05.

Ejemplo:

Control: tasa de conversión del 2%
Variante: tasa de conversión del 2.4% (+20%)
Tamaño de muestra: 50,000 por variante
Confianza: 95% (p-value = 0.03)

Interpretación: Hay 95% de probabilidad de que esta mejora del 20% sea real. Puedes declarar un ganador.

Contra-ejemplo:

Control: tasa de conversión del 2%
Variante: tasa de conversión del 2.3% (+15%)
Tamaño de muestra: 100 por variante
Confianza: 60% (p-value = 0.40)

Interpretación: Hay solo 60% de probabilidad de que esta mejora sea real. Podría ser suerte. Mantén la prueba ejecutándose o abandónala.

GA4 Experiments hace este cálculo por ti automáticamente. Te dirá "Este resultado es 87% estadísticamente significante" o "95% estadísticamente significante." Solo actúa en 95%+.

Paso 3: Revisa métricas secundarias ¿La variante mejoró:

Tasa de conversión? Sí ✓
Ingresos por conversión? ¿Subió o bajó?
Tasa de rebote? ¿Empeoró?
Tasa de finalización de formulario? ¿Más gente terminó?

Una prueba podría ser estadísticamente significante pero herir otras métricas. Revisa.

Declara un Ganador

Si la variante gana (95%+ confianza):

Implementala al 100% del tráfico
Documenta el resultado (qué cambió, qué mejoró, cuánto)
Muévete a siguiente prueba

Si el control gana:

Mantén el original
Vuelve a la mesa de dibujo
¿Qué salió mal con la hipótesis?

Si no hay ganador (debajo de 95% confianza):

Opción 1: Ejecuta la prueba más tiempo (otras 2 semanas)
Opción 2: Acepta que no hay diferencia significativa y mantén el original
Opción 3: Cambia tu hipótesis y prueba algo diferente

No mantengas una variante "perdedora" solo porque te guste. Los datos ganan.

Errores Comunes de A/B Testing

Error 1: Probar demasiadas cosas a la vez Si cambias titular y color de botón, no sabrás cuál funcionó. Prueba una variable.

Error 2: Detener la prueba temprano Alcanzaste significancia estadística el día 10. ¡Detente! Necesitas 2–4 semanas para dar cuenta de variación semanal.

Error 3: Medir la métrica equivocada Probar longitud de formulario pero medir envíos de formulario, no tasa de finalización de formulario. Mide lo que importa.

Error 4: No dar cuenta de variación estacional ¿Probando tu página de inicio durante Black Friday? Los resultados no se aplicarán a tráfico normal. Prueba durante períodos "normales".

Error 5: Ignorar calidad de variante Una prueba podría aumentar conversiones pero convertir clientes de baja calidad. Revisa métricas downstream (reembolsos, tickets de soporte, LTV).

💡 La perspectiva de Emily: Una vez ejecuté una prueba que aumentó registros de prueba gratuita por 40%. Se veía increíble. Luego me di cuenta que la tasa de conversión de prueba gratuita a pagado realmente cayó 20%, porque la variante nueva estaba atrayendo "buscadores gratis", no prospectos serios. Revirtimos. Mide lo que importa, no solo lo que convierte en la etapa de embudo que estás probando.

Ejecutando Múltiples Pruebas

Una vez que tienes un sistema, ejecuta pruebas concurrentes:

Ejemplo de cronograma:

Prueba 1: Titular (semanas 1–4)
Prueba 2: Longitud de formulario (semanas 1–4, ejecutándose simultáneamente)
Prueba 3: Color de CTA (semanas 5–8)

Esto requiere suficiente tráfico para dividir 4 maneras (control + 3 variantes), pero si lo tienes, puedes moverte más rápido.

No pruebes 10 cosas a la vez. Eso es caos. Prueba 2–3 pruebas concurrentes máximo.

Preguntas Frecuentes

P: ¿Cuánto tiempo debería ejecutar una prueba? R: Mínimo 2 semanas (para dar cuenta de variación de día de la semana), mejor 4 semanas (para dar cuenta de patrones semanales). Ver ¿Cuánto Tiempo Debe Ser tu Período de Observación de Analytics?

P: ¿Qué tamaño de muestra necesito? R: Depende de tu tasa de conversión actual y mejora objetivo. Usa una calculadora. Rango típico: 1,000–50,000 por variante.

P: ¿Puedo mantener una variante si es 85% estadísticamente significante? R: Técnicamente, quizás. Pero recomiendo esperar 95%. La semana extra de confianza previene ganadores falsos. Además, el costo de un falso positivo (implementar una variante mala) es usualmente más alto que el beneficio de velocidad.

P: ¿Y si tengo tráfico muy bajo? R: Ejecuta pruebas más largo (6–8 semanas en lugar de 4). O prueba cambios más grandes (copia completamente nueva vs. pequeños ajustes). O usa retroalimentación cualitativa (entrevistas de usuario) para validar antes de probar.

P: ¿Debería probar móvil y desktop por separado? R: Sí, si tienes suficiente tráfico. Móvil y desktop frecuentemente se comportan diferente. Si tráfico es bajo, prueba ambos juntos primero, luego segmenta después de ver un ganador.

P: ¿Puedo A/B probar tráfico de búsqueda orgánica? R: Sí, usando GA4 Experiments. Pero nota: el tráfico orgánico es auto-seleccionado (buscaron por ti). Los cambios que funcionan para orgánico podrían no funcionar para PPC.

La Conclusión

A/B testing es cómo conviertes corazonadas en conocimiento.

Pero solo si eres disciplinado: una variable, 2–4 semanas, 95% significancia. Apresúrate y enviarás cambios malos.

Ve lento. Prueba pequeño. Aprende rápido.

Emily Redmond es analista de datos en Emilytics — agente de analytics impulsado por ía que monitorea tu GA4, Search Console, y datos de Bing todo el día. 8 años de experiencia. Saludos →