Cómo A/B Probar Páginas de Aterrizaje y Medir el Ganador en GA4
Por Emily Redmond, Analista de Datos en Emilytics · Abril 2026
TL;DR: A/B testing en GA4 requiere: define tu hipótesis, divide tráfico 50/50, ejecuta por 2–4 semanas, luego verifica significancia estadística. Una prueba es real solo si p-value < 0.05.
Vi una empresa declarar victoria después de 3 días. La variante estaba arriba 25%. La implementaron al 100% del tráfico. Luego cayó 8%.
Tres días no fueron suficientes datos. El lift del 25% fue ruido aleatorio. Hirieron su tasa de conversión al apresurarse.
A/B testing es poderoso. Pero solo si lo haces correctamente.
El Framework de A/B Testing
A/B testing tiene una regla: cambia una variable a la vez.
Si cambias titular, imagen, y color de botón todo a la vez, no sabrás cuál movió la aguja.
El proceso:
- Forma una hipótesis (específica, medible)
- Cambia una variable
- Ejecutala en 50% del tráfico
- Mantén el otro 50% como control
- Mide por 2–4 semanas
- Calcula significancia estadística
- Decide
Paso 1: Forma tu Hipótesis
Una buena hipótesis es específica y comprobable.
Mala hipótesis: "El formulario es probablemente muy largo."
Buena hipótesis: "Nuestro formulario de 5 campos tiene 25% tasa de finalización. Los formularios de competidores con 2 campos tienen 40% finalización. Si reducimos nuestro formulario a 2 campos (email + empresa), aumentaremos finalización en al menos 15%."
La buena hipótesis:
- Nombra el problema (5 campos)
- Tiene un benchmark (datos de competidor)
- Es medible (mejora mínima del 15%)
- Tiene una razón (fricción reducida)
Paso 2: Decide Qué Probar
Pruebas A/B comunes:
| Elemento | Ejemplo |
|---|---|
| Titular | "Comienza tu Prueba Gratuita Hoy" vs. "Obtén Superpoderes de Productividad" |
| Texto de CTA | "Enviar" vs. "Empieza" vs. "Reclama tu Prueba Gratuita" |
| Color de CTA | Azul vs. Naranja vs. Verde |
| Campos de formulario | 5 campos vs. 3 campos vs. 1 campo |
| Imagen | Foto de stock vs. foto de cliente vs. sin imagen |
| Longitud de copia | 200 palabras vs. 500 palabras |
| Prueba social | Sin testimonios vs. 3 testimonios vs. 5 testimonios |
Regla: Prueba los elementos que impulsan conversión, no los que se sienten bien.
Cambiar color de botón: impacto bajo usualmente (lifts de 5–10% máximo). Cambiar titular: impacto alto usualmente (lifts del 15–30% posible). Cambiar longitud de formulario: impacto alto (lifts del 20–40% posible).
Paso 3: Configura tu Prueba en GA4
GA4 tiene una herramienta nativa de A/B testing: GA4 Experiments.
Para configurar:
- Ve a GA4 Admin → Experiments
- Haz clic en "Create Experiment"
- Nómbralo: "Homepage CTA Test" o similar
- Selecciona tu campaña: ¿qué tráfico estás probando? (todo tráfico, o fuente específica)
- Elige variantes:
- Control (original)
- Variante 1 (versión nueva)
- Establece asignación de tráfico: 50% control, 50% variante
- Elige tu métrica primaria: Conversion rate
- Establece tu hipótesis: efecto mínimo detectable (ej. mejora del 15%)
GA4 calculará el tamaño de muestra necesario.
Alternativa: Usa una herramienta de tercero
Si usas Optimizely, VWO, o Unbounce, manejan la división y medición. No necesitas GA4 Experiments.
Ventaja: más fácil de usar, reportes mejores Desventaja: otra herramienta a pagar
Para esta guía, asumiré GA4 Experiments.
Paso 4: Calcula tu Tamaño de Muestra
Esto es crítico. Muy pocos visitantes y estás midiendo ruido. Demasiados y estás desperdiciando tiempo.
GA4 Experiments calcula esto por ti, pero aquí están las matemáticas:
Necesitas suficientes visitantes para detectar tu mejora objetivo con 95% de confianza.
Ejemplo:
- Tasa de conversión actual: 2%
- Mejora objetivo: 15% (a 2.3%)
- Nivel de confianza: 95%
- Tamaño de muestra requerido: ~33,000 visitantes por variante
Si tienes 10,000 visitantes mensuales:
- 5,000 a control
- 5,000 a variante
- Eso es media semana por variante
- Así que 1 mes total de duración de prueba
Usa una calculadora en línea (Optimizely, VWO, o GCALC) para computar tu tamaño de muestra específico.
Paso 5: Ejecuta tu Prueba
Reglas para ejecutar una prueba:
Regla 1: No mires resultados antes de que la prueba termine Cada vez que miras, estás tentado de parar temprano. No. Espera la duración completa.
Regla 2: Ejecuta por al menos 2 semanas La variación de día de la semana es real. Lunes ≠ Viernes. Ejecuta dos semanas completas mínimo.
Regla 3: Ejecuta por al menos 1 ciclo de ventas completo (si aplica) Si tu ciclo de ventas es 4 semanas, ejecuta 4 semanas mínimo. Si no, estás comparando manzanas con naranjas.
Regla 4: No cambies tu hipótesis a mitad de camino Comenzaste probando "longitud de formulario." No cambies a probar "color de botón" a mitad de camino. Termina la prueba.
Regla 5: Rastrea todas las conversiones, no solo la principal Si estás probando para aumentar envíos de formulario, también rastrea:
- Tasa de finalización de formulario
- Abandono de formulario
- Conversiones downstream (¿realmente compraron?)
Una prueba podría aumentar envíos de formulario pero disminuir calidad de formulario. Necesitas ver ambos.
Paso 6: Analiza los Resultados
La prueba se acabó. Ahora lees los datos.
Paso 1: Revisa tamaño de muestra ¿Tienes suficientes visitantes para hacer una conclusión? Usa la calculadora de nuevo.
- Si sí, continúa
- Si no, necesitas más tiempo o más tráfico
Paso 2: Calcula significancia estadística Esta es la métrica más importante. Usa estadísticas integradas de GA4 o una calculadora como esta:
Significancia estadística = ¿Qué tan seguros estamos de que este resultado es real (no aleatorio)?
Quieres 95% de confianza mínimo. En lenguaje de estadísticas: p-value < 0.05.
Ejemplo:
- Control: tasa de conversión del 2%
- Variante: tasa de conversión del 2.4% (+20%)
- Tamaño de muestra: 50,000 por variante
- Confianza: 95% (p-value = 0.03)
Interpretación: Hay 95% de probabilidad de que esta mejora del 20% sea real. Puedes declarar un ganador.
Contra-ejemplo:
- Control: tasa de conversión del 2%
- Variante: tasa de conversión del 2.3% (+15%)
- Tamaño de muestra: 100 por variante
- Confianza: 60% (p-value = 0.40)
Interpretación: Hay solo 60% de probabilidad de que esta mejora sea real. Podría ser suerte. Mantén la prueba ejecutándose o abandónala.
GA4 Experiments hace este cálculo por ti automáticamente. Te dirá "Este resultado es 87% estadísticamente significante" o "95% estadísticamente significante." Solo actúa en 95%+.
Paso 3: Revisa métricas secundarias ¿La variante mejoró:
- Tasa de conversión? Sí ✓
- Ingresos por conversión? ¿Subió o bajó?
- Tasa de rebote? ¿Empeoró?
- Tasa de finalización de formulario? ¿Más gente terminó?
Una prueba podría ser estadísticamente significante pero herir otras métricas. Revisa.
Declara un Ganador
Si la variante gana (95%+ confianza):
- Implementala al 100% del tráfico
- Documenta el resultado (qué cambió, qué mejoró, cuánto)
- Muévete a siguiente prueba
Si el control gana:
- Mantén el original
- Vuelve a la mesa de dibujo
- ¿Qué salió mal con la hipótesis?
Si no hay ganador (debajo de 95% confianza):
- Opción 1: Ejecuta la prueba más tiempo (otras 2 semanas)
- Opción 2: Acepta que no hay diferencia significativa y mantén el original
- Opción 3: Cambia tu hipótesis y prueba algo diferente
No mantengas una variante "perdedora" solo porque te guste. Los datos ganan.
Errores Comunes de A/B Testing
Error 1: Probar demasiadas cosas a la vez Si cambias titular y color de botón, no sabrás cuál funcionó. Prueba una variable.
Error 2: Detener la prueba temprano Alcanzaste significancia estadística el día 10. ¡Detente! Necesitas 2–4 semanas para dar cuenta de variación semanal.
Error 3: Medir la métrica equivocada Probar longitud de formulario pero medir envíos de formulario, no tasa de finalización de formulario. Mide lo que importa.
Error 4: No dar cuenta de variación estacional ¿Probando tu página de inicio durante Black Friday? Los resultados no se aplicarán a tráfico normal. Prueba durante períodos "normales".
Error 5: Ignorar calidad de variante Una prueba podría aumentar conversiones pero convertir clientes de baja calidad. Revisa métricas downstream (reembolsos, tickets de soporte, LTV).
💡 La perspectiva de Emily: Una vez ejecuté una prueba que aumentó registros de prueba gratuita por 40%. Se veía increíble. Luego me di cuenta que la tasa de conversión de prueba gratuita a pagado realmente cayó 20%, porque la variante nueva estaba atrayendo "buscadores gratis", no prospectos serios. Revirtimos. Mide lo que importa, no solo lo que convierte en la etapa de embudo que estás probando.
Ejecutando Múltiples Pruebas
Una vez que tienes un sistema, ejecuta pruebas concurrentes:
Ejemplo de cronograma:
- Prueba 1: Titular (semanas 1–4)
- Prueba 2: Longitud de formulario (semanas 1–4, ejecutándose simultáneamente)
- Prueba 3: Color de CTA (semanas 5–8)
Esto requiere suficiente tráfico para dividir 4 maneras (control + 3 variantes), pero si lo tienes, puedes moverte más rápido.
No pruebes 10 cosas a la vez. Eso es caos. Prueba 2–3 pruebas concurrentes máximo.
Preguntas Frecuentes
P: ¿Cuánto tiempo debería ejecutar una prueba? R: Mínimo 2 semanas (para dar cuenta de variación de día de la semana), mejor 4 semanas (para dar cuenta de patrones semanales). Ver ¿Cuánto Tiempo Debe Ser tu Período de Observación de Analytics?
P: ¿Qué tamaño de muestra necesito? R: Depende de tu tasa de conversión actual y mejora objetivo. Usa una calculadora. Rango típico: 1,000–50,000 por variante.
P: ¿Puedo mantener una variante si es 85% estadísticamente significante? R: Técnicamente, quizás. Pero recomiendo esperar 95%. La semana extra de confianza previene ganadores falsos. Además, el costo de un falso positivo (implementar una variante mala) es usualmente más alto que el beneficio de velocidad.
P: ¿Y si tengo tráfico muy bajo? R: Ejecuta pruebas más largo (6–8 semanas en lugar de 4). O prueba cambios más grandes (copia completamente nueva vs. pequeños ajustes). O usa retroalimentación cualitativa (entrevistas de usuario) para validar antes de probar.
P: ¿Debería probar móvil y desktop por separado? R: Sí, si tienes suficiente tráfico. Móvil y desktop frecuentemente se comportan diferente. Si tráfico es bajo, prueba ambos juntos primero, luego segmenta después de ver un ganador.
P: ¿Puedo A/B probar tráfico de búsqueda orgánica? R: Sí, usando GA4 Experiments. Pero nota: el tráfico orgánico es auto-seleccionado (buscaron por ti). Los cambios que funcionan para orgánico podrían no funcionar para PPC.
La Conclusión
A/B testing es cómo conviertes corazonadas en conocimiento.
Pero solo si eres disciplinado: una variable, 2–4 semanas, 95% significancia. Apresúrate y enviarás cambios malos.
Ve lento. Prueba pequeño. Aprende rápido.
Emily Redmond es analista de datos en Emilytics — agente de analytics impulsado por ía que monitorea tu GA4, Search Console, y datos de Bing todo el día. 8 años de experiencia. Saludos →