So A/B-testest du Landing Pages und misst den Gewinner in GA4

Von Emily Redmond, Datenanalystin bei Emilytics · April 2026

TL;DR: A/B-Testing in GA4 erfordert: definiere deine Hypothese, splitten Traffic 50/50, laufe für 2–4 Wochen, dann überprüfe statistische Signifikanz. Ein Test ist real nur wenn p-Wert < 0,05 ist.

Ich sah ein Unternehmen, das nach 3 Tagen Sieg erklärte. Variant war um 25% oben. Sie rollten es zu 100% des Traffics aus. Dann fiel es um 8%.

3 Tage waren nicht genug Daten. Der 25%-Lift war zufälliger Noise. Sie verletzten ihre Konversionsrate, indem sie zu früh handelnde.

A/B-Testing ist mächtig. Aber nur, wenn du es richtig machst.

Das A/B-Testing Framework

A/B-Testing hat eine Regel: ändere eine Variable auf einmal.

Wenn du Headline, Bild und Button-Farbe alle auf einmal änderst, wirst du nicht wissen, welcher die Nadel bewegt.

Der Prozess:

Mache eine Hypothese (spezifisch, messbar)
Ändere eine Variable
Führe sie auf 50% des Traffics aus
Halte die anderen 50% als Kontrolle
Messe für 2–4 Wochen
Berechne statistische Signifikanz
Entscheide

Schritt 1: Formuliere deine Hypothese

Eine gute Hypothese ist spezifisch und testbar.

Schlechte Hypothese: „Das Formular ist wahrscheinlich zu lang."

Gute Hypothese: „Unser 5-Feld-Formular hat 25%-Completion-Rate. Konkurrenz-Formulare mit 2 Feldern haben 40%-Completion. Wenn wir unser Formular auf 2 Felder reduzieren (Email + Company), erhöhen wir die Completion um mindestens 15%."

Die gute Hypothese:

Nennt das Problem (5 Felder)
Hat eine Benchmark (Konkurrenz-Daten)
Ist messbar (mindestens 15%-Verbesserung)
Hat einen Grund (reduzierte Reibung)

Schritt 2: Entscheide, was zu testen ist

Häufige A/B-Tests:

Element	Beispiel
Headline	„Starte deinen kostenlosen Trial heute" vs. „Bekomme Produktivitäts-Superkräfte"
CTA Text	„Submit" vs. „Beginnen" vs. „Beanspruche deinen kostenlosen Trial"
CTA Farbe	Blau vs. Orange vs. Grün
Form Felder	5 Felder vs. 3 Felder vs. 1 Feld
Bild	Stock Foto vs. Customer Foto vs. Kein Bild
Copy Länge	200 Worte vs. 500 Worte
Social Proof	Keine Testimonials vs. 3 Testimonials vs. 5 Testimonials

Regel: Teste die Elemente, die Konversion fahren, nicht die, die sich gut anfühlen.

Button-Farbe ändern: Niedriger Impact normalerweise (5–10%-Lifts höchstens). Headline ändern: Hoher Impact normalerweise (15–30%-Lifts möglich). Form-Länge ändern: Hoher Impact (20–40%-Lifts möglich).

Schritt 3: Richte deinen Test in GA4 auf

GA4 hat ein natives A/B-Testing-Tool: GA4 Experiments.

Um aufzurichten:

Gehe zu GA4 Admin → Experiments
Klicke „Create Experiment"
Benenne es: „Homepage CTA Test" oder ähnlich
Wähle deine Campaign: welcher Traffic wird getestet? (all Traffic, oder spezifische Quelle)
Wähle Varianten:
- Control (Original)
- Variant 1 (neue Version)
Setze Traffic-Allokation: 50% Control, 50% Variant
Wähle deine primäre Metrik: Conversion Rate
Setze deine Hypothese: Minimum detectable Effect (z.B. 15%-Verbesserung)

GA4 wird die benötigte Sample Size berechnen.

Alternative: Nutze ein Drittpartei-Tool

Wenn du Optimizely, VWO oder Unbounce nutzt, handhaben sie das Splitting und das Messen. Du brauchst GA4 Experiments nicht.

Vorteil: leichter zu nutzen, besseres Reporting Nachteil: Ein anderes Tool zum Zahlen

Für diesen Guide, werde ich GA4 Experiments annehmen.

Schritt 4: Berechne deine Sample Size

Das ist kritisch. Zu wenige Besucher und du misst Noise. Zu viele und du verschwendest Zeit.

GA4 Experiments berechnet das für dich, aber hier ist die Mathe:

Du brauchst genug Besucher, um deine Ziel-Verbesserung mit 95%-Zuversicht zu erkennen.

Beispiel:

Aktuelle Konversionsrate: 2%
Ziel-Verbesserung: 15% (zu 2,3%)
Zuversicht-Level: 95%
Benötigte Sample Size: ~33.000 Besucher pro Variant

Wenn du 10.000 monatliche Besucher hast:

5.000 zu Control
5.000 zu Variant
Das ist eine halbe Woche pro Variant
Also 1 Monat Total Test-Dauer

Nutze einen Online-Rechner (Optimizely, VWO oder GCALC), um deine spezifische Sample Size zu berechnen.

Schritt 5: Führe deinen Test durch

Regeln zum Durchführen eines Tests:

Regel 1: Schau nicht auf Ergebnisse, bevor der Test endet Jedes Mal, wenn du schaust, wirst du versucht, früh zu stoppen. Mach nicht. Warte auf die volle Dauer.

Regel 2: Führe für mindestens 2 Wochen durch Wochentags-Variation ist real. Montag ≠ Freitag. Laufe mindestens zwei komplette Wochen.

Regel 3: Führe für mindestens 1 kompletten Sales-Zyklus durch (wenn anwendbar) Wenn dein Sales-Zyklus 4 Wochen ist, laufe mindestens 4 Wochen. Sonst vergleichst du Äpfel zu Orangen.

Regel 4: Ändere deine Hypothese nicht unterwegs Du startest, indem du „Form-Länge" testest. Wechsle nicht zu „Button-Farbe" mittendrin. Beende den Test.

Regel 5: Verfolge alle Konversionen, nicht nur die Haupte Wenn du testest, um Form-Submits zu erhöhen, verfolge auch:

Form-Completion-Rate
Form Abandonment
Downstream Conversions (haben sie wirklich gekauft?)

Ein Test könnte Form-Submits erhöhen, aber Form-Qualität senken. Du brauchst beides zu sehen.

Schritt 6: Analysiere die Ergebnisse

Der Test ist vorbei. Jetzt liest du die Daten.

Schritt 1: Überprüfe Sample Size Hast du genug Besucher, um eine Schlussfolgerung zu machen? Nutze den Rechner nochmal.

Wenn ja, fahre fort
Wenn nein, brauchst du mehr Zeit oder mehr Traffic

Schritt 2: Berechne statistische Signifikanz Das ist die wichtigste Metrik. Nutze GA4s eingebaute Stats oder einen Rechner wie diesen:

Statistische Signifikanz = wie zuversichtlich sind wir, dass dieses Ergebnis real ist (nicht zufällig)?

Du willst mindestens 95%-Zuversicht. In Statistik-Sprache: p-Wert < 0,05.

Beispiel:

Control: 2% Konversionsrate
Variant: 2,4% Konversionsrate (+20%)
Sample Size: 50.000 pro Variant
Zuversicht: 95% (p-Wert = 0,03)

Interpretation: Es gibt eine 95%-Chance, dass diese 20%-Verbesserung real ist. Du kannst einen Gewinner erklären.

Gegen-Beispiel:

Control: 2% Konversionsrate
Variant: 2,3% Konversionsrate (+15%)
Sample Size: 100 pro Variant
Zuversicht: 60% (p-Wert = 0,40)

Interpretation: Es gibt nur eine 60%-Chance, dass diese Verbesserung real ist. Könnte Glück sein. Halte den Test laufen oder verlasse ihn.

GA4 Experiments macht diese Berechnung für dich automatisch. Es wird dir sagen „Dieses Ergebnis ist 87% statistisch signifikant" oder „95% statistisch signifikant." Nur auf 95%+ handeln.

Schritt 3: Überprüfe sekundäre Metriken Hat die Variant verbessert:

Konversionsrate? Ja ✓
Revenue pro Konversion? Ist es gestiegen oder gefallen?
Bounce Rate? Ist es schlechter geworden?
Form-Completion-Rate? Haben mehr Leute beendet?

Ein Test könnte statistisch signifikant sein, aber andere Metriken verletzten. Überprüfe.

Erkläre einen Gewinner

Wenn Variant gewinnt (95%+ Zuversicht):

Rolle es zu 100% des Traffics aus
Dokumentiere das Ergebnis (was änderte, was verbesserte, wie viel)
Bewege zum nächsten Test

Wenn Control gewinnt:

Halte das Original
Gehe zurück zur Zeichenplatine
Was ging falsch mit der Hypothese?

Wenn kein Gewinner (unter 95%-Zuversicht):

Option 1: Führe den Test länger durch (nochmal 2 Wochen)
Option 2: Akzeptiere, dass es keinen sinnvollen Unterschied gibt und halte das Original
Option 3: Ändere deine Hypothese und teste etwas anderes

Halte eine „verlierende" Variant nicht nur, weil du sie magst. Daten gewinnen.

Häufige A/B-Testing-Fehler

Fehler 1: Teste zu viele Dinge auf einmal Wenn du Headline und Button-Farbe änderst, wirst du nicht wissen, welcher funktionierte. Teste eine Variable.

Fehler 2: Stoppe den Test früh Du triffst statistische Signifikanz am Tag 10. Stopp! Du brauchst 2–4 Wochen, um wöchentliche Variation zu berücksichtigen.

Fehler 3: Messe die falsche Metrik Teste Form-Länge, aber messe Form-Submits, nicht Form-Completion-Rate. Messe, was zählt.

Fehler 4: Berücksichtige nicht saisonale Variation Teste deine Homepage während Black Friday? Ergebnisse werden nicht auf normalen Traffic anwenden. Teste während „normalen" Perioden.

Fehler 5: Ignoriere Variant-Qualität Ein Test könnte Konversionen erhöhen, aber Konvertiert Kunden niedrigerer Qualität. Überprüfe Downstream-Metriken (Rückgaben, Support Tickets, LTV).

💡 Emilys Gedanke: Ich lief mal einen Test, der Free-Trial-Signups um 40% erhöhte. Sah großartig aus. Dann realisierte ich, dass die Konversionsrate von Free Trial zu Bezahlt tatsächlich um 20% sinkt, weil die neue Variant „Freebie Seekers" anzog, nicht ernsthafte Prospects. Wir revertierten. Messe, was zählt, nicht nur, was am Funnel-Stage konvertiert, den du testest.

Führe mehrere Tests aus

Sobald du ein System hast, laufe gleichzeitige Tests:

Zeitplan-Beispiel:

Test 1: Headline (Wochen 1–4)
Test 2: Form-Länge (Wochen 1–4, laufen gleichzeitig)
Test 3: CTA-Farbe (Wochen 5–8)

Das erfordert genug Traffic, um 4 Wege zu splitten (Control + 3 Varianten), aber wenn du es hast, kannst du schneller gehen.

Teste nicht 10 Dinge auf einmal. Das ist Chaos. Teste 2–3 gleichzeitige Tests maximal.

Häufig gestellte Fragen

F: Wie lange sollte ich einen Test durchführen? A: Mindestens 2 Wochen (um Wochentags-Variation zu berücksichtigen), besser 4 Wochen (um wöchentliche Muster zu berücksichtigen). Siehe Wie lange sollte dein Analytics Observation Period sein?

F: Welche Sample Size brauch ich? A: Hängt von deiner aktuellenkonversionsrate und Ziel-Verbesserung ab. Nutze einen Rechner. Typischer Bereich: 1.000–50.000 pro Variant.

F: Kann ich eine Variant halten, wenn sie 85%-statistisch signifikant ist? A: Technisch, vielleicht. Aber ich empfehle, auf 95% zu warten. Die extra Woche der Zuversicht verhindert falsche Gewinner. Plus, der Kosten eines False Positive (Ausrollung einer schlechten Variant) ist normalerweise höher als der Nutzen der Geschwindigkeit.

F: Was, wenn ich sehr wenig Traffic habe? A: Laufe Tests länger (6–8 Wochen statt 4). Oder teste größere Veränderungen (völlig neue Copy vs. kleine Tweaks). Oder nutze qualitatives Feedback (User Interviews), um vorher zu validieren.

F: Sollte ich auf Mobile und Desktop separat testen? A: Ja, wenn du genug Traffic hast. Mobile und Desktop verhalten sich oft unterschiedlich. Wenn Traffic niedrig ist, teste zuerst beides zusammen, dann segmentiere, nachdem du einen Gewinner siehst.

F: Kann ich Organic-Search-Traffic A/B-testen? A: Ja, mit GA4 Experiments. Aber beachte: Organic Traffic ist selbst-selektiert (sie suchten nach dir). Änderungen, die für Organic funktionieren, könnten nicht für PPC funktionieren.

Das Bottom Line

A/B-Testing ist, wie du Bauchgefühl in Wissen verwandelst.

Aber nur, wenn du diszipliniert bist: eine Variable, 2–4 Wochen, 95%-Signifikanz. Haue es und du wirst schlechte Veränderungen ausrolleen.

Geh langsam. Teste klein. Lerne schnell.

Emily Redmond ist eine Datenanalystin bei Emilytics – AI Analytics Agent, der deine GA4, Search Console und Bing-Daten rund um die Uhr überwacht. 8 Jahre Erfahrung. Sag Hallo →