Wie lange sollte dein Analytics Beobachtungs-Zeitraum sein, bevor du eine Änderung machst?

Von Emily Redmond, Datenanalystin bei Emilytics · April 2026

TL;DR: Minimal 2 Wochen (erkläre Tag-der-Woche-Variation), besser 4 Wochen (erkläre wöchentliche Variation). Messe nicht tägliche Änderungen als Trends.

Ich sah ein Unternehmen, das einen Test-Sieg bei Tag 5 feierte.

Variante war 30% hoch. CEO genehmigte den Rollout.

Bei Tag 14 war die Variante 5% unten. Bei Tag 28 war es exakt angebunden mit dem Control.

Was passiert? Zufällige Variation. 5 Tage Daten ist nicht genug um etwas zu beweisen.

Das ist warum Beobachtungs-Zeitraum zählt.

Warum Beobachtungs-Zeitraum zählt

Deine Konvertierungsrate variiert nach Tag der Woche:

Tag	Konvertierung
Montag	3,2 %
Dienstag	3,1 %
Mittwoch	2,9 %
Donnerstag	3,0 %
Freitag	2,8 %
Samstag	2,2 %
Sonntag	2,4 %

Gleicher Traffic, gleich Produkt, verschiedene Resultate.

Wenn du einen Test Montag–Freitag laufst, du bias (Wochentag Traffic). Wenn du nur Montag misst, du könnte einen Peak oder Tal treffen.

Minimal Beobachtungs-Zeitraum: 2 Wochen (um zwei volle Wochen der Tag-der-Woche-Variation zu erfassen)

Der Beobachtungs-Zeitraum nach Szenario

Szenario 1: A/B Testing

Minimal: 2 Wochen (eine volle Montag–Sonntag Zyklus × 2) Besser: 4 Wochen (erfasst zwei volle Wochen, erklärt Schwankung) Max: 6 Wochen (jenseits davon, externe Faktoren trüben die Daten)

Warum nicht länger?

Nach 4 Wochen, externe Faktoren (Saisonalität, Konkurrenten-Moves, Traffic-Quellen-Änderungen) starten Resultate beeinflussend
Du willst frische Daten, nicht alte Tests

Szenario 2: Gemessene Baseline-Konvertierungsrate

Minimal: 4 Wochen Besser: 12 Wochen (drei Monate zeigen Saisonalität) Kontext: Du testest nicht etwas, nur gemessen „was ist normal?"

Ein Monat erfasst:

Zwei volle Wochen der Tag-der-Woche-Variation
Feiertage (wenn etwas)
Traffic-Muster-Variation

Szenario 3: Gemessene Post-Launch-Auswirkung

Zeitplan:

Deploy Änderung: Tag 1
Gemessen: Tage 1–7
Frühe Anzeichen: Geht es in der richtigen Richtung?
Gemessen: Tage 1–14
Bestätigung: Hält die Richtung?
Gemessen: Tage 1–28
Finale Verdikt: Echte Verbesserung oder Zufälliger Variation?

Tägliche Änderungen vs. Trends

Tägliche Konvertierungsrate: Sehr Noisy, kümmern nicht Wöchentliche Konvertierungsrate: Mehr stabil, können zu trauen anfangen Monatliche Konvertierungsrate: Sehr stabil, zuverlässig für Entscheidungen

Beispiel:

Tag 1: 2,5% (kümmern, gerade Noise)
Tag 2: 3,2% (Spike, gerade Noise)
Tag 3: 2,1% (Drop, gerade Noise)
Tag 4: 2,8% (zurück hoch, gerade Noise)
Woche 1-Durchschnitt: 2,65% (jetzt sprechen wir)
Woche 2-Durchschnitt: 2,72% (ist das ein Trend?)
Monat 1-Durchschnitt: 2,68% (das ist echte Daten)

Regel: Mache niemals Entscheidungen auf Daten weniger als 1 Woche alt.

Kontrolle für Saisonalität

Manche Tage/Wochen haben innere Saisonalität:

Periode	Konvertierungs-Bias	Warum
Montag–Freitag	Leicht höher	Arbeitstag, absichtliche Suche
Wochenende	Niedrigere	Casual browsing
Schwarzer Freitag	Viel höher	Promational-Intent
Januar 1–2	Variiert (Feiertag)	—
Sommer (Juli–Aug)	Niedrigere	Ferien

Wenn dein Test auf einen anomalen Tag fällt:

Schwarzer Freitag Test: Nicht rollout basierend auf Schwarzen Freitag Resultaten (anwenden nicht zu Regel Traffic).

Urlaubs-Woche Test: Könntest niedrigere Konvertierung sehen (weniger Intent). Warte bis normale Wochen wiederaufnahme.

Beste Praxis: Laufe Tests während „normale" Wochen (vermeide Feiertage, Förderung, Hauptereignisse).

Niedrig-Traffic Seiten: Längere Beobachtungs-Zeitraum

Wenn du 100 Besucher pro Woche hast:

1-Woche Beobachtung: nur 100 Datenpunkte (sehr Noisy)
4-Woche Beobachtung: 400 Datenpunkte (mehr stabil)
12-Woche Beobachtung: 1.200 Datenpunkte (zuverlässig)

Für niedrig-Traffic Seite, du könntest 8–12 Wochen pro Test brauchen.

Berechne dein Minimal-Stichprobengröße:

Baseline-Konvertierung: 2%
Ziel-Verbesserung: 15% (zu 2,3%)
Stichprobengröße gebraucht: 3.000 pro Variante
Traffic pro Woche: 100 Besucher
Beobachtungs-Zeitraum: 30 Wochen

Niedrig-Traffic Seite braucht länger. Plan entsprechend.

Hoch-Traffic Seiten: Können schneller messen

Wenn du 10.000 Besucher pro Woche hast:

1-Woche Beobachtung: 10.000 Datenpunkte (fair stabil)
2-Woche Beobachtung: 20.000 Datenpunkte (sehr stabil)
4-Woche Beobachtung: 40.000 Datenpunkte (extrem stabil)

Du kannst schneller messen, aber nicht. Laufe immer mindestens 2 Wochen um Tag-der-Woche zu kontrollieren.

Statistische Signifikanz vs. Beobachtungs-Zeitraum

Statistische Signifikanz: Wie zuversichtlich sind wir dieses Ergebnis ist echt (nicht Random)?

Beobachtungs-Zeitraum: Wie lange sollten wir laufen um statistisch signifikante Resultate zu bekommen?

Sie sind verwandt aber unterschiedlich:

5-Tage Test mit 100.000 Besucher könnte statistisch signifikant sein (große Stichprobengröße)
4-Woche Test mit 1.000 Besucher könnte nicht statistisch signifikant sein (kleine Stichprobengröße)

Stichprobengröße (Traffic) zählt mehr als Zeit, aber du brauchst beide.

Regel of Thumb:

2 Wochen Minimal (kontrolliere Tag-der-Woche)
Berechne Stichprobengröße für dein Traffic (nutze Online-Kalkulator)
Welcher ist länger, nutze das

Rollout-Zeitpunkt: Nicht Eile

Sobald dein Test ist fertig und zeigt einen Gewinner:

Nicht: Sofort rollout 100% Tue: Graduell Rollout (10% → 25% → 50% → 100%)

Warum?

Gibt dir Zeit um Fehler zu fangen
Lass dich echte-Welt Leistung überwachen (nicht Test-Umgebung)
Lass dich revert wenn etwas bricht

Zeitplan:

Tag 1: Rollout zu 10% von Benutzer
Tag 2–3: Überwachen, keine Probleme → rollout 25%
Tag 4–5: Überwachen, keine Probleme → rollout 50%
Tag 6–7: Überwachen, keine Probleme → rollout 100%

Gesamt: 1 Woche sicher rollout eine getestete Änderung.

Häufig gestellte Fragen

F: Kann ich einen Test für nur 1 Woche laufen? A: Technisch ja, aber es ist riskig. Tag-der-Woche-Variation ist echt. Du bekommst bias Resultate. Minimal 2 Wochen.

F: Was wenn mein Test zeigt einen Gewinner bei Tag 7? A: Halte es laufen. Was sieht wie ein Gewinner könnte einer wöchentlich Schwankung sein. Laufe die volle Periode bevor zu entscheiden.

F: Sollte ich einen Test früh stoppen wenn es offensichtlich verliert? A: Nein. „Offensichtlich verliert" bei Tag 7 ist gerade Noise. Halte es laufen. Vielleicht es genest (weniger häufig, aber passiert).

F: Wie erkläre ich das zu mein Boss, der Resultate JETZT will? A: „Wir können früh rollout, aber wir wahrscheinlich ein schlechte Änderung versenden. Wollen zu versenden die rechte Änderung zur rechten Zeit, oder die schnelle Änderung zur falschen Zeit?" Meist Bosse wählen Geduld.

F: Was wenn ich eine große Feature teste? A: Laufe für 4 Wochen Minimal. Große Features brauchen Zeit um Auswirkung zu zeigen.

Der Beobachtungs-Zeitraum Kalender

Szenario	Minimal	Empfohlen
Kleine Änderung (Button-Farbe)	2 Wochen	4 Wochen
Mittlere Änderung (Formular-Reduktion)	2 Wochen	4 Wochen
Große Änderung (Checkout Redesign)	4 Wochen	8 Wochen
Neue Feature	4 Wochen	8 Wochen
Gemessene Baseline	4 Wochen	12 Wochen

Das Endergebnis

Geduld gewinnt in CRO.

Zwei Wochen Minimal. Vier Wochen besser. Messe nicht tägliche Änderungen.

Statistische Signifikanz + ausreichende Stichprobengröße = Vertrauen in Resultaten.

Eile es, und du wirst Gewinner versenden, die werden Verlierer.

Emily Redmond ist Datenanalystin bei Emilytics – AI Analytics Agent, der deine GA4, Search Console und Bing-Daten rund um die Uhr überwacht. 8 Jahre Erfahrung. Sag Hallo →