Spis treści
A/B test brzmi prosto: pokaż połowie klientów wersję A, połowie B, sprawdź która konwertuje lepiej. W praktyce 80% A/B testów daje błędne wnioski przez błędy statystyczne. Pokażę Ci, jak to robić poprawnie i jakich pułapek unikać.
W skrócie
- A/B test = wersja kontrolna (A) vs wersja zmieniona (B), losowo pokazywane.
- Minimalna próbka: zwykle 5 000–20 000 wizyt na wariant dla istotności statystycznej.
- Czas trwania: minimum 2 pełne tygodnie (uwzględnij sezonowość), lepiej 4.
- Narzędzia w 2026: VWO, Convert, Optimizely (po Google Optimize sunset).
Po co A/B testy
Bez testów wszystkie decyzje optymalizacyjne to opinie. Przykład:
„Zmieniłem button z niebieskiego na pomarańczowy. Konwersja wzrosła o 12%. Pomarańczowy to lepszy kolor.”
To nieprawda, jeśli:
– Próbka była mała (np. 200 wizyt)
– Czas testu był krótki (3 dni)
– W tych dniach był weekend / inne kampanie
– Wzrost 12% mieścił się w naturalnej fluktuacji (variance)
Dobry A/B test daje pewność, czy zmiana faktycznie zadziałała.
5 reguł dobrego A/B testu
Reguła 1: Hipoteza zanim test
Każdy test zaczynaj od hipotezy:
„Wierzę, że dodanie social proof '247 osób kupiło dziś’ pod ceną zwiększy konwersję o min. 8%, bo zmniejszy niepewność klientów. Zmierzę to przez 4 tygodnie.”
Hipoteza powinna mieć:
– Konkretną zmianę (co zmieniam)
– Spodziewany efekt (kierunek + wielkość)
– Uzasadnienie (dlaczego)
– Metrykę (co mierzę)
Reguła 2: Jedna zmienna naraz
Najczęstszy błąd: zmiana 5 rzeczy naraz, potem nie wiesz, co zadziałało.
Test właściwy:
– Wersja A: button „Kup teraz” niebieski
– Wersja B: button „Kup teraz” pomarańczowy (1 zmiana)
Test BŁĘDNY:
– Wersja A: button niebieski „Kup”
– Wersja B: button pomarańczowy „Zamów teraz” + nowy tekst pod CTA + ikona koszyka
Wyjątek: redesign A/B — testujesz całą nową wersję strony vs starą. To valid, ale daje mniej insightów niż micro-testy.
Reguła 3: Próbka odpowiednio duża
Statystyczna istotność (p-value < 0.05) wymaga próbki:
- Mała różnica (1–3% lift): 20 000+ konwersji per wariant
- Średnia różnica (5–10% lift): 5 000+ konwersji per wariant
- Duża różnica (15%+ lift): 1 000+ konwersji per wariant
Kalkulator próbki: abtestguide.com/calc
Wpisz baseline conversion (np. 2%), oczekiwany lift (np. 10%), istotność (95%) → kalkulator powie ile potrzebujesz wizyt.
Reguła 4: Czas trwania min. 2 pełne tygodnie
Sklep ma różne zachowania w różnych dniach tygodnia i godzinach dnia. Test 3-dniowy może trafić tylko na weekend (wyższa konwersja) lub poniedziałek (niższa).
Standardowo: minimum 2 tygodnie, lepiej 4 tygodnie.
Wyjątki:
– Test bardzo zmieniającego się (np. cały redesign) — 6–8 tygodni
– Test sezonowego zachowania (Black Friday) — testuj poza sezonem
Reguła 5: Nie zatrzymuj testu wcześniej
Najgorszy błąd: test trwa 4 dni, B „wygrywa” o 8%, zatrzymujesz test, wdrażasz B.
To NIE oznacza wygranej. Lift mógł być statystycznie nieistotny (variance). Po 30 dniach okazałoby się, że B jest gorsze.
Zasada: czekaj na minimum 2 tygodnie + osiągniecie zaplanowanej próbki + p-value < 0.05.
Najczęstsze błędy statystyczne
1. Peeking problem
Sprawdzasz wyniki testu codziennie. Widzisz, że jeden dzień A wygrywa, drugi B wygrywa, trzeci A. Każde sprawdzenie zwiększa szansę fałszywego pozytywu.
Naprawa: ustaw datę końca testu (np. 4 tygodnie) i nie patrz na wyniki przez ten czas. Albo używaj „sequential testing” (Bayesian methods).
2. SRM (Sample Ratio Mismatch)
Test 50/50, ale po tygodniu masz 60% w A, 40% w B. Coś się złe (cookie issues, bug w randomizacji). Wyniki testu nieprawdziwe.
Naprawa: zawsze sprawdzaj rozkład próbek. Jeśli SRM > 5% odchylenia → debugowanie.
3. Multiple comparisons
Testujesz 5 wariantów (A, B, C, D, E). Każde porównanie ma p-value 0.05. Ale łączna szansa fałszywego pozytywu to 1 – 0.95^4 = 18,5%!
Naprawa: Bonferroni correction (podziel p-value przez liczbę porównań) lub używaj Bayesian.
4. Mylenie korelacji z przyczynowością
„Klient widzący wersję B częściej kupuje”. OK — ale może wersja B przyciąga konkretnych klientów (segment), nie zmienia zachowania ogółu.
Naprawa: segmentuj wyniki (mobile vs desktop, nowy vs powracający, źródło ruchu).
5. Brak grupy kontrolnej w czasie
Wzrost konwersji o 10% może być sezonowy (po Black Friday, kupują więcej). Bez kontroli nie wiesz, czy to test, czy sezon.
Naprawa: zawsze A/B/C, gdzie A i C są identyczne (kontrole). Jeśli A i C dają różne wyniki → coś jest nie tak z testem.
Narzędzia w 2026
Po sunset Google Optimize (2023) rynek się zmienił.
VWO (Visual Website Optimizer)
- ★★★★★ funkcjonalność
- Cena: od $200/mies.
- Visual editor (no-code)
- Heatmapy w pakiecie
- Najpopularniejszy w PL po Google Optimize
Convert.com
- ★★★★ funkcjonalność, lżejszy niż VWO
- Cena: od $99/mies.
- Dobra integracja z GA4
- Polecany dla średnich sklepów
Optimizely
- ★★★★★ enterprise
- Cena: indywidualna ($1 000+/mies.)
- Dla dużych firm z dedykowanymi zespołami CRO
A/B Press (WordPress, free)
- Darmowa wtyczka WP
- Podstawowe testy (split URL, content variants)
- Brak zaawansowanej analityki
Posthog (open-source)
- Self-hosted, darmowy
- Wymaga technicznej wiedzy
- Pełna kontrola nad danymi
Co warto testować w e-commerce
Strona główna
- Hero (hasło, wideo vs zdjęcie)
- Pierwsza sekcja (USP vs bestseller list)
- CTA primary
Karta produktu
- Pozycja CTA „Kup teraz”
- Liczba zdjęć
- Pozycja recenzji
- Social proof
Lista produktów
- Sortowanie domyślne
- Liczba produktów per strona
- Format kart (z opisem vs bez)
Checkout
- 1-page vs multi-step
- Pozycja BLIK
- Forma adresu (auto-fill vs manual)
- Tytuły maili
- Czas wysyłki recovery
- Wartość kuponu (5% vs 10%)
7 testów, które ZAWSZE warto przeprowadzić
- Kolor głównego CTA — nawet 1% zysku to dużo przy dużym ruchu
- Tekst CTA („Kup teraz” vs „Dodaj do koszyka”)
- Pozycja social proof (pod ceną vs pod opisem)
- One-page vs multi-step checkout
- Pop-up newsletter (1 sekunda vs 30 sekund vs exit-intent)
- Liczba pól w formularzu
- Hero image vs hero video (efekt na LCP też)
Najczęstsze testy, które dają NULL effect
❌ Mikrozmiany copy (zmiana „Kup” na „Kupić”) — różnice <1%, niewykrywalne
❌ Zmiana koloru o 1 odcień — niewykrywalne
❌ Subtelne zmiany ikonografii — klient nie zauważa
Wniosek: testuj duże zmiany, nie kosmetyki. Drobne wdrażaj bez testu na podstawie best practices.
Co dalej
W tym tygodniu:
- Wybierz 1 hipotezę (np. „BLIK jako pierwsza metoda zwiększy konwersję o 10%”)
- Oblicz potrzebną próbkę (kalkulator abtestguide.com)
- Wybierz narzędzie (VWO trial / Convert / Posthog)
- Postaw test na 4 tygodnie
- NIE peekuj
- Po 4 tygodniach — analiza i decyzja
Prowadzimy A/B testy w abonamencie CRO — w pakiecie „CRO Pro” (4 500 zł/mies.) testujemy 4 hipotezy miesięcznie z pełną analityką i raportami. Napisz do nas.






