E-commerce

A/B testy w e-commerce – jak unikać błędów statystycznych i fałszywych wniosków

Spis treści

A/B test brzmi prosto: pokaż połowie klientów wersję A, połowie B, sprawdź która konwertuje lepiej. W praktyce 80% A/B testów daje błędne wnioski przez błędy statystyczne. Pokażę Ci, jak to robić poprawnie i jakich pułapek unikać.

W skrócie

  • A/B test = wersja kontrolna (A) vs wersja zmieniona (B), losowo pokazywane.
  • Minimalna próbka: zwykle 5 000–20 000 wizyt na wariant dla istotności statystycznej.
  • Czas trwania: minimum 2 pełne tygodnie (uwzględnij sezonowość), lepiej 4.
  • Narzędzia w 2026: VWO, Convert, Optimizely (po Google Optimize sunset).

Po co A/B testy

Bez testów wszystkie decyzje optymalizacyjne to opinie. Przykład:

„Zmieniłem button z niebieskiego na pomarańczowy. Konwersja wzrosła o 12%. Pomarańczowy to lepszy kolor.”

To nieprawda, jeśli:
– Próbka była mała (np. 200 wizyt)
– Czas testu był krótki (3 dni)
– W tych dniach był weekend / inne kampanie
– Wzrost 12% mieścił się w naturalnej fluktuacji (variance)

Dobry A/B test daje pewność, czy zmiana faktycznie zadziałała.

5 reguł dobrego A/B testu

Reguła 1: Hipoteza zanim test

Każdy test zaczynaj od hipotezy:

„Wierzę, że dodanie social proof '247 osób kupiło dziś’ pod ceną zwiększy konwersję o min. 8%, bo zmniejszy niepewność klientów. Zmierzę to przez 4 tygodnie.”

Hipoteza powinna mieć:
Konkretną zmianę (co zmieniam)
Spodziewany efekt (kierunek + wielkość)
Uzasadnienie (dlaczego)
Metrykę (co mierzę)

Reguła 2: Jedna zmienna naraz

Najczęstszy błąd: zmiana 5 rzeczy naraz, potem nie wiesz, co zadziałało.

Test właściwy:
– Wersja A: button „Kup teraz” niebieski
– Wersja B: button „Kup teraz” pomarańczowy (1 zmiana)

Test BŁĘDNY:
– Wersja A: button niebieski „Kup”
– Wersja B: button pomarańczowy „Zamów teraz” + nowy tekst pod CTA + ikona koszyka

Wyjątek: redesign A/B — testujesz całą nową wersję strony vs starą. To valid, ale daje mniej insightów niż micro-testy.

Reguła 3: Próbka odpowiednio duża

Statystyczna istotność (p-value < 0.05) wymaga próbki:

  • Mała różnica (1–3% lift): 20 000+ konwersji per wariant
  • Średnia różnica (5–10% lift): 5 000+ konwersji per wariant
  • Duża różnica (15%+ lift): 1 000+ konwersji per wariant

Kalkulator próbki: abtestguide.com/calc

Wpisz baseline conversion (np. 2%), oczekiwany lift (np. 10%), istotność (95%) → kalkulator powie ile potrzebujesz wizyt.

Reguła 4: Czas trwania min. 2 pełne tygodnie

Sklep ma różne zachowania w różnych dniach tygodnia i godzinach dnia. Test 3-dniowy może trafić tylko na weekend (wyższa konwersja) lub poniedziałek (niższa).

Standardowo: minimum 2 tygodnie, lepiej 4 tygodnie.

Wyjątki:
– Test bardzo zmieniającego się (np. cały redesign) — 6–8 tygodni
– Test sezonowego zachowania (Black Friday) — testuj poza sezonem

Reguła 5: Nie zatrzymuj testu wcześniej

Najgorszy błąd: test trwa 4 dni, B „wygrywa” o 8%, zatrzymujesz test, wdrażasz B.

To NIE oznacza wygranej. Lift mógł być statystycznie nieistotny (variance). Po 30 dniach okazałoby się, że B jest gorsze.

Zasada: czekaj na minimum 2 tygodnie + osiągniecie zaplanowanej próbki + p-value < 0.05.

Najczęstsze błędy statystyczne

1. Peeking problem

Sprawdzasz wyniki testu codziennie. Widzisz, że jeden dzień A wygrywa, drugi B wygrywa, trzeci A. Każde sprawdzenie zwiększa szansę fałszywego pozytywu.

Naprawa: ustaw datę końca testu (np. 4 tygodnie) i nie patrz na wyniki przez ten czas. Albo używaj „sequential testing” (Bayesian methods).

2. SRM (Sample Ratio Mismatch)

Test 50/50, ale po tygodniu masz 60% w A, 40% w B. Coś się złe (cookie issues, bug w randomizacji). Wyniki testu nieprawdziwe.

Naprawa: zawsze sprawdzaj rozkład próbek. Jeśli SRM > 5% odchylenia → debugowanie.

3. Multiple comparisons

Testujesz 5 wariantów (A, B, C, D, E). Każde porównanie ma p-value 0.05. Ale łączna szansa fałszywego pozytywu to 1 – 0.95^4 = 18,5%!

Naprawa: Bonferroni correction (podziel p-value przez liczbę porównań) lub używaj Bayesian.

4. Mylenie korelacji z przyczynowością

„Klient widzący wersję B częściej kupuje”. OK — ale może wersja B przyciąga konkretnych klientów (segment), nie zmienia zachowania ogółu.

Naprawa: segmentuj wyniki (mobile vs desktop, nowy vs powracający, źródło ruchu).

5. Brak grupy kontrolnej w czasie

Wzrost konwersji o 10% może być sezonowy (po Black Friday, kupują więcej). Bez kontroli nie wiesz, czy to test, czy sezon.

Naprawa: zawsze A/B/C, gdzie A i C są identyczne (kontrole). Jeśli A i C dają różne wyniki → coś jest nie tak z testem.

Narzędzia w 2026

Po sunset Google Optimize (2023) rynek się zmienił.

VWO (Visual Website Optimizer)

  • ★★★★★ funkcjonalność
  • Cena: od $200/mies.
  • Visual editor (no-code)
  • Heatmapy w pakiecie
  • Najpopularniejszy w PL po Google Optimize

Convert.com

  • ★★★★ funkcjonalność, lżejszy niż VWO
  • Cena: od $99/mies.
  • Dobra integracja z GA4
  • Polecany dla średnich sklepów

Optimizely

  • ★★★★★ enterprise
  • Cena: indywidualna ($1 000+/mies.)
  • Dla dużych firm z dedykowanymi zespołami CRO

A/B Press (WordPress, free)

  • Darmowa wtyczka WP
  • Podstawowe testy (split URL, content variants)
  • Brak zaawansowanej analityki

Posthog (open-source)

  • Self-hosted, darmowy
  • Wymaga technicznej wiedzy
  • Pełna kontrola nad danymi

Co warto testować w e-commerce

Strona główna

  • Hero (hasło, wideo vs zdjęcie)
  • Pierwsza sekcja (USP vs bestseller list)
  • CTA primary

Karta produktu

  • Pozycja CTA „Kup teraz”
  • Liczba zdjęć
  • Pozycja recenzji
  • Social proof

Lista produktów

  • Sortowanie domyślne
  • Liczba produktów per strona
  • Format kart (z opisem vs bez)

Checkout

  • 1-page vs multi-step
  • Pozycja BLIK
  • Forma adresu (auto-fill vs manual)

Email

  • Tytuły maili
  • Czas wysyłki recovery
  • Wartość kuponu (5% vs 10%)

7 testów, które ZAWSZE warto przeprowadzić

  1. Kolor głównego CTA — nawet 1% zysku to dużo przy dużym ruchu
  2. Tekst CTA („Kup teraz” vs „Dodaj do koszyka”)
  3. Pozycja social proof (pod ceną vs pod opisem)
  4. One-page vs multi-step checkout
  5. Pop-up newsletter (1 sekunda vs 30 sekund vs exit-intent)
  6. Liczba pól w formularzu
  7. Hero image vs hero video (efekt na LCP też)

Najczęstsze testy, które dają NULL effect

Mikrozmiany copy (zmiana „Kup” na „Kupić”) — różnice <1%, niewykrywalne

Zmiana koloru o 1 odcień — niewykrywalne

Subtelne zmiany ikonografii — klient nie zauważa

Wniosek: testuj duże zmiany, nie kosmetyki. Drobne wdrażaj bez testu na podstawie best practices.

Co dalej

W tym tygodniu:

  1. Wybierz 1 hipotezę (np. „BLIK jako pierwsza metoda zwiększy konwersję o 10%”)
  2. Oblicz potrzebną próbkę (kalkulator abtestguide.com)
  3. Wybierz narzędzie (VWO trial / Convert / Posthog)
  4. Postaw test na 4 tygodnie
  5. NIE peekuj
  6. Po 4 tygodniach — analiza i decyzja

Prowadzimy A/B testy w abonamencie CRO — w pakiecie „CRO Pro” (4 500 zł/mies.) testujemy 4 hipotezy miesięcznie z pełną analityką i raportami. Napisz do nas.

Udostępnij artykuł

Newsletter Websky

Nowe wpisy prosto na maila.

Raz na jakiś czas — konkrety o WordPressie, WooCommerce, SEO i AI. Zero spamu, wypisujesz się jednym kliknięciem.

Zapisując się akceptujesz przetwarzanie adresu e-mail w celu wysyłki newslettera. Dane trafiają wyłącznie do Websky Studio.

Zróbmy to razem

Potrzebujesz strony, która realnie działa?

Od strony firmowej po sklep WooCommerce — projektuję rozwiązania pod konkretne cele biznesowe. Napisz, opowiedz o projekcie, a odezwę się z konkretami.

Porozmawiajmy
Cześć! 👋 Jestem Websky Bot, asystent AI Websky. W czym Ci pomóc?