Próby badawcze w badaniach rynku i opinii
Próby badawcze w badaniach rynku i opinii
Co to jest próba badawcza i czemu ma służyć?
Prawdopodobnie, gdybyśmy mogli w skończonym czasie i budżecie dotrzeć z badaniem do wszystkich przedstawicieli interesującej nas grupy, pojęcie próby badawczej byłoby jedynie ciekawym terminem statystycznym.
Na szczęście, już dawno temu odkryto, że aby móc wnioskować o pewnej całości, wystarczy dokładnie zbadać pewien jej fragment. W badaniach opinii ta całość nazywana jest populacją, a fragment – próbą.
Próbkowanie jest bardzo praktyczne – pozwala istotnie ograniczyć koszt i czas potrzebny na zdobycie informacji o całej populacji.
Wnioskowanie na podstawie próby jest możliwe dzięki wiedzy i doświadczeniom badaczy zajmujących się statystyką. Czasami bywa intuicyjne i zrozumiałe, a czasem nieco bardziej złożone – dziedzina zajmująca się tymi zagadnieniami nazywana jest teorią doboru próby.
Jak liczna powinna być moja próba?
Nie ma jednej dobrej odpowiedzi na to pytanie. Intuicja podpowiada, że im więcej respondentów tym lepiej, jednak nie zawsze tak jest.
Należy pamiętać, że wielkość próby ma wpływ na takie parametry, jak koszt badania i harmonogram realizacji.
Projektując próbę i określając jej rozmiar, mierzymy się zatem z pewnym kompromisem.
Dlatego warto mieć na uwadze przede wszystkim adekwatność próby do badanego zagadnienia: inna wielkość i schemat doboru próby będzie potrzebny w badaniach mierzących KPI marki,
testach konceptów, a inna w badaniach eksploracyjnych czy badaniach trendów.
Co to znaczy, że próba jest reprezentatywna?
Reprezentatywność próby to hasło, które w kontekście badań rynku i opinii pojawia się najczęściej.
Niekiedy jest unikane, a czasami nadużywane. Nie ulega jednak wątpliwości, że ten pojemny termin ma swoje ścisłe, matematyczne korzenie.
Jednak według najszerszej definicji, próbę możemy nazwać reprezentatywną, jeśli pozwala na uogólnianie wyników na całą populację.
Posługując się metaforą, próba reprezentatywna jest wtedy, kiedy jej miniaturą badanej populacji.
W fachowej terminologii można spotkać się z terminem metoda reprezentacyjna, a badania które bazuje na tej metodzie nazywane jest badaniem reprezentacyjnym.
Dzięki teorii rachunku prawdopodobieństwa, w takim badaniu możliwe jest precyzyjne określenie wielkości popełnianego błędu wnioskowania
z próby na populację.
Uwaga, w obiegowej dyskusji można spotkać się często z terminem „próba reprezentacyjna” – taka hybryda nie istnieje w statystycznej terminologii. Reprezentacyjne może być badanie lub metoda, ale nie próba (ta może być reprezentatywna). |
W praktyce badań marketingowych, ale i społecznych ten rodzaj badań spotyka się coraz rzadziej.
Dlaczego? Przede wszystkim musi ono spełniać kilka warunków.
Po pierwsze, musimy przygotować pełną listę potencjalnych respondentów – mogą to być np. adresy wszystkich budynków mieszkalnych,
spis wszystkich numerów telefonicznych albo adresy mailowe wszystkich internautów. Taki zbiór nazywany jest operatem. Okazuje się, ze już na etapie budowy operatu pojawiają się pewne trudności – np. adresy zamieszkania niekoniecznie są aktualne lub nie pokrywają się z faktycznym miejscem przebywania
respondenta, numery telefoniczne mogą już być nieaktywne, a wiele adresów mailowych może należeć do jednej osoby.
Po drugie – dla każdego potencjalnego respondenta należy ustalić jego prawdopodobieństwa trafienia do próby.
Tu z pomocą przychodzą metody statystyczne,
jednak realny problem pojawia się w momencie, gdy wylosowany respondent nie chce lub nie może wziąć udziału w badaniu.
Specjaliści są w stanie wymienić nawet kilkadziesiąt! przyczyn tzw. obiektywnej nierealizowalności.
To zjawisko potrafi zaburzyć statystyki i powoduje wiele trudności logistycznych
(np. konieczność wylosowania próby zastępczej lub wykonania złożonych estymacji w ramach tzn. NRBA (non-response bias analysis) w celu ustalenia wpływu braku dostępności respondenta na precyzję wnioskowania.
Wymienione problemy wymagają dodatkowego nakładu czasu i pieniędzy – a te zasoby występują w rzeczywistości badawczej coraz rzadziej w nieograniczonych ilościach.
Czy moje badanie może być reprezentatywne?
Czy w takim razie próby z badań innych niż te realizowane na spisie PESEL lub w oparciu o RDD (ang. Random Digit Dialling – losowy wybór numerów telefonicznych) mają szanse być reprezentatywne?
Naukowy punkt widzenia pozostawmy w tym miejscu ekspertom od matematyki statystycznej.
Jednak z praktycznego punktu widzenia, odpowiedź brzmi: Tak…ale.
Rozróżnijmy dwie kategorie reprezentatywności próby – proceduralną i przedmiotową. Ta pierwsza dotyczy wspomnianych wcześniej badań bazujących na losowych schematach doboru próby (np. PESEL).
Z kolei reprezentatywność przedmiotową znajdziemy w znacznej większości badań rynku i opinii.
Zakłada ona, że struktura próby badawczej jest zaprojektowana tak, aby maksymalnie odzwierciedlić strukturę populacyjną pod względem kluczowych cech oraz,
że ewentualne różnice ze względu na pozostałe cechy nie mają istotnego wpływu na dokładność wnioskowania.
O tym, które cechy spoza schematu doboru próby mogą mieć znaczenie decydują często różne czynniki – np. wiedza i doświadczenie badacza, teoria socjologiczna lub wyniki wcześniejszej badań o podobnej
tematyce.
Sztuka projektowania tego typu doboru próby polega na umiejętności łączenia aktualnych danych i szacowaniu danych trudno dostępnych.
Ważne jest wypośrodkowanie takiej liczby warstw, aby z jednej strony uzyskać maksymalną dokładność, a z drugiej - nie przesadzić z nadmiernym rozproszeniem próby (np. doprowadzeniem do sytuacji, w której warstwy będą puste lub skrajnie małe).
Najczęściej występującym przykładem jest struktura próby zaprojektowana z wykorzystaniem łącznego rozkładu płci, kategorii wiekowej i klasy wielkości miejsca zamieszkania.
Taką próbę nazywamy próbą kwotową lub warstwową, a unikatowe kombinacje cech respondentów odpowiednio –
kwotami lub warstwami.
Słowo kwota bierze się z faktu,
że aby uzyskać pożądaną strukturę całej próby, należy zebrać określoną liczbę respondentów w ramach każdej kwoty (warstwy).
W badaniach marketingowych, szczególnie tych realizowanych na własnych bazach respondentów (np. panel badawczy, bazy komercyjne firm) często wykorzystuje się tzw. próbę losowo-kwotową lub warstwowo-losową.
Choć nie jest ona tak idealna statystycznie jak „czysta” próba losowa, to łączy w sobie zalety zarówno próby kwotowej (dokładnie odzwierciedlenie oczekiwanej struktury) i losowej (randomizacja doboru respondentów).
Możliwości konstrukcji takiej próby są tym większe im większa jest nasza baza potencjalnych respondentów oraz wiedza, którą gromadzimy o nich apriori (np. płeć czy data urodzenia podawana w momencie rejestracji lub PKD w przypadku badań na firmach).
Jak liczną próbę można uznać za reprezentatywną?
Trzeba uświadomić sobie jedną ważną kwestię. Nie każda duża próba jest reprezentatywna, a nie każda mała próba nie jest reprezentatywna. Choćbyśmy przebadali wszystkich mieszkańców Warszawy, będzie to słaba podstawa, aby wnioskować o całej populacji Polski.
Podobnie, jeśli chcemy powiedzieć coś o najzamożniejszych Polakach, na niewiele zda się rozbudowana próba badawcza.
Reprezentatywność to miara trafności wniosków, które uogólniamy na populację.
Wnioski mogą być różnego typu – odnosić się całej zbiorowości lub jej fragmentu, mogą być mniej lub bardziej precyzyjnie sformułowane, wreszcie mogą być formułowane z zastrzeżeniem pewnego marginesu dokładności (błędu),
który jest nieuniknionym elementem każdego wnioskowania z próby.
W kontekście reprezentatywności, większe znaczenie od wielkości próby mają np. takie parametry jak: schemat doboru próby czy zachowanie struktury populacyjnej w próbie.
Przyjęło się utożsamiać, że „próba reprezentatywna to 1000”, ale nie zawsze tak musi być.
Często słyszymy pytania typu
„Czy próba 500 lekarzy rodzinnych to próba reprezentatywna?” albo „Jaka próba kominiarzy z podlaskiego będzie reprezentatywna?”
Dużo zależeć będzie od danych, którymi dysponujemy na temat interesującej populacji przed rozpoczęciem badania – jeżeli np. znasz rozkład płci lub wieku wśród kominiarzy, to większa szansa na to, że zaprojektowana przez nas próba będzie reprezentatywna dla tej kategorii respondenta.
Czym jest błąd próby i co to znaczy dla całego badania?
Błąd to nieodłączony element każdego badania i nie trzeba panikować, gdy słyszymy o nim w kontekście naszego badania :)
Błędu nie da się wyeliminować z badania z prostej przyczyny – gdybyśmy przed badaniem znali jego dokładny rozkład i skalę, moglibyśmy wyznaczyć interesujące nas wartości bez konieczności
realizacji badania.
Błąd próby nie oznacza, że nasze badanie jest źle wykonane, ale brak świadomości i oceny błędu może prowadzić do błędnych interpretacji. W badaniach najczęściej dzielimy błędy na dwie kategorie: błędy losowe i nielosowe.
Najczęstszym przypadkiem błędu losowego jest błąd statystyczny, wynikający z różnic między wartościami w próbie i populacji.
Mówiąc najogólniej to różnica między wartością estymatora danej wielkości z próby (np. średnia z próby) a faktyczną referencyjną wartością populacyjną (np. średnia w próbie).
Nieraz, np. przy okazji badań sondażowych czy badań exit-poll słyszymy o maksymalnym błędzie pomiaru (np. +/- 3 punkty procentowe). To właśnie błąd statystyczny, który informuje nas, w jakim przedziale z dużym prawdopodobieństwem (przy tzw. poziomie ufności) mieścić się może prawdziwa wartość
szukanego parametru (np. odsetek głosujących na danego kandydata).
Ten rodzaj błędu dotyczy prób o charakterze losowym, a jego wielkość można łatwo wyliczyć za pomocą szeroko dostępnych narzędzi i wzorów. Do jego wyznaczenia konieczne jest podanie następujących parametrów: wielkości próby (im większa,
tym mniejszy błąd), poziomu ufności (prawdopodobieństwa, z jakim chcemy raportować estymowaną wielkość) i ewentualnie informacji o rozproszeniu (wariancji) szukanej wielkości.
Błąd statystyczny jest często utożsamiany z dokładnością pomiaru czy jakością próby. Nie zawsze tak jest,
z uwagi na występowanie również innych rodzajów błędów.
Dlatego najczęściej próbuje się zredukować ten rodzaj błędu przez zwiększenie próby.
Warto sobie jednak uświadomić, że zależność między wielkością próby, a błędem statystycznym ma charakter nieliniowy, tzn. dwukrotne zwiększenie próby nie powoduje, że błąd będzie dwukrotnie niższy.
Przykładowo, upraszczając wzór na wielkość błędu statystycznego przy 95-procentowym poziomie ufności, doborze losowym prostym i nieznanej wariancji badanego parametru typu dychotomicznego (np. odsetek korzystających z danej usługi lub głosujących na daną partię) mamy:
• N=400, błąd +/- 5 pp.
• N=800, błąd +/- 3,5 pp.
• N=1000, błąd +/- 3,2 pp.
• N=2000, błąd +/- 2,2 pp.
• N=5000, błąd +/- 1,4 pp.
Niestety, znacznie szerszą gamę stanowią błędy nielosowe. Są one o tyle niewdzięczne, że czasami trudno je zidentyfikować, a jeszcze trudniej zmierzyć.
Błąd, który występuje praktycznie w każdym badaniu, niezależnie od techniki jego realizacji to tzw. błąd pokrycia lub błąd operatu. Polega on na braku pełnych informacji lub braku aktualności danych w spisie potencjalnych respondentów.
Najczęściej jest on niezależny od badacza – np. często oficjalne rejestry nie nadążają za pewnymi zmianami (np. nagła zmiana adresu zamieszkania, utrata numeru telefonu, poważna choroba respondenta, wyrejestrowanie się z panelu badawczego itp.).
Ten rodzaj błędu najczęściej pokonuje się dobierając tzw. próbę rezerwową lub przez procedurę dopełnienia do oczekiwanej struktury próby. Należy jednak pamiętać, że te zabiegi nie są obojętne na sposób estymacji interesujących nas parametrów.
Inny błąd, a w zasadzie cała rodzina błędów to błędy pomiarowe.
Najczęściej wynikają one z nieadekwatnego narzędzia badawczego (np. zbyt mało precyzyjnego kwestionariusza lub błędnych założeń metodologicznych), źle sformułowanych pytań w narzędziu badawczym lub po prostu braku zrozumienia pytania ze strony respondenta.
Ten typ błędu możemy częściowo ograniczyć przez zapewnienie instrumentów badawczych dobrej jakości lub stworzenia optymalnych warunków do realizacji badania. Natomiast nigdy nie zredukujemy tego błędu do zera, z uwagi na fakt, że sytuacja badawcza z natury rzeczy nie jest do końca przewidywalna.
Czy każdy dobór próby kosztuje tyle samo? Od czego to zależy?
Jak już wiesz, istnieje wiele schematów doboru próby, a każdy z nich można opisać za pomocą różnych parametrów. Niektóre próby realizuje się łatwo i szybko, inne są bardziej wymagające.
Dlatego nie zawsze próba 1000 respondentów w badaniu A będzie kosztować tyle samo co próba tej samej wielkości w badaniu B. Najogólniej mówiąc, koszt realizacji próby zależy od następujących czynników:
Na koszt realizacji pojedynczego wywiadu składa się wynagrodzenie za czas respondenta, który poświęci na udział w badaniu oraz sam koszt dotarcia do respondenta
Koszt jest tym wyższy, im czas respondenta przeznaczony na udział w badaniu jest dłuższy
Parametr określający trudność dotarcia do przedstawiciela badanej populacji. Zazwyczaj jest on utożsamiany z tzw. incidence rate (IR), tj. prawdopodobieństwa na trafienie na respondenta o interesujących nas cechach w badanej populacji.
Przykładowo – jeżeli interesuje nas badanie na próbie reprezentatywnej pod względem płci i wieku, a my w naszym spisie respondentów mamy informację na temat tych cech dla każdego respondenta, to IR wynosi 100%.
Natomiast, jeśli szukamy rodziców dzieci w wieku 3-12 lat, a my nie mamy informacji o respondencie, czy ma dzieci w podanym wieku, wówczas musimy się posiłkować szacunkami na podstawie danych zewnętrznych
(np. oficjalnych statystyk GUS, wcześniejszych badań, informacji od klienta itp.).
Wtedy może okazać, że IR wynosi np. 20%, co oznacza, że dotarcie do tego respondenta jest średnio 5 razy trudniejsze w porównaniu do próby realizowanej na próbie ogólnej.
Zobacz, jaką próbę możesz zrealizować w zależności od posiadanego budżetu i co jeszcze wpływa na
Cenę Badań Rynku
Czy próba może być reprezentatywna w badaniach jakościowych?
Reprezentatywność badań jakościowych na pierwszy rzut oka brzmi jak oksymoron. W jaki sposób nielosowy próby niewielkich rozmiarów, pozwalają w ogóle na wnioskowanie o szerszej populacji?
Reprezentatywność w badaniach jakościowych koncentruje się bardziej na szerszym kontekście i wynika z wielości
gromadzonych treści w trakcie dłuższych wypowiedzi. Transkrypcje z jednego 1.5-godzinnego wywiadu potrafią liczyć 30-40 stron litego tekstu, co oznacza, że badanie angażujące 10 respondentów pozwala nieraz na złożoną analizę tekstu i komunikatów pozawerbalnych.
Ponadto, wywiad jakościowy rzadko kiedy dotyczy tylko jednej osoby. W trakcie rozmowy, badani opowiadają o swoich doświadczeniach w różnych punktach czasu, ale przede wszystkim opowiadają o innych osobach, rodzinie, znajomych, nieznajomych, zasłyszanych opiniach itd.,
co powoduje, że jedna osoba niejako odpowiada „w imieniu” kilkudziesięciu osób.