Reprezentatywna próba statystyczna

W poprzednim artykule o próbie statystycznej porównywałam badanie statystyczne do próbowania gulaszu. Wspominałam, że losując elementy z populacji próbujemy właśnie w podobny sposób oszacować parametry dla całej populacji, opierając się tylko na niewielkim wycinku całości. Żeby je oszacować – musimy stworzyć tzw. próbę reprezentatywną. Powinna ona odpowiadać cechom całej populacji (za wyjątkiem liczebności). Czyli wyliczona średnia arytmetyczna dla próby ma być zbliżona do średniej arytmetycznej całej populacji. Obliczone odchylenie standardowe ma być zbliżone do odchylenia standardowego populacji. Podobnie wyszystkie inne miary rozkładu. Niektórzy twierdzą, że nie da się stworzyć takiej próby, którą moglibyśmy nazwać reprezentatywną. Wciąż jednak termin ten jest bardzo popularny i choć trudno trafić na zbiór idealnie odwzorowujący populację, to zwykle udaje nam się całkiem dobrze przybliżyć parametry rozkładu, jeśli mamy do czynienia z dobrze dobraną próbą.

Co zrobić, żeby powstała reprezentatywna próba statystyczna?

Najprościej stworzyć próbę reprezentatywną, kiedy mamy łatwy dostęp do wszystkich jednostek w populacji. Wtedy w sposób losowy wybieramy określoną przez nas liczbę jednostek (liczba zależy od tego, na ile dokładne wyniki chcielibyśmy otrzymać) i możemy zacząć wykonywanie obliczeń. Pamiętajmy, że wybór jednostek do próby powinien być absolutnie losowy, nie sterowany przez nas w żaden sposób. Czyli nie że co piąta osoba albo ankieta rozdana wśród znajomych. Trzeba zrobić listę wszystkich jednostek i wylosować te, które wejdą w skład naszej próby.

Nie będą reprezentatywne:

  • numery z książki telefonicznej (bo można mieć numer zastrzeżony)
  • co dziesiąty student przed uczelnią (bo różne grupy o różnych godzinach kończą zajęcia)
  • co siódmy dzień tygodnia (bo zawsze będzie to ten sam dzień)
  • sondy internetowe (bo odpowiadają tylko użytkownicy internetu, zainteresowani tematem)
  • ankiety w tv (bo odpowiadają tylko widzowie danego programu, którzy lubią brać udział w takich ankietach)
  • co dwudziesta czekolada zdjęta z taśmy produkcyjnej (bo być może właśnie co dwudziesta czekolada waży mniej albo więcej od pozostałych i trafia do niej więcej rodzynek)

Przy tym wszystkim trzeba pamiętać, że nawet jeśli zrealizujemy wszystkie możliwe postulaty, wylosujemy idealne jednostki, wszystko będzie niezależne, wszystko zgodnie ze sztuką statystyczną – próba jest tylko próbą. Zawsze może się okazać, że mamy do czynienia z błędami i średnia z próby a średnia z populacji różnią się więcej niż teoretyczny błąd statystyczny.

Metody losowania jednostek do próby statystycznej

Oprócz prostego losowania jednostek do próby statystycznej stosowane są również inne metody. Opowiem tutaj krótko o dwóch z nich, a być może kiedyś jeszcze wrócimy do tematu bardziej szczegółowo.

  1. Dobór warstwowy – mamy tu do czynienia z podziałem populacji na warstwy na podstawie podobieństwa jednostek. Z każdej warstwy następnie pobieramy określoną liczbę jednostek. Najprostszy podział na dwie warstwy to podział badanych ludzi wg płci (czyli mamy warstwę kobiet i warstwę mężczyzn). Można dzielić też ludzi na podstawie dochodów, koloru skóry, wzrostu – zależy na jakim podziale warstwowym nam zależy. Uwaga! Przy takim doborze próby okazuje się, że nie wszystkie metody analizy można stosować tak, jak przy prostym losowaniu z populacji.
  2. Dobór klastrowy – dzielimy populację, ale nie na podstawie podobieństwa jednostek, ale np. na podstawie położenia geograficznego. Załóżmy, że chcemy przeanalizować mieszkańców wsi w Polsce. Gdybyśmy wylosowali mieszkańców ze wszystkich wsi, to badacze musieliby sporo podróżować, żeby każdego z nich spotkać. Dobór klastrowy pozwala na losowy wybór określonej liczby wsi i tylko z tych wsi następnie losuje się badane jednostki. Taki sposób zwiększa ryzyko błędów (bo jeśli wylosują się raczej bogatsze wsie, to informacje o ich mieszkańcach nie będą odzwierciedlać danych dla mieszkańców wsi z całej Polski), ale równocześnie pozwala zredukować koszty. Jeśli nie mamy możliwości dokonać losowania z całej populacji, to podział na klastry może być najlepszym rozwiązaniem. Pamiętać jednak należy o większym ryzyku popełnienia błędów i stosować odpowiednie metody do obliczeń.

Zarówno metoda prostego losowania, jak i dobór warstwowy czy klastrowy, opierają się na rachunku prawdopodobieństwa. Każda jednostka z określonym prawdopodobieństwem będzie mogła znaleźć się w naszej próbie statystycznej. Prawdopodobieństwo to powinno być znane i różne od 0.

Pamiętajmy, że są również metody badań statystycznych, które zakładają celowy i świadomy dobór jednostek do próby. Są one zwykle wykorzystywane w innym celu niż badanie parametrów populacji. Mają swoje wady i zalety. Należy jednak pamiętać, że w takiej sytuacji na pewno nie będziemy mieć do czynienia z próbą reprezentatywną (nie zawsze reprezentatywna próba statystyczna jest nam potrzebna).


Zapraszam na fanpage bloga: blog statystyczny na facebooku.

mapa myśli: próba reprezentatywna

mapa myśli: próba reprezentatywna

Please follow and like us:
  • Naczytałam się o tym przy okazji pisania licencjatu i magisterki 😀 Przydatne informacje 🙂

    • Dzięki 🙂
      Mam nadzieję, że kolejni studenci piszący różne prace będą mogli znaleźć tu jak najwięcej przydatnych informacji.

      • Ja od czasu pojawienia się Twojego bloga polecam go moim studentom jako uzupełniające źródło wiedzy.

      • Szkoda tylko, że prawdopodobnie nie będą mogli zamieszczać linków do tej strony w bibliografii „bo to wygląda nieprofesjonalnie”.

        • Szkoda, ale wolę pisać bloga, który wspomoże wiele osób w zrozumieniu statystyki niż artykuły naukowe, które przeczytam ja, recenzenci i trzy osoby, które przez przypadek na nie trafią (i będą mogły zacytować).
          Celem statystycznego nie jest bycie profesjonalnym, ale bycie przystępnym. I mam nadzieję, że cel udaje się zrealizować 🙂

  • Pingback: Metoda delficka – czyli próba niereprezentatywna w prognozach – Blog Statystyczny()

  • Już na początku zauważasz kontrowersyjność pojęcia próby reprezentatywnej. Matematycznie nikt tego pojęcia nie zdefiniował (o ile mi wiadomo). Czy nie jest tak, że sami statystycy reprezentatywność traktują intuicyjnie?

    • No właśnie im więcej się wczytywałam przy przygotowywaniu tego artykułu, tym więcej miałam wątpliwości. Sam temat zaczęłam dlatego, że mój brat przyszedł do mnie z pytaniami ze studiów – między innymi musiał wyjaśnić pojęcie próby reprezentatywnej. Żeby ułatwić życie studentom, chciałam ten temat zgłębić i odpowiedź zamieścić w jednym artykule. Ale dokładnie tak jak mówisz – nie znalazłam definicji matematycznej, co to dokładnie jest próba reprezentatywna. Tyle że ma być taką miniaturą populacji.

  • Pingback: Dzień Statystyki Polskiej - skąd się wziął i kiedy świętujemy()

  • Activ

    Spotkałem się ze stanowiskiem, iż lepiej jest zamiast reprezentatywności (jako wyrażenia nieostrego) używać pojęcia błędu próby.

    • Bardzo możliwe 🙂
      Choć często wykładowcy oczekują wyjaśnień pojęcia – co to jest próba reprezentatywna.