Skoncentrujmy się na miarach koncentracji

Były miary położenia, rozproszenia i asymetrii. Dziś skoncentrujmy się przez chwilę na miarach koncentracji (czyli nierównomierności). Będzie trochę o kurtozie. Wyjaśnię, co to jest eksces. A do tego kilka słów o współczynniku Giniego. Czy warto wiedzieć, co to wszystko jest? Sprawdźcie sami…

Kurtoza

Pamiętacie współczynnik asymetrii? To był ten oparty o trzeci moment centralny (podzielony przez odchylenie standardowe podniesione do trzeciej potęgi). Jeśli tak, to jesteście o krok od kurtozy. Jeśli tylko weźmiemy czwarty moment centralny i podzielimy przez odchylenie standardowe do czwartej potęgi, to w ten prosty sposób możemy obliczyć kurtozę.

wzór na czwarty moment centralny:

\(M_{4}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})^{4}\)

wzór na kurtozę:

\(K=\frac{M_{4}}{s^{4}}\)

Ale o czym nam mówi kurtoza? Co to w ogóle jest i dlaczego warto o tym w ogóle wspominać?

Wróćmy na chwilę do wcześniej poznanych miar rozkładu. Miary położenia mówiły, gdzie nasz rozkład ma średnią arytmetyczną, gdzie leży mediana, czyli wokół jakiej wartości wszystko się koncentruje. Miary rozproszenia pokazują jak daleko wszystko leży od wartości średnich. Asymetria patrzy na kształt rozkładu – czy się odchyla w prawą, czy w lewą stronę, a może leży symetrycznie. Kurtoza trochę jest podobna do miar rozproszenia (przez to niesłusznie z nimi mylona). Porównuje jak bardzo dane są skoncentrowane wokół średniej w porównaniu z rozkładem normalnym (kurtoza dla rozkładu normalnego wynosi 3).

/wątek poboczny/

Tu pewnie powinnam ładnie i prosto wyjaśnić, co to jest ten rozkład normalny. Nie będę w tym wpisie tłumaczyć skomplikowanych wzorów ani formułek. Przyjmijmy tylko intuicyjnie, że rozkład normalny opisuje taką sytuację (teoretycznie najczęściej występującą w przyrodzie), że większość obserwacji jest bliska średniemu wynikowi, a wyniki różniące się od średniej są mniej liczne. Czyli przykładowo, zgodnie z rozkładem normalnym, jeśli średni wzrost ludzi w jakiejś grupie to 170 cm, to najwięcej osób będzie mieć wzrost w przedziale 165-175 cm. W przedziałach 155-165 cm oraz 175-185 cm będzie odpowiednio mniej ludzi, a najmniej osób będzie mieć wzrost niższy niż 155 cm albo wyższy niż 185 cm.

Rozkład normalny jest swoistym wzorcem, z którym bardzo często porównujemy obserwowane w rzeczywistości dane. Jest symetryczny, średnia arytmetyczna jest równa modzie oraz medianie.

Jeśli kogoś interesują szczegóły – zapraszam do lektury artykułu na wikipedii.

/koniec wątku pobocznego/

Rozkład normalny ma zawsze swoisty „garb” na środku (czyli tam gdzie jest średnia, mediana, moda). Kurtoza mierzy nam, czy nasz badany rozkład ma garb taki sam, większy czy mniejszy. Jesli garb jest wyraźnie większy, to mamy do czynienia z rozkładem leptokurtycznym. Jeśli garb jest mniejszy, to rozkład nazywamy platokurtycznym. W przypadku rozkładu identycznego z rozkładem normalnym mówimy o rozkładzie mezokurtycznym.

Jak zapamiętać te skomplikowane nazwy? Ja sobie wymyśliłam, że leptokurtyczny lepi się do palców i jak chwycę ten rozkład normalny za czubek, to mi się wyciągnie do góry. Platokurtyczny jest płaski. Jak wezmę rozkład normalny i spłaszczę go od góry, to dostanę platokurtyczny. Na mezokurtyczny nie miałam żadnego pomysłu więc po prostu zapamiętałam, że to ten ostatni.

Koniecznie zwróćmy uwagę na fakt, że kurtoza i wariancja to nie jest to samo. Rozkład normalny może mieć różne wariancje, a kurtoza zawsze będzie wynosić zero. Dla tej samej wariancji różne rozkłady mogą mieć różną kurtozę. Ujemna kurtoza nie oznacza, że wariancja musi być większa. Dodatnia kurtoza nie oznacza, że cecha jest mniej zmienna. Kurtoza nie jest miarą rozproszenia.

Eksces

\(Ex=K-3\)

Ponieważ wartość kurtozy dla rozkładu normalnego wynosi 3, to żeby ułatwić analizy wymyślono miarę zwaną ekscesem. Jest ona bardzo prosta w obliczeniach – wystarczy od kurtozy odjąć wspomnianą liczbę 3. Po co taka miara? Jest to udogodnienie, w którym miara koncentracji przyjmuje dla rozkładu normalnego wartość równą zero a nie trzy. Ułatwienie przyjęło się na tyle, że z czasem niektóre podręczniki wręcz zastąpiły eksces wzorem na kurtozę:

\(K=\frac{M_{4}}{s^{4}}-3\)

Jeśli więc ktoś mówi Wam o wartości kurtozy, to zawsze sprawdzajcie, według jakiego wzoru była liczona i czy jest to eksces czy kurtoza.

A jak już macie wyliczony eksces to pamiętajcie:

rozkład mezokurtyczny: Ex=0

rozkład leptokurtyczny: Ex>0

rozkład platokurtyczny: Ex<0

Współczynnik Giniego

O współczynniku Giniego nie będę się dzisiaj szczególnie rozpisywać – temat ten być może doczeka się w przyszłości własnego artykułu. Chcę jednak w kilku słowach opowiedzieć, co to jest, ponieważ także jest często wymieniany jako miara koncentracji. Ale dość specyficzna miara koncentracji, która mierzy konkretną nierówność. Inaczej nazywany jest wskaźnikiem nierówności społecznej i używa się go do pomiaru nierównomiernego rozkładu dóbr. Przykładem może być np. rozkład dochodów gospodarstw domowych. Za pomocą współczynnika Giniego oblicza się, czy dochody są w miarę równe w społeczeństwie (czyli każdy zarabia tyle samo), czy bardziej zróżnicowane.

Bardzo ciekawy wpis blogowy na temat współczynnika Giniego znalazłam tutaj – polecam wszystkim zainteresowanym.

Przykład z wynagrodzeniem

Przypominam nasz przykład z wynagrodzeniem w czterech firmach, który analizujemy w kontekście różnych wskaźników na tym blogu:

  1. „Wszystkim Równo” – zatrudnia 10 pracowników, z których każdy dostaje co miesiąc 5000 zł.
  2. „Szefo Górą” – zatrudnia panią sprzątaczkę, która na umowę zlecenie otrzymuje 500 zł, do tego 8 szeregowych pracowników z pensją 1500 zł i kierownika, który co miesiąc na konto przyjmuje 37500 zł.
  3. „Byle do Awansu” – mamy tu również 10 pracowników – pięciu pracuje poniżej roku i otrzymują 3000 zł, druga piątka ma już dłuższy staż i dzięki temu doczekała się pensji po 7000 zł.
  4. „Wielka Niewiadoma” – dziesięciu pracowników, każdy z inną pensją, od 1000 do 9000 zł.

Jak wygląda tu sytuacja z kurtozą i ekscesem?

W przypadku firmy „Wszystkim Równo” nie liczymy kurtozy, ponieważ odchylenie standardowe jest równe zero (nie dzielimy przez zero!).

W firmie „Szefo górą” K=8, Ex=5. Mamy wyraźnie do czynienia z rozkładem leptokurtycznym.

„Byle do Awansu” daje wyniki K=1 oraz Ex=-2. Jest to rozkład platokurtyczny (czyli bardziej płaski w porównaniu z rozkładem normalnym o tych samych parametrach).

Po przeprowadzeniu obliczeń w firmie „Wielka Niewiadoma” otrzymujemy K=1,93 oraz Ex=-1,07. Jest to również rozkład platokurtyczny.

mapa myśli: miary koncentracji

mapa myśli: miary koncentracji

Please follow and like us:
  • No i chyba nie doczekaliśmy się tekstu o współczynniku Giniego. A szkoda, bo ma on piękną matematyczną teorię związaną z pojęciem majoryzacji. To bardzo mocne narzędzie w badaniu nierówności. Majoryzacja dogłębnie wyjaśnia sens tego współczynnika. Zresztą Gini był matematykiem. Znane są np. średnie Giniego. A ciekawe wyjaśnienia nt. współczynnika Giniego można znaleźć w książce Marshalla i Olkina ,,Inequalities: Theory of Majorization and Its Applications”.

    • Masz rację. Ten tekst wciąż nie powstał. Jak wiele innych, które też mam zaplanowanych. Wciąż mam nadzieję, że kiedyś uda mi się to wszystko nadrobić.
      Dziękuję za polecenie lektury. Jak już będę pisać, to chętnie spojrzę 🙂