Współczynnik korelacji Pearsona. O piratach, globalnym ociepleniu i Potworze Spaghetti.

Ludzie wcale nie pochodzą od małp. Dzielą z nimi podobno tylko 95% DNA. Z piratami dzielą 99,9% i to oni są naszymi przodkami. Tak w każdym razie twierdzą wyznawcy Latającego Potwora Spaghetti. Konsekwencją spadku liczby piratów jest globalne ocieplenie. Żeby to udowodnić, pastafarianie przedstawili wykres, z którego wyraźnie wynika korelacja pomiędzy temperaturą, a liczbą piratów. Wykres nie budzi żadnych wątpliwości. Cóż więc robić? Przyłączyć się do pastafarian i zrewidować swoje dotychczasowe poglądy religijne, czy może lepiej zrozumieć, co to jest korelacja? Dziś przedstawimy współczynnik korelacji Pearsona.

co to jest korelacja

Wykres zaprezentowany przez pastafarian wygląda następująco:

źródło: wikipedia

źródło: wikipedia

Jak widać, liczba piratów maleje, a temperatura rośnie. Czyli co? Należy kupić żaglowiec, przyczepić czarną flagę na maszcie i ruszyć w świat? Do tego, czy rzeczywiście piraci mają wpływ na globalne ocieplenie jeszcze wrócimy, a tymczasem zastanówmy się, co to w ogóle jest korelacja i jak ją możemy mierzyć. Korelacja to inaczej współzależność, która występuje pomiędzy dwoma zjawiskami. W statystyce poziom zależności liniowej między dwoma zmiennymi losowymi mierzy się za pomocą współczynnika korelacji liniowej Pearsona. A współczynnik ten obliczamy za pomocą wzoru:

\(r_{xy}=\frac{\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sqrt{\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}\sum_{i=1}^{n}(y_{i}-\overline{y})^{2}}}\)

Wzór ten po różnych przekształceniach może wyglądać zupełnie inaczej – nie należy się zdziwić, jak zobaczymy go w trochę innej formie.

Na przykład w takiej:

\(r_{xy}=\frac{\sum_{i=1}^{n}x_{i}y_{i}-n\overline{x}\overline{y}}{n\sigma_{x}\sigma_{y}}\)

gdzie \( \sigma_{x}\) i \(\sigma_{y}\) oznaczają odchylenia standardowe

albo w takiej:

\(r_{xy}=\frac{\sum_{i=1}^{n}x_{i}y_{i}-\sum_{i=1}^{n}x_{i}\sum_{i=1}^{n}y_{i}}{\sqrt{n\sum_{i=1}^{n}x_{i}^{2}-(\sum_{i=1}^{n}x_{i})^{2}}\sqrt{n\sum_{i=1}^{n}y_{i}^{2}-(\sum_{i=1}^{n}y_{i})^{2}}}\)

 

wartości współczynnika korelacji Pearsona

Współczynnik korelacji Pearsona to znormalizowana kowariancja. Obliczony wynik zawsze mieści się w przedziale od -1 do 1. Jeśli współczynnik wynosi zero (r=0), to wiemy, że mamy do czynienia z brakiem korelacji liniowej pomiędzy dwoma cechami. Jeśli wynik jest dodatni (r>0), to znaczy, że mamy do czynienia z korelacją dodatnią. Wraz ze wzrostem wartości jednej cechy można spodziewać się wzrostu wartości drugiej cechy. W przypadku ujemnych wartości współczynnika (r<0), mówimy o korelacji ujemnej. Czyli dla wyższych wartości jednej cechy można spodziewać się spadku wartości drugiej cechy.

Jeśli chodzi o poziom zależności, to dla wartości bezwględnych można przyjąć następujące założenia:
<0,2 brak zależności
0,2-0,4 słaba zależność
0,4-0,7 umiarkowana zależność
0,7-0,9 dość silna zależność
>0,9 bardzo silna zależność
W różnych opracowaniach przedziały te mogą się trochę różnić, ale mniej więcej wiadomo, jakie wartości mówią o zależności pomiędzy badanymi zmiennymi. Dodajmy tutaj, że inne wartości będą miały znaczenie dla badaczy z różnych dziedzin. Często jest tak, że w naukach np. psychologicznych czy ekonomicznych dużo niższe wartości uznawane są za silną zależność niż w precyzyjnych naukach fizycznych albo chemicznych.

Chciałam jeszcze Wam pokazać jeden rysunek, który pokazuje wartości współczynnika korelacji liniowej Pearsona dla różnych danych:

źródło: wikipedia

źródło: wikipedia

Są to przykładowe wykresy danych (x, y) i odpowiadające im wartości współczynnika korelacji liniowej Pearsona. Mnie się najbardziej podoba ostatni rządek, który przedstawia bardzo ciekawe kształty. Wyraźnie jest tam jakaś korelacja pomiędzy danymi. Ale ponieważ korelacja ta nie jest liniowa, to współczynnik Pearsona nic nam tu nie pomoże.

Drugi rządek też jest bardzo ciekawy. Pokazuje, że na wartość współczynnika korelacji nie ma wpływu nachylenie krzywej pokazującej zależność między wartościami x i y. Liczy się tylko, jak bardzo są one rozproszone (pierwszy rząd wykresów).

założenia

Żeby liczyć współczynnik korelacji musimy pamiętać o kilku podstawowych założeniach. Przede wszystkim musimy mieć do czynienia z cechami mierzalnymi. W ostatnim wpisie omawiałam podział cech zaproponowany przez Stanleya Smitha Stevensa mówiąc, że jest on istotny, żebyśmy mogli stwierdzić, czy dla danej cechy możemy obliczać jakiś wskaźnik statystyczny. Współczynnik korelacji Pearsona możemy liczyć dla cech interwałowych (ang. interval) oraz proporcjonalnych (ang. ratio). Czyli nie liczymy go dla płci, poziomu zadowolenia ani koloru oczu. Za to możemy sprawdzać korelację pomiędzy temperaturą wyrażoną w stopniach Celsjusza a czasem, który dana osoba jest w stanie wytrwać na ogrodowym leżaku. Kolejne wymaganie jest takie, że cecha musi mieć rozkład normalny lub zbliżony do normalnego. Pamiętajmy również, że współczynnik korelacji Pearsona liczy korelację liniową. Jeśli narysujemy sobie wykres i na pierwszy rzut oka widać, że korelacja jakaś jest, ale z liniową nie ma nic wspólnego, to nie warto się męczyć z obliczeniami. Jeśli mamy również do czynienia z obserwacjami nietypowymi, mocno odstającymi od reszty, to zakłócą one wynik i obliczony współczynnik korelacji nie będzie zbyt wiele wart.

Czyli co? Czyli zakładamy, że mamy do czynienia z cechami ilościowymi, charakteryzującymi się przepięknym rozkładem normalnym, bez żadnych wartości nietypowych – w takiej sytuacji można szukać korelacji liniowej.

Korelacja a wynikanie

Ale uwaga! Pamiętajmy, że korelacja i wynikanie to zupełnie dwie inne sprawy, jakże często mylone przez większość ludzi. W statystyce, kiedy mówimy o korelacji, to opisujemy siłę oraz kierunek relacji między dwoma zmiennymi (albo większą ich liczbą). Jesli natomiast mówimy o wynikaniu, to wiemy, że wpływając na jedną zmienną, równocześnie wpływamy na drugą zmienną. Są one ze sobą powiązane. Ale żeby potwierdzić, że tak się dzieje, trzeba przeprowadzić nie tylko obserwację, ale przede wszystkim eksperyment, który będzie uwzględniał grupę obserwowaną, grupę kontrolną itp. Temat wymagałby osobnego wpisu, więc tylko sygnalizuję problem. Myślę, że kiedyś do niego wrócę i wtedy dokładniej będę wyjaśniać, kiedy możemy mówić o wynikaniu. Dodam tylko, że w języku angielskim jest bardzo znane powiedzienie: „Correlation does not imply causation”. Jest ono źródłem wielu żartów:

źródło: xkcd.com

źródło: xkcd.com

I właśnie często za jedną z wad współczynnika korelacji uważa się, że nie wyróżnia on zmiennej zależnej i niezależnej. Mówi o relacji między dwoma cechami, a nie określa, czy jedna z nich jest źródłem drugiej czy nie.

Wróćmy więc na chwilę do naszego Latającego Potwora Spaghetti i do piratów wpływających na globalne ocieplenie. I owszem, występuje między nimi korelacja, ale nie możemy powiedzieć nic na temat wpływu jednego i drugiego. Możemy mieć do czynienia z zupełnie innymi zmiennymi, które mają wpływ na liczbę piratów i jeszcze innymi zmiennymi, które wpływają na średnią temperaturę. Ich działanie wywołuje taki efekt, jakby piraci i globalne ocieplenie miały coś ze sobą wspólnego, nawet jeśli nie ma żadnego eksperymentu, który by mógł potwierdzić takie stwierdzenie. Korelacja – tak, wynikanie – nie. Swoją drogą, bardzo jednostronni ci pastafarianie. Dlaczego twierdzą, że liczba piratów ma wpływ na globalne ocieplenie? A może to wraz ze wzrostem temperatur masowo wymierają piraci? Może ktoś się pokusi o eksperymenty w tym temacie 😉

A jeśli chodzi o nietypowe korelacje to jednym z najbardziej znanych „wyszukiwaczy” takich powiązań jest Tyler Vigen. Proponuję spojrzeć na jego wykres przedstawiający powiązanie „wydatków USA na naukę, badanie kosmosu i technologie” oraz „samobójstwa przez powieszenie lub uduszenie”. Obliczony przez Vigena współczynnik korelacji wynosi 99,79%. Przecież to korelacja niemalże doskonała.

źródło: www.tylervigen.com

źródło: www.tylervigen.com

Od tego momentu proszę więc uważnie pilnować, czy dane, które analizujecie świadczą tylko o korelacji czy o wynikaniu. Wyobraźmy sobie sytuację w firmie. Pan Karol postanowił przejść na dietę i przez dwa miesiące chudł kilogram na tydzień. Do pracy została przyjęta Pani Halinka, która słodzi herbatę pięcioma łyżeczkami cukru. W efekcie waga Pana Karola spada, a zużycie cukru w firmie rośnie. Jest korelacja między tymi dwoma zmiennymi, ale nie uwględnia ona dodatkowej zmiennej w postaci pełnej cukru herbaty Pani Halinki.

Albo jeszcze inny przykład. Firma produkująca sprzęt sportowy ma kłopoty finansowe.  W związku z tym kierownik wzywa na dywanik szefa działu marketingu. Ten przeznacza dodatkowe 10% budżetu na reklamę w telewizji. Po miesiącu okazuje się, że sprzedaż wzrosła i to o 20%. Dumny szef działu marketingu przedstawia kierownikowi wykres – jest wyraźna korelacja pomiędzy nakładami na reklamę w telewizji i wzrostem sprzedaży. Nikt nie zauważył, że w tym samym czasie znany bloger napisał artykuł o sprzęcie sportowym tej właśnie firmy, zachęcając do zakupu wszystkich swoich czytelników. Korelacja i owszem wystąpiła, ale powód wzrostu sprzedaży był zupełnie inny niż reklama telewizyjna.

I nawet jeśli nie zapamiętacie z tego artykułu wzoru na współczynnik korelacji Pearsona, jeśli nie będziecie umieli go obliczyć, jeśli nie będziecie wiedzieli, jakie wartości może przyjmować i co one oznaczają… Zapamiętajcie jedno: Korelacja zjawisk nie musi oznaczać ich związku przyczynowo-skutkowego. Nie wkładajcie więc durszlaka na głowę, nie kupujcie pirackiego statku. Jest spora szansa, że wyznawcy Latającego Potwora Spaghetti jednak się mylą…


Ciąg dalszy rozważań na temat współczynnika korelacji (w tym liczne przykłady) w kolejnym wpisie – zapraszam!


Przypominam wszystkim przy okazji, że statystyczny.pl ma już swój fanpage na Facebooku – warto polubić. Jeśli uważacie, że piszę coś ciekawego, to podzielcie się ze znajomymi. Nie dajcie się robić w bambuko ludziom, którzy rozumieją statystykę lepiej niż Wy 🙂


PS. Ktoś zauważył, że sama wpadłam w pułapkę? W drugim przykładzie napisałam „powód wzrostu sprzedaży był zupełnie inny niż reklama telewizyjna”. Powinno być „mógł być zupełnie inny”, bo nie było eksperymentu i nie wiemy, czy reklama miała wpływ na sprzedaż czy nie miała.

mapa myśli: współczynnik korelacji liniowej Pearsona

mapa myśli: współczynnik korelacji liniowej Pearsona

Please follow and like us:
  • Ciekawy artykuł :-), fajny przykład na omówienie w prosty sposób czym jest korelacja w statystyce i że nie równa się ona przyczynowości. A pastafarianie jak zwykle na plus za inteligentne wykpienie antynaukowych postulatów, tym razem dotyczących globalnego ocieplenia.

  • Współczynnik Pearsona ma głęboką teorię matematyczną zakorzenioną w analizie funkcjonalnej. Zapraszam na mój blog, gdzie opisuję zastosowanie nierówności Schwarza do badania tego współczynnika. Sama nierówność Schwarza: http://byc-matematykiem.pl/nierownosc-schwarza-a-statystyka-czesc-i/ , jej prosty dowód: http://byc-matematykiem.pl/piekno-prostoty-prostota-piekna/ oraz badanie współczynnika Pearsona: http://byc-matematykiem.pl/nierownosc-schwarza-a-statystyka-czesc-ii/ .

    • Mnie się zawsze wydawało, że statystyka to po prostu dziedzina matematyki 🙂
      Jak już się działa na gotowych wzorach, to łatwiejsza do ogarnięcia (bez zrozumienia dokładnych podstaw matematycznych).

      • I o to w tym chodzi: statystyk musi znać metody. Lecz cierpi dusza matematyka, gdy wykład za krótki, a do powiedzenia wiele.

  • Pingback: Współczynnik korelacji Pearsona w przykładach – Blog Statystyczny()

  • Anet

    Uwaga, tu laik, który statystykę miał na jednym roku studiów dawno temu.

    W artykule zabrakło mi przykładu zastosowania współczynnika korelacji, lecz przykład negatywny, czyli do czego się nie nadaj.
    Hmm.. jeśli więc ze współczynnika korelacji nic nie wynika (nie łączy cech), to czym w ogóle jest ta relacja we współczynniku korelacji, skoro nie ma tego związku między cechami. Czyli jest to tylko miara siły zbiegu okoliczności wystąpienia dwóch zdarzeń? Jakie wnioski można z pomiaru korelacji wyciągać?

    • W kolejnym artykule można zobaczyć, jak wyliczyć współczynnik korelacji krok po kroku i podanych jest trochę przykładów. Mam nadzieję, że jest to dobre uzupełnienie tego tekstu.
      Współczynnik korelacji mówi nam o jakiejś współzależności (można nazwać to związkiem), ale nie mówi, że jedno wynika z drugiego (nie ma przyczynowości). Czyli zmieniając jedną cechę, niekoniecznie wpłyniemy na drugą. Jeśli hipotetycznie w miejscowości A wzrasta liczba osób chorujących na serce i wzrastają wydatki na pieluszki jednorazowe, to zmuszając ludzi do zmniejszenia wydatków na pieluszki jednorazowe (np. wprowadzając obowiązkowe użycie wielorazowych pieluch) nie zmniejszymy liczby osób chorujących na serce. Między tymi zmiennymi istnieje tylko korelacja. Natomiast występuje najprawdopodobniej jakaś inna zmienna, która wpływa na jedną i drugą (np. rosnąca liczba mieszkańców miejscowości – im ich więcej, tym więcej zarówno osób chorujących jak i młodych rodziców, którzy będą kupować pieluchy).

      • Anet

        Czyli w uproszczeniu mówiąc, występowanie korelacji jest zachętą do poszukiwania trzeciego czynnika, który będzie tym właściwym określającym relację. Bez niego korelacja nic poza faktem istnienia związku, ale poza skorelowanymi zmiennymi, nie mówi. Czy tak?

        • To jest dużo bardziej skomplikowane. Możemy znaleźć nawet dziesięć czynników, które będą ze sobą skorelowane i nadal nie będziemy mogli mówić o związku przyczynowo-skutkowym. Żeby móc powiedzieć, że zmiana jednej cechy wpływa na zmianę drugiej cechy, musimy przeprowadzić eksperyment. Czyli mamy grupę badaną (gdzie wprowadzamy modyfikacje), grupę kontrolną (gdzie ich nie wprowadzamy), a wszystkie inne czynniki muszą pozostać niezmienne, wspólne dla obu grup. I dopiero wtedy, jeśli wyniki w grupie badanej będą istotnie różne od wyników w grupie kontrolnej (przeprowadza się odpowiednie testy statystyczne), to możemy powiedzieć, że z określonym prawdopodobieństwem mamy do czynienia ze związkiem przyczynowo-skutkowym pomiędzy dwoma cechami. Takie eksperymenty przeprowadza się przede wszystkim w medycynie badając wpływ różnych leków na zdrowie pacjenta. Mam w planach napisać o tym więcej, ale po drodze czeka jeszcze kilka innych wpisów.
          Sama korelacja nie jest informacją nieistotną. Jeśli wiemy, w jaki sposób są skorelowane ze sobą dwie cechy, to możemy się spodziewać, że będą się zachowywać w określony sposób. Czyli np. że wzrost jednej będzie powodował wzrost drugiej. Nie możemy tylko oczekiwać, że wpływając na jedno będziemy wywoływać zmiany w drugiej zmiennej. Oczywiście, może się tak zdarzyć, ale również może być to wpływ innych czynników.

          • Anet

            Odnosząc się do ostatniego akapitu można powiedzieć, iż zakładamy na podstawie danych historycznych, że zmienne będą zachowywać się w podobny sposób względem siebie (skorelowany), ale nie mamy absolutnie żadnej pewności, że tak będzie (gdybamy na podstawie danych historycznych), bo przecież nie mamy żadnej informacji o zależności przyczynowo-skutkowej między nimi. Ot zaobserwowano tylko zjawisko, które przypadkiem wykazuje się jakąś korelacją i tę przypadkowość (nie 100% zależność) wykorzystuje się do wystąpienia zależności w przyszłości, ale równie dobrze (skrajny przypadek) korelcja ta może się całkowicie, mówiąc kolokwialnie, rozjechać. Chyba, że te zjawiska nie są takie nagłe i na tej podstawie można snuć prognozy o wyliczonym prawdopodobieństwie.

          • Anet

            Odnosząc się do ostatniego akapitu można powiedzieć, iż zakładamy na podstawie danych historycznych, że zmienne będą zachowywać się w podobny sposób względem siebie (skorelowany), ale nie mamy absolutnie żadnej pewności, że tak będzie (gdybamy na podstawie danych historycznych), bo przecież nie mamy żadnej informacji o zależności przyczynowo-skutkowej między nimi. Ot zaobserwowano tylko zjawisko, które przypadkiem wykazuje się jakąś korelacją i tę przypadkowość (nie 100% zależność) wykorzystuje się do wystąpienia zależności w przyszłości, ale równie dobrze (skrajny przypadek) korelcja ta może się całkowicie, mówiąc kolokwialnie, rozjechać. Chyba, że te zjawiska nie są takie nagłe i na tej podstawie można snuć prognozy o wyliczonym prawdopodobieństwie. Mam nadzieję, że nie rozmijam się całkowicie z rzeczywistością 😉

  • Pingback: Dowód anegdotyczny. Czy jedzenie marchewki przedłuża życie? – Blog Statystyczny()

  • Pingback: wykres punktowy, rozrzutu, rozproszenia, diagram korelacji()