wykres skrzypcowy – o tym, jak jeszcze można zaprezentować dane graficznie

wykres skrzypcowy, violin plot, mapa myśli, prezentacja danych statystycznych

Wykres skrzypcowy (ang. violin plot) nie pojawił się na blogu statystycznym, kiedy opowiadałam o różnych sposobach prezentacji danych. Dzisiaj to nadrobię i opowiem Wam trochę o tym wykresie i jego zaletach oraz wadach. Opowiem, co go łączy z wykresem pudełkowym, a co z histogramem. Pojawi się też termin estymator jądrowy gęstości. A kiedy to wszystko zbierzemy razem, to powinniśmy wiedzieć, jak interpretować wykres skrzypcowy.

Dzisiejsze wykresy dotyczą obserwacji grupy 54 osób. Mamy dane odnośnie płci, wieku, wzrostu oraz koloru oczu.

Przypomnienie – wykres pudełkowy i histogram

Na początku chciałam przypomnieć, co to jest histogram i wykres pudełkowy.

Wykres pudełkowy

wykres pudełkowy, pudełko i wąsy

wykres: pudełko i wąsy

Wykres pudełkowy (pudełko i wąsy) przedstawia nam wartości poszczególnych kwartyli w formie pudełka podzielonego na dwie części medianą. Z tego pudełka wyrastają wąsy, zwykle o długości do 1,5 * rozstęp ćwiartkowy.

Histogram

histogram

wykres: histogram

Histogram pokazuje nam, ile obserwacji przypada na określony przedział wartości, w ten sposób przedstawiając empiryczny rozkład określonej cechy.

Estymator jądrowy gęstości

Niektóre programy, kiedy rysujemy histogram, dają nam od razu możliwość dorysowania na nim krzywej, którą nazywa się estymatorem jądrowym gęstości (ang. KDE, kernel density estimation).  Nie czuję się na siłach tłumaczyć szczegółowo co to jest KDE – zainteresowanych zapraszam do przeczytania definicji na stronie wikipedii. A dla wszystkich, którzy nie potrzebują szczegółowej wiedzy w tym zakresie, opowiem o estymatorze jądrowym gęstości w dużym uproszczeniu. Wyobraźmy sobie, że dla każdego zaobserwowanego punktu rysujemy na osi wykres rozkładu normalnego, który w miejscu tego punktu ma swój szczyt. Następnie wszystkie te wykresy dodajemy do siebie i normalizujemy. W efekcie otrzymujemy trochę wygładzony histogram. Warto zwrócić tu uwagę na fakt, że nasz estymator jądrowy gęstości będzie przyjmował wartości dodatnie również tam, gdzie obserwacje nie występowały wcale.

wykres histogram, estymator jądrowy gęstości

wykres: histogram + KDE

Wykres skrzypcowy

No i tu właśnie pojawia się miejsce na wykres skrzypcowy:

wykres skrzypcowy, violin plot

wykres skrzypcowy

Jeśli dobrze się przyjrzymy, to widać, że wykres skrzypcowy tworzą dwie linie KDE. W środku zwyczajowo rysowany jest schematycznie wykres pudełko i wąsy. Widać na środku białą kropeczkę oznaczającą medianę, a następnie pudełko (wyznaczone kwartylami) oraz charakterystyczne wąsy.

Co jeszcze może być w środku?

Wykres skrzypcowy nie musi zawierać w środku pudełka i wąsów. Może być zupełnie pusty albo można przedstawić na nim różne inne informacje.

Jedną z możliwości jest po prostu zaznaczenie kwartyli:

wykres skrzypcowy, violin plot, kwartyle

wykres skrzypcowy + kwartyle

Można również zaznaczyć kreski w miejscu obserwacji:

wykres skrzypcowy, violin plot, stick

wykres skrzypcowy + linie obserwacji

Jeśli obserwacje się pokrywają, to powyższy rysunek niewiele nam powie. Wtedy może przydać się taki, na którym każda obserwacja to osobna kropeczka:

wykres skrzypcowy, violin plot, swarmplot

wykres skrzypcowy + zaznaczone obserwacje

Wykres skrzypcowy – podział ze względu na płeć.

Ale to jeszcze nie koniec możliwości, jakie daje nam wykres skrzypcowy. Możemy spróbować podzielić naszych obserwowanych ze względu na płeć:

wykres skrzypcowy, violin plot, podział ze względu na płeć

wykres skrzypcowy: podział ze względu na płeć

A może płeć i kolor oczu?

Jeśli sam podział ze względu na płeć nam nie wystarcza, możemy dodać jeszcze drugą cechę nominalną – w naszym przypadku będzie to kolor oczu:

wykres skrzypcowy, violin plot, płeć, kolor oczu

wykres skrzypcowy: podział ze względu na płeć i kolor oczu

I tutaj możemy wykorzystać jedną z dużych zalet wykresu skrzypcowego. Nasze osiem powyższych obrazków skurczymy do czterech w taki sposób, że na każdym wykresie lewa strona będzie przedstawiać dane dotyczące kobiet, a prawa strona dane dotyczące mężczyzn. Zobaczmy, jak to wygląda i na ile ułatwia porównania:

wykres skrzypcowy, violin plot, płeć, kolor oczu

wykres skrzypcowy: podział ze względu na płeć i kolor oczu

Bardzo łatwo z powyższego wykresu możemy odczytać, że niezależnie od koloru oczu, mężczyźni charakteryzują się średnio wyższym wzrostem niż kobiety. Możemy też porównywać wzrost w zależności od koloru oczu.

Zalety i wady wykresu skrzypcowego

wykres skrzypcowy – zalety

  1. Przekazuje więcej informacji niż minimalistyczne pudełko i wąsy – możemy odczytać nie tylko informacje na temat poszczególnych kwantyli, ale zobaczyć, jak wygląda estymator jądrowy gęstości.
  2. W przypadku obserwacji o rozkładzie wielomodalnym, wykres pudełko i wąsy nie sprawdza się zbyt dobrze. Zobaczymy dane odnośnie kwartyli, ale nie zobaczymy, że wartości mają więcej niż jedną wartość dominującą. Przykładem tutaj może być obserwowany wzrost osób wchodzących do przedszkola o godzinie 8 rano. Spodziewamy się rodziców i dzieci, czyli osób o znacznie różniącym się wzroście. Jak to będzie wyglądać na wykresie pudełkowym?
    wykres pudełko i wąsy, bimodalne

    wykres pudełkowy: obserwacje bimodalne

    I tutaj właśnie swoją przewagę pokazuje wykres skrzypcowy, na którym można wyraźnie zaobserwować dwa „pagórki” – po jednym dla przedszkolaków i ich rodziców:

    wykres skrzypcowy, rozkład bimodalny, violin plot

    wykres skrzypcowy: obserwacje bimodalne

    Swoją drogą – zobaczmy jak będzie wyglądać histogram w takiej sytuacji:

    histogram, rozkład bimodalny, dwie dominanty

    histogram: obserwacje bimodalne

    Który wykres Waszym zdaniem najlepiej pokazuje wszystkie informacje? Powiem szczerze, że sama chyba skłaniam się ku histogramowi, na którym wyraźnie widać „przerwę” w danych. Niemniej jednak nie znajdziemy tam informacji o medianie ani o kwartylach. Zawsze trzeba dopasować wybór do tego, co chcemy przedstawić.

  3. Dzięki możliwości umieszczenia dwóch cech nominalnych na jednym wykresie ułatwia porównanie obserwacji.

wykres skrzypcowy – wady

  1. Wciąż jest bardzo mało popularny, dlatego często trudniejszy do interpretacji. Nie jest intuicyjny, trzeba się zorientować, co jest na nim przedstawione, dlatego przegrywa zarówno z histogramem jak i z wykresem pudełkowym.
  2. Trudno go narysować „odręcznie” (trzeba obliczyć estymator jądrowy gęstości, a to nie jest proste zadanie). W przypadku histogramu i wykresu pudełkowego możemy bardzo łatwo narysować je nawet na kartce papieru, posiadając tylko kilka podstawowych informacji.
  3. Nie wszystkie programy mają dostępną opcję rysowania wykresu skrzypcowego. Ja korzystałam z pakietu Seaborn dla Pythona. Na pewno można użyć do tego celu też R. Ale w popularnym Excelu nie znajdziemy tego typu wykresów.

Podsumowanie

Myślę, że wykres skrzypcowy nie jest szczególnie popularny i pewnie nigdy takim nie zostanie. Ale równocześnie myślę, że warto go poznać, bo może się okazać, że najlepiej zobrazuje coś, co chcielibyśmy przedstawić w naszych badaniach statystycznych.


Zapraszam do lektury pozostałych artykułów na blogu. Można skorzystać ze spisu treści.

Zapraszam również do polubienia strony statystycznego na Facebooku.

wykres skrzypcowy, violin plot, mapa myśli, prezentacja danych statystycznych

mapa myśli: wykres skrzypcowy

Please follow and like us: