średnio na jeża, czyli średnia arytmetyczna

Mam wrażenie, że najbardziej znanym pojęciem statystycznym jest średnia arytmetyczna. Na pewno każdy wiele razy słyszał, ile wynoszą średnie zarobki, liczył średnią ocen w szkole albo zastanawiał się, jakie jest średnie zużycie paliwa w samochodzie.

Co to jest właściwie ta średnia i jak ją można policzyć? Czy jej znaczenie jest zawsze oczywiste?

mapa-myśli-średnia-arytmetyczna

Mapa myśli: średnia arytmetyczna

Średnią arytmetyczną otrzymujemy poprzez zsumowanie wartości wszystkich badanych obiektów i podzielenie tej sumy przez liczbę obiektów.

\(\overline{x}=\frac{x_{1}+x_{2}+…+x_{n}}{n}\)

Najbardziej klasyczny przykład, znany od szkoły podstawowej, to liczenie średniej ocen. Mamy pięć przedmiotów: język polski, matematykę, język angielski, przyrodę oraz wychowanie fizyczne. Uczeń dostał odpowiednio następujące oceny na koniec semestru: 4, 5, 2, 4, 5. Jak liczymy średnią arytmetyczną? Poprzez dodanie do siebie poszczególnych ocen (4+5+2+4+5), a następnie podzielenie przez liczbę przedmiotów. 20/5 to 4. Nasze obliczenia wskazują więc, że średnia ocen ucznia wynosi 4.

Jak widać z przykładu, średnią arytmetyczną liczy się bardzo łatwo, szczególnie gdy mamy dostęp do wszystkich wartości. Jest intuicyjna, łatwo się ją interpretuje, łatwo używa i dzięki temu właśnie jest powszechnie stosowana – niestety, również w sytuacjach, kiedy nie powinna.

Wady średniej arytmetycznej

Średnia arytmetyczna ma kilka poważnych wad, na które warto zwrócić uwagę:

  1. Przede wszystkim jest to duży wpływ wartości skrajnych. Załóżmy, że chcemy sprzedać na allegro książkę i analizujemy ceny sprzedaży z przeszłości. Jeśli w większości przypadków cena książki wynosiła 20-25 zł, a równocześnie jeden egzemplarz poszedł za 2000 zł (bo miał autograf autora i został zakupiony przez pasjonata), to kwota 2000 zł bardzo istotnie zawyży średnią wartość książki.
  2. Średnia łatwo przyjmuje wartości ułamka, nawet w sytuacjach, kiedy ułamkowa wartość nigdy nie ma prawa wystąpić w rzeczywistości. Taki na przykład współczynnik dzietności, który dla Polski w 2013 roku wyniósł 1,32 i oznacza liczbę urodzonych dzieci przypadających na jedną kobietę w wieku rozrodczym. Z jednej strony wiadomo, jak interpretować tę liczbę (oj, mało dzieci rodzimy, niestety), ale równocześnie zdajemy sobie sprawę z faktu, że nie ma żadnej kobiety, która urodziłaby 1,32 dziecka.
  3. Wszystkie wartości są tak samo ważne i mają identyczny wpływ na wynik. Jeśli naszym celem by była analiza przedmiotów zmieniających się w czasie i chcielibyśmy największą wagę nadać wartościom najnowszym, to niestety średnia arytmetyczna się nie przyda. Wróćmy do przykładu sprzedaży książki na allegro. Jeśli mamy dane odnośnie cen z ostatnich 5 lat, to możemy chcieć uwzględnić wszystkie wartości, ale równocześnie większą wagę przypisać kwotom z ostatniego roku. W takiej sytuacji zwykła średnia arytmetyczna nie znajdzie swojego zastosowania.

Psi przykład

Słyszeliście na pewno słynne powiedzenie, że skoro ja mam dwie nogi, a mój pies cztery, to średnio mamy po trzy nogi. Jest ono bardzo często wypowiadane przez osoby, które nie rozumieją statystyki, nie wiedzą, kiedy jej użyć i jak wykorzystać obliczone wartości. Ma pokazać, że statystyka przekłamuje rzeczywistość. Zdanie to jest jak najbardziej prawdziwe. Sumujemy 2+4 i otrzymujemy 6. Następnie dzielimy przez liczbę badanych jednostek (2) i jak by nie patrzeć wynik wychodzi 3. Ale czy właśnie taki wynik chcieliśmy otrzymać? Czy interesuje nas średnia liczba nóg jednego psa i jednego człowieka? Mają oni reprezentować wszystkie psy i wszystkich ludzi? Mieszkańców naszego osiedla? Czy może wszystkie ssaki na ziemi? Po co liczymy średnią nóg dwóch zupełnie różnych stworzeń?

Odchodząc trochę od tematu (dla zupełnych laików – proszę bez paniki! Temat odchylenia standardowego i typowego obszaru zmienności pojawi się już wkrótce – na razie potraktujcie to z dystansem), warto spojrzeć nie tylko na samą średnią, ale na inne miary, które w pewien sposób są z nią powiązane. Na przykład odchylenie standardowe. W naszym przypadku psa i człowieka wynosi ono dokładnie 1. Pójdźmy dalej. Typowy obszar zmienności, w którym znajduje się teoretycznie około 2/3 badanych obiektów (pod pewnymi założeniami, oczywiście) mieści się w przedziale od 2 do 4 (od średniej arytmetycznej odejmujemy odchylenie standardowe, żeby otrzymać dolną granicę i dodajemy ochylenie standardowe, żeby otrzymać górną granicę). Czyli co? Czyli i nasz pies i jego właściciel zmieścili się w typowym obszarze zmienności. Nie jest więc aż tak źle z tą naszą statystyką, mimo że przykład bezsensowny i nasze obliczenia mogą tylko służyć obaleniu niezbyt mądrego argumentu, że statystyka jest zła.

(Swoją drogą – ciekawy tekst o przykładzie trzech nóg człowieka i psa można znaleźć też tutaj.)

Przykład średniego wynagrodzenia

A teraz przejdźmy do czegoś bardziej przydatnego. Firma rekrutuje pracowników i jako jeden z argumentów zachęcających podaje: „średnie wynagrodzenie w naszej firmie wynosi 5000 zł”. Brzmi kusząco, prawda? Ale czy jest to dla nas informacja wystarczająca? Czy powie nam, ile w rzeczywistości wyniosą nasze zarobki?

Załóżmy, że mamy cztery firmy:

  1. „Wszystkim Równo” – zatrudnia 10 pracowników, z których każdy dostaje co miesiąc 5000 zł.
  2. „Szefo Górą” – zatrudnia panią sprzątaczkę, która na umowę zlecenie otrzymuje 500 zł, do tego 8 szeregowych pracowników z pensją 1500 zł i kierownika, który co miesiąc na konto przyjmuje 37500 zł.
  3. „Byle do Awansu” – mamy tu również 10 pracowników – pięciu pracuje poniżej roku i otrzymują 3000 zł, druga piątka ma już dłuższy staż i dzięki temu doczekała się pensji po 7000 zł.
  4. „Wielka Niewiadoma” – dziesięciu pracowników, każdy z inną pensją, od 1000 do 9000 zł.

W każdej z powyższych firm średnia wynagrodzenia wynosi 5000 zł. Na pewno nie w każdej z nich byśmy chcieli pracować. Czyli w takim przypadku średnie wynagrodzenie to informacja absolutnie niewystarczająca.

Przykład – torebki z mąką

Po tych dwóch przykładach, które wskazują, jak niedoskonała jest średnia arytmetyczna, chciałam pokazać sytuację, gdzie wykorzystanie średniej jest jak najbardziej uzasadnione. Załóżmy, że mamy młyn, w którym ładujemy mąkę do kilogramowych torebek. No i po całym dniu chcielibyśmy sprawdzić, czy w torebkach rzeczywiście wylądował kilogram mąki. W związku z czym ważymy wszystkie torebki z mąką i okazuje się, że tylko niektóre ważą dokładnie 1000 gram. Są torebki lżejsze i cięższe. Ale jak się przekonać, czy sumarycznie nasypaliśmy za dużo, czy za mało? Właśnie tutaj przyda się obliczenie średniej arytmetycznej. Intuicyjnie się domyślamy, że mamy do czynienia z jednorodną zbiorowością, w której nie powinno być zbyt wiele wartości skrajnych (czy tak jest na pewno? – to też warto sprawdzić), wszystkie wartości są dla nas tak samo ważne, a wynik w postaci ułamka nam nie przeszkadza. Wszystkie przesłanki do użycia średniej arytmetycznej są więc spełnione.


Macie swoje pomysły, kiedy warto liczyć średnią arytmetyczną, a kiedy podawanie jej wartości jest bezsensowne? Może jakieś przykłady? Zachęcam do dzielenia się w komentarzach.

A mój przykład rzeczywistego i codziennego wykorzystania średniej arytmetycznej pojawi się w kolejnym wpisie. Zapraszam do czytania.

Please follow and like us:
  • Konrad/Droga do prostego życia

    Od razu napiszę, że jestem humanistą. Pomijanie skrajnych wartości (największej i najmniejszej) i obliczanie bardziej wiarygodnej średniej to będzie nadal średnia arytmetyczna?
    Co do przykładu: Stosuję obliczanie średniej arytmetycznej z ostatnich 12 miesięcy do obliczania średniego poziomu miesięcznych wydatków i dochodów. Jeśli -na dany miesiąc- średni poziom wydatków (z ost. 12 m-cy) jest poniżej średniego poziomu dochodów, to znaczy, że w skali roku panuję nad domowym budżetem, nawet jeśli poszczególne miesiące, a czasem jest to pięć miesięcy pod rząd, wydatki przekraczają dochody. Choć miałem kiedyś taki rok, że średnie roczne wydatki przekraczały dochody i był to wyraźny sygnał, że trzeba poważnie ograniczyć wydatki – opanowanie tej niebezpiecznej tendencji do zadłużania się (widoczne właśnie dzięki średniej arytmetycznej z 12 miesięcy) było sporym wyzwaniem przez kilka kolejnych miesięcy (ale wyszliśmy na prostą). Zatem jest to bardzo pożyteczne narzędzie dla domowych finansów.
    Średnią arytmetyczną stosuję także przy obliczaniu np. średniego miesięcznego zużycia wody lub energii elektrycznej.

    Pozdrawiam 🙂

    • statystycznypl

      Cześć Konradzie, witam Cię na moim blogu!

      Jeśli pominiesz skrajne wartości, to i owszem, będzie to średnia arytmetyczna, ale liczona z innej populacji (czyli innej grupy obiektów).
      Może dam Ci przykład na podstawie właśnie obliczeń średnich miesięcznych dochodów i wydatków:
      Jeśli obliczysz sobie średnią wydatków z 12-tu miesięcy, to otrzymasz wartość, która następnie pomnożona przez 12 da Ci dokładnie wartość rocznych wydatków (tak samo z dochodami).
      Jeśli postanowisz pominąć wartości skrajne i obliczysz sobie średnią arytmetyczną, to wtedy dostaniesz średnią wartość miesięcznych wydatków, która ominie nietypowe sytuacje (jakiś duży niespodziewany koszt w stylu nowego samochodu za gotówkę), ale pomnożona przez 12 nie da Ci już wartości rocznych wydatków. Za to jej wartość będzie bardziej zbliżona do typowego miesięcznego wydatku, który nie będzie zakłócony przez duże jednorazowe koszty (a w przypadku dochodów – nie będzie uwzględniać jednorazowych nietypowych wpływów pieniężnych).
      Trzeba sobie zadać w powyższej sytuacji pytanie, co tak naprawdę chcemy wiedzieć 🙂

      Takie średnie arytmetyczne z pominięciem wartości skrajnych są stosowane w różnych sytuacjach. Jeden z pierwszych przykładów, który przyszedł mi na myśl, to ocena sędziów przy skokach narciarskich.

      Pozdrawiam!

  • Jan_Ludwik_Szosiak

    Mnóstwo nieporozumień co do średniej:
    1. Średnia arytmetyczna z samego założenia nie musi mieć wartości zgodnej z jakimkolwiek pomiarem, a w szczególności bez żadnych zastrzeżeń i zadziwień może być ułamkowa dla samych wartości całkowitych;
    2. Średnia arytmetyczna jest liczbą, dla której suma różnic miedzy nią a każdym pomiarem wynosi zero;
    3. Średnia arytmetyczna jest liczbą, dla której suma kwadratów różnic między nią a każdym pomiarem jest najmniejsza (oczywiście suma kwadratów różnic musi być większa od zera);
    4. Sposób obliczania średniej arytmetycznej pojawia się jako wynik poszukiwania takiej liczby, dla której suma kwadratów różnic między nią a każdym pomiarem jest najmniejsza z możliwych;
    5. Średnią arytmetyczną i odchylenie standardowe liczy się po to, aby splątane rozkłady empiryczne zastąpić wyidealizowanymi rozkładami teoretycznymi, które w PRZYBLIŻENIU odzwierciedlają swoje empiryczne źródło, nie tylko ułatwiając, ale wręcz umożliwiając dokonywanie operacji i ocen, które bez tego są praktycznie niewykonalne.
    6. Jeszcze w XIX wieku pisano w polskich publikacjach, że dla zbiorów masowych danych poszukuje się „przecięcia” (a nie przeciętnej) oraz rozróżniano przecięcie środkowe (medianę) od przecięcia średniego (średniej arytmetycznej), wyrażając się, że „w przecięciu średnim zbiory pszenicy dały..”, a „przecięcie środkowe wysokości czeladników rzeźniczych jest większe od przecięcia środkowego wysokości czeladników szewskich”.
    7. W Encyklopedii z przełomu XIX i XX wieku średnią ilość definiowano jako „wartość przypadającą między innemi wartościami”, dzięki czemu nie było ani cienia sugestii, że średnia powinna być jedną z tych wartości, choć nic nie przeszkadzało, aby nią była.
    8. Dla porządku: mediana jest liczbą, dla której suma bezwzględnych różnic między nią a kazdym pomiarem znajduje się w minimum, co powoduje, że bez spełnienia dodatkowych warunków nie musi sie równać średniej arytmetycznej.
    Całe rozumowanie o średniej jest znakomitą ilustracją do tezy niejakiego Wittgensteina (filozofa znanego i uchodzącego za wielkiego): „Oto zdanie z rodzaju tych, jakie powtarzamy
    niezliczoną ilość razy sądząc, że idziemy tu wciąż od nowa śladem natury; gdy
    tymczasem idziemy śladem formy, przez którą na nią patrzymy. Więził nas pewien
    obraz. Nie mogliśmy wydostać się, bo tkwił w naszym języku, a ten zdawał się go
    nam nieubłaganie powtarzać.”
    Można to też ująć tak: Konieczność ciągłego wyjaśniania, że do średniej nie należy podchodzić tak, jak się wszystkim wydaje, wynika z uporczywie utrzymywanego przekonania, że średnia jest czymś innym niż naprawdę jest.

  • Pingback: Czy dużo chodzę? Analiza liczby kroków. – Blog Statystyczny()