Indeks Jaccarda – to chyba kolejne pojęcie, które nie mówi zbyt dużo większości czytelników. Mnie zauroczył najbardziej jego początek – alpejskie łąki, kwiaty. Potrafię sobie wybrazić taki obrazek i tego „naukowca”, który zamiast zachwycać się pięknem przyrody, postanawia przeanalizować podobieństwo pomiędzy wspomnianymi łąkami. Jaki odsetek gatunków z jednej lokalizacji powtarza się na innej? Od tego się zaczęło, a potem było wykorzystywane do analizy zmian przebiegu koryta rzeki czy do porównań różnych tekstów. Aktualnie Indeks Jaccarda ma swoje zastosowanie w NLP więc warto jak najlepiej go poznać, żeby móc wykorzystać, kiedy pracujemy z danymi tekstowymi.
Jak to się zaczęło…
Paul Jaccard żył na przełomie XIX i XX wieku (1868-1944) i może nam się kojarzyć z Zurichem. A skoro Zurich, to Szwajcaria, Szwajcaria to Alpy i już jesteśmy na tych wspomnianych wcześniej alpejskich ukwieconych łąkach. Od tego się zaczęło – w 1901 roku mamy artykuł „Distribution de La Flore Alpine”, a w 1912 „The distribution of the flora in the Alpine Zone”. 3 obszary, topograficznie podobne: górne dorzecze Sallanche i Trientu, masyw Wildhorn, górny basen Dranses. Paul Jaccard analizował, jakie gatunki kwiatów na nich występują i na ile są podobne pomiędzy poszczególnymi obszarami. Czy wszędzie rosną te same kwiaty? A może jednak inne? Jeśli kogoś bardziej zainteresują te botaniczne szczegóły, to zachęcam do przeczytania artykułów, można je bez większych problemów znaleźć w Internecie. Ja natomiast chciałabym się skupić na samym indeksie Jaccarda, który jest prostą statystyką wykorzystywaną do porównywania zbiorów.
Jak obliczyć indeks Jaccarda
Jak działa indeks Jaccarda? Wyobraźmy sobie 2 łąki pełne kwiatów. Liczymy, ile gatunków kwiatów powtarza się na obu łąkach, a następnie, ile jest unikalnych na każdej z nich. Liczbę gatunków, które się powtarzają, dzielimy przez wszystkie występujące gatunki kwiatów, a następnie mnożymy przez 100, żeby dostać wynik w procentach. I im wyższy ten procent, tym bardziej podobne te nasze zbiory.
\(J(A,B)=\frac{∣A \cap B∣}{∣A \cup B∣} \)gdzie:
- ∣A∩B∣ to liczba elementów wspólnych dla zbiorów A i B
- ∣A∪B∣ to liczba elementów w unii zbiorów A i B, czyli wszystkich elementów, które znajdują się przynajmniej w jednym z tych zbiorów

Indeks Jaccarda – przykłady
Szczerze mówiąc, to planowałam, że narysuję jakieś dwie łączki pełne kwiatków, żeby dobrze się kojarzyły z tematem i przypominały, skąd się wziął indeks Jaccarda. Ale moje zdolności plastyczne mnie pokonały – nie potrafię narysować tylu różnych kwiatków. Ale na łące często mamy do czynienia z różnymi robaczkami, insektami, ślimakami i innymi małymi żyjątkami. Postanowiłam więc zbudować przykład na świecie tych właśnie żyjątek. Będą biedronki, ślimaki, motylki…
Indeks Jaccarda – robaczki na łące

No i mamy sobie te dwie łączki, na których fruwają lub łażą sobie różne żyjątka. Jak możemy porównać te dwie łąki? Sprawdzamy, co mieszka tylko na jednej z nich, a co na obydwóch i tworzymy sobie takie ładne zbiory jak na poniższym obrazku:

I teraz już łatwo możemy policzyć. Mamy 9 różnych żyjątek, a tylko dwa z nich występują na jednej i drugiej łące. Dzielimy 2 przez 9 i mnożymy przez 100, żeby otrzymać procenty i wychodzi nam 22%. I tyle właśnie wynosi indeks Jaccarda.
Indeks Jaccarda a porównanie tekstów
Załóżmy, że mamy dwa zdania:
- Jesienią często pada deszcz i dlatego musimy nosić ze sobą parasol.
- Kiedy pada deszcz, to zwykle nosimy ze sobą parasol.
Jakie słowa występują w powyższych dwóch zdaniach? Mamy: jesienią, często, pada, deszcz, i, dlatego, musimy, nosić, ze, sobą, parasol, kiedy, to, zwykle, nosimy. W sumie 15 różnych słów. Wspólnych jest 5 słów na 15, co oznacza, że indeks Jaccarda wynosi 1/3 (33,3%).
Inny zestaw przykładowych zdań:
- Czekolada często poprawia mi humor.
- Kiedy mam zły humor, to często pomaga mi czekolada.
Różne słowa: czekolada, często, poprawia, mi, humor, kiedy, mam, zły, to, pomaga. Wspólne: czekolada, często, mi, humor. 4 z 10 powtarzają się w obu zbiorach – indeks Jaccarda wynosi 40%. Zgodnie z tą miarą te dwa zdania są bardziej podobne do siebie niż powyższe zdania o jesieni.
Zastosowania indeksu Jaccarda
Indeks Jaccarda stosuje się nie tylko do porównywania tekstów. Gdzie jeszcze może się przydać?
- Biologia: porównywanie sekwencji DNA, gdzie interesuje nas podobieństwo między dwoma organizmami.
- Marketing: analiza preferencji klientów na podstawie zakupionych produktów.
- Zarządzanie dokumentami: ocena podobieństwa między dokumentami, np. przy wykrywaniu plagiatów.
A może ktoś z czytelników miał okazję wykorzystać indeks Jaccarda w jakimś swoim projekcie? Zapraszam do podzielenia się przykładami.
Kilka słów tytułem podsumowania
Indeks Jaccarda jest bardzo prostą miarą, która nie wymaga skomplikowanych obliczeń. Ma swoje wady i zalety, ale na pewno warto go znać i skorzystać, kiedy będzie okazja. A podczas spacerów warto mieć oczy i umysł otwarte – być może przyjdzie też nam do głowy coś, co można by było wykorzystać w szeroko pojętej nauce.
I to by było dzisiaj na tyle.
Zapraszam na blogowego facebooka i do przeglądania spisu treści artykułów. Zawsze warto poszukać czegoś ciekawego do poczytania.
Pozdrawiam serdecznie!
Krystyna Piątkowska
PS. Jeśli się spodobało – możecie „zaprosić mnie na kawę” (w sumie, jeśli się nie spodobało, to też możecie).

