Współczynnik Youdena (indeks Youdena), nazwany od swojego twórcy Williama J. Youdena, jest miarą jakości testu diagnostycznego. Jest obliczany jako suma czułości (True Positive Rate, TPR) i specyficzności (True Negative Rate, TNR) pomniejszona o 1. Współczynnik ten pomaga znaleźć punkt odcięcia pomiędzy obiektami pozytywnymi i negatywnymi. Maksymalizuje zdolność do jednoczesnego zminimalizowania błędów dla obu klas (pozytywnej i negatywnej).
Czytaj dalejKategoria: pojęcia statystyczne
AUC – Area under curve – czyli co kryje się pod krzywą?
AUC – Area under curve – to kolejny krok po tym, jak już narysowaliśmy sobie krzywą ROC. Już samo przetłumaczenie na polski podpowiada, czego powinniśmy szukać. Obszar pod krzywą podpowie nam, jaka jest całkowita zdolność klasyfikatora do rozróżnienia między klasami. Spróbujmy więc to wszystko sobie narysować i odkryć, co tak naprawdę kryje się pod krzywą…
Czytaj dalejROC – Receiver Operating Characteristic
ROC czyli Receiver Operating Characteristic to temat, który zaskoczył mnie, kiedy podczas pracy nad jednym z moich projektów czytałam na temat przeprowadzanych badań medycznych. Pojawił się wraz z pojęciem AUC. I tak jak mi się wydawało, że o macierzy błędów wiem już wszystko, tak nagle się okazało, że wcale tak nie jest i dużo muszę jeszcze się nauczyć. Zapraszam do wspólnej nauki razem ze mną.
Czytaj dalejMacierz błędów i co z tego wynika
No dobrze, klasyfikuję tekst za pomocą metod machine learning. Ale raz to działa, a raz nie działa. Pojawiają się błędy. Jak sprawdzić, czy te błędy są duże? Które kategorie są najczęściej niedoszacowane? A do których trafiają najczęściej nasze teksty? Jaka jest dokładność naszej klasyfikacji?
Z jak najdokładniejszą analizą jakości naszej klasyfikacji pomoże nam macierz błędów (inaczej zwana tablicą pomyłek, a po angielsku confusion matrix).
Czytaj dalejGrupa ucząca, walidacyjna i testowa
Cofnijmy się o jeden kroczek. Bo napisałam już ogólnie o machine learning. Napisałam również o klasyfikacji tekstu. Nie wspomniałam jednak ani słowem czym jest grupa ucząca, walidacyjna i testowa. A to przecież jedna z podstawowych informacji, które warto zrozumieć, kiedy zabieramy się za tematykę machine learning. Zwłaszcza, że przyda się nie tylko w przypadku klasyfikacji.
Czytaj dalej