a.k.a. inter-rater reliability tai concordance
Tilastotieteessä inter-rater reliability, inter-rater agreement tai concordance on arvioijien välisen yksimielisyyden aste. Se antaa pisteytyksen siitä, kuinka paljon homogeenisuutta eli yksimielisyyttä arvioijien antamissa luokituksissa on.
Tässä käsitellyt Kappat soveltuvat parhaiten ”nimellisille” aineistoille. Nämä menetelmät eivät ota huomioon aineiston luonnollista järjestystä (jos sellainen on olemassa). Jos aiot käyttää näitä mittareita, varmista, että olet tietoinen rajoituksista.
Tässä on kaksi osaa:
- Lasketaan havaittu yksimielisyys
- Lasketaan sattumanvarainen yksimielisyys
Esitettäköön, että olemme tekemisissä ”kyllä”- ja ”ei”-vastausten ja kahden arvioijan kanssa. Tässä ovat luokitukset:
rater1 =
rater2 =
Kääntämällä nämä luokitukset sekoitusmatriisiksi:
Observed agreement = (6 + 1) / 10 = 0.7
Chance agreement = probability of randomly saying yes (P_yes) + probability of randomly saying no (P_no)
P_yes = (6 + 1) / 10 * (6 + 1) / 10 = 0.49
P_no = (1 + 1) / 10 * (1 + 1) / 10 = 0.04
Chance agreement = 0.49 + 0.04 = 0.53
Koska havaittu yhteneväisyys on suurempi kuin sattumanvarainen yhteneväisyys, saamme positiivisen Kappan.
kappa = 1 - (1 - 0.7) / (1 - 0.53) = 0.36
Vai käytä vain sklearn
:n toteutusta
from sklearn.metrics import cohen_kappa_scorecohen_kappa_score(rater1, rater2)
, joka palauttaa 0.35714.
Kappan tulkinta
Täältä löytyy lisätietoja
Huomaa, että Cohenin Kappaa sovellettiin vain silloin, kun kaksi arvioijaa arvioi täsmälleen samoja asioita.