a.k.a. inter-rater reliability tai concordance
Tilastotieteessä inter-rater reliability, inter-rater agreement tai concordance on arvioijien välisen yksimielisyyden aste. Se antaa pisteytyksen siitä, kuinka paljon homogeenisuutta eli yksimielisyyttä arvioijien antamissa luokituksissa on.
Tässä käsitellyt Kappat soveltuvat parhaiten ”nimellisille” aineistoille. Nämä menetelmät eivät ota huomioon aineiston luonnollista järjestystä (jos sellainen on olemassa). Jos aiot käyttää näitä mittareita, varmista, että olet tietoinen rajoituksista.

Tässä on kaksi osaa:
- Lasketaan havaittu yksimielisyys
- Lasketaan sattumanvarainen yksimielisyys
Esitettäköön, että olemme tekemisissä ”kyllä”- ja ”ei”-vastausten ja kahden arvioijan kanssa. Tässä ovat luokitukset:
rater1 =
rater2 =
Kääntämällä nämä luokitukset sekoitusmatriisiksi:

Observed agreement = (6 + 1) / 10 = 0.7
Chance agreement = probability of randomly saying yes (P_yes) + probability of randomly saying no (P_no)
P_yes = (6 + 1) / 10 * (6 + 1) / 10 = 0.49
P_no = (1 + 1) / 10 * (1 + 1) / 10 = 0.04
Chance agreement = 0.49 + 0.04 = 0.53
Koska havaittu yhteneväisyys on suurempi kuin sattumanvarainen yhteneväisyys, saamme positiivisen Kappan.
kappa = 1 - (1 - 0.7) / (1 - 0.53) = 0.36
Vai käytä vain sklearn
:n toteutusta
from sklearn.metrics import cohen_kappa_scorecohen_kappa_score(rater1, rater2)
, joka palauttaa 0.35714.
Kappan tulkinta

Erikoistapaukset
Vähemmän kuin sattumanvarainen yhteneväisyys
rater1 =
rater2 =
cohen_kappa_score(rater1, rater2)
-0.2121
Jos kaikk. arvosanat ovat samat ja vastakkaiset
Tämä tapaus tuottaa luotettavasti kappa
0
rater1 = * 10
rater2 = * 10
cohen_kappa_score(rater1, rater2)
0.0
Sattumanvaraiset arvosanat
Sattumanvaraisille arvosanoille Kappa
seuraa normaalijakaumaa, jonka keskiarvo on noin nolla.
Mikäli arvosanojen määrä kasvaa, Kappan arvon vaihtelu jakaumassa vähenee.



Täältä löytyy lisätietoja
Huomaa, että Cohenin Kappaa sovellettiin vain silloin, kun kaksi arvioijaa arvioi täsmälleen samoja asioita.