Inter-rater agreement Kappas

a.k.a. inter-rater reliability tai concordance

Tilastotieteessä inter-rater reliability, inter-rater agreement tai concordance on arvioijien välisen yksimielisyyden aste. Se antaa pisteytyksen siitä, kuinka paljon homogeenisuutta eli yksimielisyyttä arvioijien antamissa luokituksissa on.

Tässä käsitellyt Kappat soveltuvat parhaiten ”nimellisille” aineistoille. Nämä menetelmät eivät ota huomioon aineiston luonnollista järjestystä (jos sellainen on olemassa). Jos aiot käyttää näitä mittareita, varmista, että olet tietoinen rajoituksista.

Tässä on kaksi osaa:

Lasketaan havaittu yksimielisyys
Lasketaan sattumanvarainen yksimielisyys

Esitettäköön, että olemme tekemisissä ”kyllä”- ja ”ei”-vastausten ja kahden arvioijan kanssa. Tässä ovat luokitukset:

rater1 = 
rater2 =

Kääntämällä nämä luokitukset sekoitusmatriisiksi:

Observed agreement = (6 + 1) / 10 = 0.7
Chance agreement = probability of randomly saying yes (P_yes) + probability of randomly saying no (P_no)
P_yes = (6 + 1) / 10 * (6 + 1) / 10 = 0.49
P_no = (1 + 1) / 10 * (1 + 1) / 10 = 0.04
Chance agreement = 0.49 + 0.04 = 0.53

Koska havaittu yhteneväisyys on suurempi kuin sattumanvarainen yhteneväisyys, saamme positiivisen Kappan.

kappa = 1 - (1 - 0.7) / (1 - 0.53) = 0.36

Vai käytä vain sklearn:n toteutusta

from sklearn.metrics import cohen_kappa_scorecohen_kappa_score(rater1, rater2)

, joka palauttaa 0.35714.

Kappan tulkinta

10 satunnaista arvosanaa jokaiselle arvioijalle (satunnaisotos 1,000 arvioijien välistä Kappa-laskua)

100 satunnaisluokitusta kullekin arvioijalle (satunnaisotos 1,000 arvioijien välistä Kappa-laskelmaa)

Täältä löytyy lisätietoja

Huomaa, että Cohenin Kappaa sovellettiin vain silloin, kun kaksi arvioijaa arvioi täsmälleen samoja asioita.

Inter-rater agreement Kappas

Vähemmän kuin sattumanvarainen yhteneväisyys

Jos kaikk. arvosanat ovat samat ja vastakkaiset

Sattumanvaraiset arvosanat

Vastaa Peruuta vastaus

Viimeisimmät artikkelit