Inter-rater agreement Kappas

a.k.a. inter-rater reliability tai concordance

Tilastotieteessä inter-rater reliability, inter-rater agreement tai concordance on arvioijien välisen yksimielisyyden aste. Se antaa pisteytyksen siitä, kuinka paljon homogeenisuutta eli yksimielisyyttä arvioijien antamissa luokituksissa on.

Tässä käsitellyt Kappat soveltuvat parhaiten ”nimellisille” aineistoille. Nämä menetelmät eivät ota huomioon aineiston luonnollista järjestystä (jos sellainen on olemassa). Jos aiot käyttää näitä mittareita, varmista, että olet tietoinen rajoituksista.

Tässä on kaksi osaa:

  1. Lasketaan havaittu yksimielisyys
  2. Lasketaan sattumanvarainen yksimielisyys

Esitettäköön, että olemme tekemisissä ”kyllä”- ja ”ei”-vastausten ja kahden arvioijan kanssa. Tässä ovat luokitukset:

rater1 = 
rater2 =

Kääntämällä nämä luokitukset sekoitusmatriisiksi:

Observed agreement = (6 + 1) / 10 = 0.7
Chance agreement = probability of randomly saying yes (P_yes) + probability of randomly saying no (P_no)
P_yes = (6 + 1) / 10 * (6 + 1) / 10 = 0.49
P_no = (1 + 1) / 10 * (1 + 1) / 10 = 0.04
Chance agreement = 0.49 + 0.04 = 0.53

Koska havaittu yhteneväisyys on suurempi kuin sattumanvarainen yhteneväisyys, saamme positiivisen Kappan.

kappa = 1 - (1 - 0.7) / (1 - 0.53) = 0.36

Vai käytä vain sklearn:n toteutusta

from sklearn.metrics import cohen_kappa_scorecohen_kappa_score(rater1, rater2)

, joka palauttaa 0.35714.

Kappan tulkinta

Erikoistapaukset

Vähemmän kuin sattumanvarainen yhteneväisyys

rater1 = 
rater2 =
cohen_kappa_score(rater1, rater2)
-0.2121

Jos kaikk. arvosanat ovat samat ja vastakkaiset

Tämä tapaus tuottaa luotettavasti kappa 0

rater1 = * 10
rater2 = * 10
cohen_kappa_score(rater1, rater2)
0.0

Sattumanvaraiset arvosanat

Sattumanvaraisille arvosanoille Kappa seuraa normaalijakaumaa, jonka keskiarvo on noin nolla.

Mikäli arvosanojen määrä kasvaa, Kappan arvon vaihtelu jakaumassa vähenee.

10 satunnaista arvosanaa jokaiselle arvioijalle (satunnaisotos 1,000 arvioijien välistä Kappa-laskua)

100 satunnaisluokitusta kullekin arvioijalle (satunnaisotos 1,000 arvioijien välistä Kappa-laskelmaa)

Täältä löytyy lisätietoja

Huomaa, että Cohenin Kappaa sovellettiin vain silloin, kun kaksi arvioijaa arvioi täsmälleen samoja asioita.

Vastaa

Sähköpostiosoitettasi ei julkaista.