Inter-rater agreement Kappas

a.k.a. inter-rater reliability vagy concordance

A statisztikában az inter-rater reliability, inter-rater agreement vagy concordance az értékelők közötti egyetértés mértéke. Ez egy pontszámot ad arról, hogy a bírálók által adott értékelésekben mekkora a homogenitás vagy konszenzus.

Az itt tárgyalt Kappák leginkább “nominális” adatokra alkalmasak. Az adatok természetes sorrendjét (ha van ilyen) ezek a módszerek figyelmen kívül hagyják. Ha ezeket a mérőszámokat használja, győződjön meg róla, hogy tisztában van a korlátozásokkal.

Ez két részből áll:

A megfigyelt egyezés kiszámítása
Véletlen egyezés kiszámítása

Tegyük fel, hogy “igen” és “nem” válaszokkal és 2 értékelővel van dolgunk. Itt vannak a minősítések:

rater1 = 
rater2 =

Ezeket a minősítéseket egy zavarmátrixba alakítva:

Observed agreement = (6 + 1) / 10 = 0.7
Chance agreement = probability of randomly saying yes (P_yes) + probability of randomly saying no (P_no)
P_yes = (6 + 1) / 10 * (6 + 1) / 10 = 0.49
P_no = (1 + 1) / 10 * (1 + 1) / 10 = 0.04
Chance agreement = 0.49 + 0.04 = 0.53

Mivel a megfigyelt egyezés nagyobb, mint a véletlen egyezés, pozitív Kappát kapunk.

kappa = 1 - (1 - 0.7) / (1 - 0.53) = 0.36

Vagy egyszerűen használjuk sklearn implementációját

from sklearn.metrics import cohen_kappa_scorecohen_kappa_score(rater1, rater2)

, amely 0,35714-et ad vissza.

A Kappa értelmezése

10 véletlenszerű értékelés minden értékelő számára (véletlen minta 1,000 inter-rater Kappa számítások)

100 véletlen értékelés minden egyes értékelő számára (véletlen minta 1,000 inter-rater Kappa számítások)

Több részletet itt talál

Megjegyzendő, hogy a Cohen Kappa csak akkor alkalmazható, ha 2 értékelő pontosan ugyanazokat a tételeket értékeli.

Inter-rater agreement Kappas

Véletlennél kisebb egyezés

Ha az összes. értékelések azonosak és ellentétesek

Véletlen értékelések

Vélemény, hozzászólás? Kilépés a válaszból

Legutóbbi bejegyzések