a.k.a. inter-rater reliability vagy concordance
A statisztikában az inter-rater reliability, inter-rater agreement vagy concordance az értékelők közötti egyetértés mértéke. Ez egy pontszámot ad arról, hogy a bírálók által adott értékelésekben mekkora a homogenitás vagy konszenzus.
Az itt tárgyalt Kappák leginkább “nominális” adatokra alkalmasak. Az adatok természetes sorrendjét (ha van ilyen) ezek a módszerek figyelmen kívül hagyják. Ha ezeket a mérőszámokat használja, győződjön meg róla, hogy tisztában van a korlátozásokkal.
Ez két részből áll:
- A megfigyelt egyezés kiszámítása
- Véletlen egyezés kiszámítása
Tegyük fel, hogy “igen” és “nem” válaszokkal és 2 értékelővel van dolgunk. Itt vannak a minősítések:
rater1 =
rater2 =
Ezeket a minősítéseket egy zavarmátrixba alakítva:
Observed agreement = (6 + 1) / 10 = 0.7
Chance agreement = probability of randomly saying yes (P_yes) + probability of randomly saying no (P_no)
P_yes = (6 + 1) / 10 * (6 + 1) / 10 = 0.49
P_no = (1 + 1) / 10 * (1 + 1) / 10 = 0.04
Chance agreement = 0.49 + 0.04 = 0.53
Mivel a megfigyelt egyezés nagyobb, mint a véletlen egyezés, pozitív Kappát kapunk.
kappa = 1 - (1 - 0.7) / (1 - 0.53) = 0.36
Vagy egyszerűen használjuk sklearn
implementációját
from sklearn.metrics import cohen_kappa_scorecohen_kappa_score(rater1, rater2)
, amely 0,35714-et ad vissza.
A Kappa értelmezése
Több részletet itt talál
Megjegyzendő, hogy a Cohen Kappa csak akkor alkalmazható, ha 2 értékelő pontosan ugyanazokat a tételeket értékeli.