auch bekannt als Inter-Rater-Reliabilität oder Konkordanz
In der Statistik ist die Inter-Rater-Reliabilität, Inter-Rater-Übereinstimmung oder Konkordanz der Grad der Übereinstimmung zwischen den Beurteilern. Er gibt an, wie homogen oder übereinstimmend die von den Beurteilern abgegebenen Bewertungen sind.
Die hier behandelten Kappas sind am besten für „nominale“ Daten geeignet. Die natürliche Ordnung in den Daten (falls vorhanden) wird von diesen Methoden ignoriert. Wenn Sie diese Metriken verwenden wollen, sollten Sie sich über die Einschränkungen im Klaren sein.
Das hat zwei Teile:
- Berechnen Sie die beobachtete Übereinstimmung
- Berechnen Sie die zufällige Übereinstimmung
Sagen wir, wir haben es mit „Ja“- und „Nein“-Antworten und 2 Bewertern zu tun. Hier sind die Bewertungen:
rater1 =
rater2 =
Diese Bewertungen in eine Verwechslungsmatrix umwandeln:
Observed agreement = (6 + 1) / 10 = 0.7
Chance agreement = probability of randomly saying yes (P_yes) + probability of randomly saying no (P_no)
P_yes = (6 + 1) / 10 * (6 + 1) / 10 = 0.49
P_no = (1 + 1) / 10 * (1 + 1) / 10 = 0.04
Chance agreement = 0.49 + 0.04 = 0.53
Da die beobachtete Übereinstimmung größer ist als die zufällige Übereinstimmung, erhalten wir ein positives Kappa.
kappa = 1 - (1 - 0.7) / (1 - 0.53) = 0.36
Oder verwenden Sie einfach die Implementierung von sklearn
from sklearn.metrics import cohen_kappa_scorecohen_kappa_score(rater1, rater2)
, die 0,35714 ergibt.
Interpretation von Kappa
Sonderfälle
Weniger als zufällige Übereinstimmung
rater1 =
rater2 =
cohen_kappa_score(rater1, rater2)
-0.2121
Wenn alle die Bewertungen gleich und entgegengesetzt sind
Dieser Fall ergibt zuverlässig ein kappa
von 0
rater1 = * 10
rater2 = * 10
cohen_kappa_score(rater1, rater2)
0.0
Zufallsbewertungen
Für Zufallsbewertungen Kappa
gilt eine Normalverteilung mit einem Mittelwert von etwa Null.
Mit zunehmender Anzahl der Bewertungen nimmt die Variabilität des Kappa-Wertes in der Verteilung ab.
Weitere Details finden Sie hier
Beachten Sie, dass Cohens Kappa nur für 2 Bewerter gilt, die genau dieselben Items bewerten.