Zwischen-Rater-Übereinstimmung Kappas

auch bekannt als Inter-Rater-Reliabilität oder Konkordanz

In der Statistik ist die Inter-Rater-Reliabilität, Inter-Rater-Übereinstimmung oder Konkordanz der Grad der Übereinstimmung zwischen den Beurteilern. Er gibt an, wie homogen oder übereinstimmend die von den Beurteilern abgegebenen Bewertungen sind.

Die hier behandelten Kappas sind am besten für „nominale“ Daten geeignet. Die natürliche Ordnung in den Daten (falls vorhanden) wird von diesen Methoden ignoriert. Wenn Sie diese Metriken verwenden wollen, sollten Sie sich über die Einschränkungen im Klaren sein.

Das hat zwei Teile:

  1. Berechnen Sie die beobachtete Übereinstimmung
  2. Berechnen Sie die zufällige Übereinstimmung

Sagen wir, wir haben es mit „Ja“- und „Nein“-Antworten und 2 Bewertern zu tun. Hier sind die Bewertungen:

rater1 = 
rater2 =

Diese Bewertungen in eine Verwechslungsmatrix umwandeln:

Observed agreement = (6 + 1) / 10 = 0.7
Chance agreement = probability of randomly saying yes (P_yes) + probability of randomly saying no (P_no)
P_yes = (6 + 1) / 10 * (6 + 1) / 10 = 0.49
P_no = (1 + 1) / 10 * (1 + 1) / 10 = 0.04
Chance agreement = 0.49 + 0.04 = 0.53

Da die beobachtete Übereinstimmung größer ist als die zufällige Übereinstimmung, erhalten wir ein positives Kappa.

kappa = 1 - (1 - 0.7) / (1 - 0.53) = 0.36

Oder verwenden Sie einfach die Implementierung von sklearn

from sklearn.metrics import cohen_kappa_scorecohen_kappa_score(rater1, rater2)

, die 0,35714 ergibt.

Interpretation von Kappa

Sonderfälle

Weniger als zufällige Übereinstimmung

rater1 = 
rater2 =
cohen_kappa_score(rater1, rater2)
-0.2121

Wenn alle die Bewertungen gleich und entgegengesetzt sind

Dieser Fall ergibt zuverlässig ein kappa von 0

rater1 = * 10
rater2 = * 10
cohen_kappa_score(rater1, rater2)
0.0

Zufallsbewertungen

Für Zufallsbewertungen Kappa gilt eine Normalverteilung mit einem Mittelwert von etwa Null.

Mit zunehmender Anzahl der Bewertungen nimmt die Variabilität des Kappa-Wertes in der Verteilung ab.

10 Zufallsbewertungen für jeden Bewerter (Stichprobe von 1,000 Inter-Rater-Kappa-Berechnungen)

100 Zufallsbewertungen für jeden Bewerter (Stichprobe von 1,000 Inter-Rater-Kappa-Berechnungen)

Weitere Details finden Sie hier

Beachten Sie, dass Cohens Kappa nur für 2 Bewerter gilt, die genau dieselben Items bewerten.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.