Inter-rater agreement Kappa’s

a.k.a. inter-beoordelaarsbetrouwbaarheid of concordantie

In de statistiek is inter-beoordelaarsbetrouwbaarheid, inter-beoordelaarsovereenstemming of concordantie de mate van overeenstemming tussen beoordelaars. Het geeft aan hoeveel homogeniteit, of consensus, er is in de beoordelingen die door beoordelaars worden gegeven.

De hier behandelde Kappa’s zijn het meest geschikt voor “nominale” gegevens. De natuurlijke ordening in de gegevens (als die al bestaat) wordt door deze methoden genegeerd. Als je deze metriek gaat gebruiken, zorg dan dat je je bewust bent van de beperkingen.

Dit bestaat uit twee delen:

  1. Bereken waargenomen overeenkomst
  2. Bereken overeenkomst door toeval

Laten we zeggen dat we te maken hebben met “ja”- en “nee”-antwoorden en 2 beoordelaars. Hier zijn de beoordelingen:

rater1 = 
rater2 =

Wanneer we deze beoordelingen omzetten in een verwarringsmatrix:

Observed agreement = (6 + 1) / 10 = 0.7
Chance agreement = probability of randomly saying yes (P_yes) + probability of randomly saying no (P_no)
P_yes = (6 + 1) / 10 * (6 + 1) / 10 = 0.49
P_no = (1 + 1) / 10 * (1 + 1) / 10 = 0.04
Chance agreement = 0.49 + 0.04 = 0.53

Omdat de waargenomen overeenstemming groter is dan de toevallige overeenstemming, krijgen we een positieve Kappa.

kappa = 1 - (1 - 0.7) / (1 - 0.53) = 0.36

Of u kunt gewoon sklearn’s implementatie

from sklearn.metrics import cohen_kappa_scorecohen_kappa_score(rater1, rater2)

gebruiken, die 0,35714 oplevert.

Interpretatie van Kappa

Speciale gevallen

Minder dan toevallige overeenstemming

rater1 = 
rater2 =
cohen_kappa_score(rater1, rater2)
-0.2121

Als alle de beoordelingen gelijk en tegengesteld zijn

Dit geval levert betrouwbaar een kappa van 0 op

rater1 = * 10
rater2 = * 10
cohen_kappa_score(rater1, rater2)
0.0

Randombeoordelingen

Voor willekeurige beoordelingen volgt Kappa een normale verdeling met een gemiddelde van ongeveer nul.

Als het aantal waarderingen toeneemt, is er minder variabiliteit in de waarde van Kappa in de verdeling.

10 willekeurige beoordelingen voor elke beoordelaar (willekeurige steekproef van 1,000 inter-beoordelaar Kappa berekeningen)

100 willekeurige waarderingen voor elke beoordelaar (willekeurige steekproef van 1.,000 inter-beoordelaar Kappa berekeningen)

Meer details vindt u hier

Merk op dat Cohen’s Kappa alleen van toepassing was op 2 beoordelaars die exact dezelfde items beoordeelden.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.