a.k.a. inter-beoordelaarsbetrouwbaarheid of concordantie
In de statistiek is inter-beoordelaarsbetrouwbaarheid, inter-beoordelaarsovereenstemming of concordantie de mate van overeenstemming tussen beoordelaars. Het geeft aan hoeveel homogeniteit, of consensus, er is in de beoordelingen die door beoordelaars worden gegeven.
De hier behandelde Kappa’s zijn het meest geschikt voor “nominale” gegevens. De natuurlijke ordening in de gegevens (als die al bestaat) wordt door deze methoden genegeerd. Als je deze metriek gaat gebruiken, zorg dan dat je je bewust bent van de beperkingen.
Dit bestaat uit twee delen:
- Bereken waargenomen overeenkomst
- Bereken overeenkomst door toeval
Laten we zeggen dat we te maken hebben met “ja”- en “nee”-antwoorden en 2 beoordelaars. Hier zijn de beoordelingen:
rater1 =
rater2 =
Wanneer we deze beoordelingen omzetten in een verwarringsmatrix:
Observed agreement = (6 + 1) / 10 = 0.7
Chance agreement = probability of randomly saying yes (P_yes) + probability of randomly saying no (P_no)
P_yes = (6 + 1) / 10 * (6 + 1) / 10 = 0.49
P_no = (1 + 1) / 10 * (1 + 1) / 10 = 0.04
Chance agreement = 0.49 + 0.04 = 0.53
Omdat de waargenomen overeenstemming groter is dan de toevallige overeenstemming, krijgen we een positieve Kappa.
kappa = 1 - (1 - 0.7) / (1 - 0.53) = 0.36
Of u kunt gewoon sklearn
’s implementatie
from sklearn.metrics import cohen_kappa_scorecohen_kappa_score(rater1, rater2)
gebruiken, die 0,35714 oplevert.
Interpretatie van Kappa
Speciale gevallen
Minder dan toevallige overeenstemming
rater1 =
rater2 =
cohen_kappa_score(rater1, rater2)
-0.2121
Als alle de beoordelingen gelijk en tegengesteld zijn
Dit geval levert betrouwbaar een kappa
van 0 op
rater1 = * 10
rater2 = * 10
cohen_kappa_score(rater1, rater2)
0.0
Randombeoordelingen
Voor willekeurige beoordelingen volgt Kappa
een normale verdeling met een gemiddelde van ongeveer nul.
Als het aantal waarderingen toeneemt, is er minder variabiliteit in de waarde van Kappa in de verdeling.
Meer details vindt u hier
Merk op dat Cohen’s Kappa alleen van toepassing was op 2 beoordelaars die exact dezelfde items beoordeelden.