Inter-rater agreement Kappas

a.k.a. inter-rater reliability o concordance

In statistica, inter-rater reliability, inter-rater agreement, o concordance è il grado di accordo tra i valutatori. Dà un punteggio di quanta omogeneità, o consenso, c’è nelle valutazioni date dai giudici.

I Kappas trattati qui sono più appropriati per i dati “nominali”. L’ordinamento naturale nei dati (se esiste) è ignorato da questi metodi. Se hai intenzione di usare queste metriche assicurati di essere consapevole delle limitazioni.

Ci sono due parti:

  1. Calcolare l’accordo osservato
  2. Calcolare l’accordo per caso

Diciamo che abbiamo a che fare con risposte “sì” e “no” e 2 classificatori. Ecco le valutazioni:

rater1 = 
rater2 =

Trasformando queste valutazioni in una matrice di confusione:

Observed agreement = (6 + 1) / 10 = 0.7
Chance agreement = probability of randomly saying yes (P_yes) + probability of randomly saying no (P_no)
P_yes = (6 + 1) / 10 * (6 + 1) / 10 = 0.49
P_no = (1 + 1) / 10 * (1 + 1) / 10 = 0.04
Chance agreement = 0.49 + 0.04 = 0.53

Siccome l’accordo osservato è maggiore dell’accordo casuale, otterremo un Kappa positivo.

kappa = 1 - (1 - 0.7) / (1 - 0.53) = 0.36

Oppure basta usare l’implementazione di sklearn

from sklearn.metrics import cohen_kappa_scorecohen_kappa_score(rater1, rater2)

che restituisce 0,35714.

Interpretazione di Kappa

Casi particolari

Accordo inferiore al caso

rater1 = 
rater2 =
cohen_kappa_score(rater1, rater2)
-0.2121

Se tutte le valutazioni sono uguali e opposte

Questo caso produce in modo affidabile un kappa di 0

rater1 = * 10
rater2 = * 10
cohen_kappa_score(rater1, rater2)
0.0

Valutazione casuale

Per le valutazioni casuali Kappa segue una distribuzione normale con una media di circa zero.

Come il numero di valutazioni aumenta c’è meno variabilità nel valore di Kappa nella distribuzione.

10 valutazioni casuali per ogni valutatore (campione casuale di 1,000 calcoli Kappa inter-rater)

100 valutazioni casuali per ogni rater (campione casuale di 1,000 calcoli Kappa inter-rater)

Puoi trovare maggiori dettagli qui

Nota che il Kappa di Cohen si applica solo a 2 valutatori che valutano esattamente gli stessi articoli.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.