Kappas d’accord inter-évaluateurs

a.k.a. fiabilité inter-évaluateurs ou concordance

En statistique, la fiabilité inter-évaluateurs, l’accord inter-évaluateurs ou la concordance est le degré d’accord entre les évaluateurs. Il donne un score du degré d’homogénéité, ou de consensus, dans les notes données par les juges.

Les Kappa dont il est question ici sont les plus appropriés pour les données « nominales ». L’ordre naturel dans les données (s’il existe) est ignoré par ces méthodes. Si vous allez utiliser ces métriques assurez-vous d’être conscient des limites.

Il y a deux parties à cela :

  1. Calculer l’accord observé
  2. Calculer l’accord par hasard

Disons que nous avons affaire à des réponses « oui » et « non » et à 2 évaluateurs. Voici les évaluations:

rater1 = 
rater2 =

Transformer ces évaluations en une matrice de confusion:

Observed agreement = (6 + 1) / 10 = 0.7
Chance agreement = probability of randomly saying yes (P_yes) + probability of randomly saying no (P_no)
P_yes = (6 + 1) / 10 * (6 + 1) / 10 = 0.49
P_no = (1 + 1) / 10 * (1 + 1) / 10 = 0.04
Chance agreement = 0.49 + 0.04 = 0.53

Puisque l’accord observé est plus grand que l’accord par hasard, nous aurons un Kappa positif.

kappa = 1 - (1 - 0.7) / (1 - 0.53) = 0.36

Ou simplement utiliser l’implémentation de sklearn

from sklearn.metrics import cohen_kappa_scorecohen_kappa_score(rater1, rater2)

qui renvoie 0,35714.

Interprétation de Kappa

Cas particuliers

Accord inférieur au hasard

rater1 = 
rater2 =
cohen_kappa_score(rater1, rater2)
-0.2121

Si toutes les les évaluations sont identiques et opposées

Ce cas produit de manière fiable un kappa de 0

rater1 = * 10
rater2 = * 10
cohen_kappa_score(rater1, rater2)
0.0

Évaluations aléatoires

Pour les évaluations aléatoires, Kappa suit une distribution normale avec une moyenne d’environ zéro.

A mesure que le nombre de notations augmente, il y a moins de variabilité de la valeur de Kappa dans la distribution.

10 évaluations aléatoires pour chaque évaluateur (échantillon aléatoire de 1,000 calculs de Kappa inter-évaluateurs)

100 évaluations aléatoires pour chaque évaluateur (échantillon aléatoire de 1,000 calculs de Kappa inter-évaluateurs)

Vous trouverez plus de détails ici

Notez que le Kappa de Cohen ne s’applique qu’à 2 évaluateurs évaluant exactement les mêmes items.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.