Concordância entre avaliadores Kappas

fiabilidade ou concordância entre avaliadores

Em estatística, fiabilidade entre avaliadores, concordância ou concordância entre avaliadores é o grau de concordância entre avaliadores. Ele dá uma pontuação de quanta homogeneidade, ou consenso, existe nas classificações dadas pelos juízes.

As Kappas aqui cobertas são as mais apropriadas para dados “nominais”. A ordenação natural dos dados (se existir alguma) é ignorada por estes métodos. Se você vai usar estas métricas, certifique-se de que você está ciente das limitações.

Existem duas partes para isto:

  1. Calcular a concordância observada
  2. Calcular a concordância por acaso

Vamos dizer que estamos a lidar com respostas de “sim” e “não” e 2 avaliadores. Aqui estão as classificações:

rater1 = 
rater2 =

Tornando estas classificações numa matriz de confusão:

Observed agreement = (6 + 1) / 10 = 0.7
Chance agreement = probability of randomly saying yes (P_yes) + probability of randomly saying no (P_no)
P_yes = (6 + 1) / 10 * (6 + 1) / 10 = 0.49
P_no = (1 + 1) / 10 * (1 + 1) / 10 = 0.04
Chance agreement = 0.49 + 0.04 = 0.53

Desde que a concordância observada seja maior do que a concordância por acaso teremos uma Kappa positiva.

kappa = 1 - (1 - 0.7) / (1 - 0.53) = 0.36

Or apenas usar sklearn‘s implementação

from sklearn.metrics import cohen_kappa_scorecohen_kappa_score(rater1, rater2)

>que retorna 0,35714.

Interpretação da Kappa

Casos especiais

Concordância sem chance

rater1 = 
rater2 =
cohen_kappa_score(rater1, rater2)
-0.2121

Se todos as classificações são as mesmas e opostas

Este caso produz de forma confiável um kappa de 0

rater1 = * 10
rater2 = * 10
cohen_kappa_score(rater1, rater2)
0.0

Random ratings

Para classificações aleatórias Kappa segue uma distribuição normal com uma média de cerca de zero.

Como o número de classificações aumenta, há menos variabilidade no valor de Kappa na distribuição.

10 classificações aleatórias para cada avaliador (amostra aleatória de 1,000 cálculos entre avaliadores Kappa)

100 classificações aleatórias para cada avaliador (amostra aleatória de 1,000 cálculos entre avaliadores Kappa)

>

Você pode encontrar mais detalhes aqui

Nota que a Kappa de Cohen só se aplicou a 2 avaliadores classificando exatamente os mesmos itens.

Deixe uma resposta

O seu endereço de email não será publicado.