fiabilidade ou concordância entre avaliadores
Em estatística, fiabilidade entre avaliadores, concordância ou concordância entre avaliadores é o grau de concordância entre avaliadores. Ele dá uma pontuação de quanta homogeneidade, ou consenso, existe nas classificações dadas pelos juízes.
As Kappas aqui cobertas são as mais apropriadas para dados “nominais”. A ordenação natural dos dados (se existir alguma) é ignorada por estes métodos. Se você vai usar estas métricas, certifique-se de que você está ciente das limitações.

Existem duas partes para isto:
- Calcular a concordância observada
- Calcular a concordância por acaso
Vamos dizer que estamos a lidar com respostas de “sim” e “não” e 2 avaliadores. Aqui estão as classificações:
rater1 =
rater2 =
Tornando estas classificações numa matriz de confusão:

Observed agreement = (6 + 1) / 10 = 0.7
Chance agreement = probability of randomly saying yes (P_yes) + probability of randomly saying no (P_no)
P_yes = (6 + 1) / 10 * (6 + 1) / 10 = 0.49
P_no = (1 + 1) / 10 * (1 + 1) / 10 = 0.04
Chance agreement = 0.49 + 0.04 = 0.53
Desde que a concordância observada seja maior do que a concordância por acaso teremos uma Kappa positiva.
kappa = 1 - (1 - 0.7) / (1 - 0.53) = 0.36
Or apenas usar sklearn
‘s implementação
from sklearn.metrics import cohen_kappa_scorecohen_kappa_score(rater1, rater2)
>que retorna 0,35714.
Interpretação da Kappa

Casos especiais
Concordância sem chance
rater1 =
rater2 =
cohen_kappa_score(rater1, rater2)
-0.2121
Se todos as classificações são as mesmas e opostas
Este caso produz de forma confiável um kappa
de 0
rater1 = * 10
rater2 = * 10
cohen_kappa_score(rater1, rater2)
0.0
Random ratings
Para classificações aleatórias Kappa
segue uma distribuição normal com uma média de cerca de zero.
Como o número de classificações aumenta, há menos variabilidade no valor de Kappa na distribuição.



>
Você pode encontrar mais detalhes aqui
Nota que a Kappa de Cohen só se aplicou a 2 avaliadores classificando exatamente os mesmos itens.