Kappakoefficient
(Viktad kappakoefficient)
Denna sida är uppdaterad 2003-12-08
Användningsområde
Man jämför hur en mätning / bedömning av ett fenomen stämmer
överens med en annan mätning / bedömning av samma fenomen. Exempel på
situationer är att:
Krav för att få göra denna analys | |
De båda variabler som innefattar mätningen / bedömningen skall vara kategoriska (=kvalitativa) variabler som mäts enligt nominalskalan eller ordinalskalan. |
Viktad kappakoefficient
En del anser att det
vid ordinaldata är bättre att använda viktad kappakoefficient som
förutom att ta hänsyn till andelen som stämmer överens även tar
hänsyn till hur mycket man tycker olika. Det finns dock en allvarlig
invändning mot viktad kappakoefficient, nämligen att man då måste ta
differensen mellan olika ordinaldata, något
som är tveksamt.
Användbarhet
Användbart om man vill titta på hur olika mätningar / bedömningar
stämmer överens. Exempel är utvärdering av
tester eller för att jämföra olika subjektiva
bedömningar, vanligast är det sistnämnda.
Bakomliggande princip
Om vi vill ta fram överrensstämmelsen
mellan två mätningar / bedömningar av samma fenomen är det enklaste att helt enkelt räkna antalet utfall där de båda
mätningarna / bedömningarna stämmer överens och dividera det med det totala antalet test. Vi får då en
kvot mellan 0-1 som brukar kallas index of validity. Nackdelen med detta är att vi inte vet hur kvoten skulle vara om
de två olika mätningarna / testen enbart stämde överens slumpmässigt. Kappa
innebär att man tar fram kvoten mellan den observerade chansen att göra ett bättre jobb än slumpen
dividerat med teoretiskt bästa chansen att göra bättre än slumpen. Vi får då ett mått på hur mycket bättre
än slumpen de två mätningarna / bedömningarna stämmer överens.
Hur gör man?
Låt oss först visa ett enklare exempel med utvärdering av ett nytt
snabbtest för att upptäcka halsflussbakterier. Därefter tittar vi på ett exempel som beskrivs på sidan om
skattningsskalor där läkare och patienter bedömer samma konsultation.
Exempel: Utvärdera snabbtest
Antag att vi vill utvärdera ett snabbtest för att hitta halsflussbakterier
(grupp A streptokocker) (Andersen 1992). Snabbtestet jämförs då med svalgodling som gold
standard (Tabell 1):
Tabell 1 - Utvärdering av snabbtest |
|||
Svalgodling är |
|||
...positiv |
...negativ |
||
Snabbtest positiv (T+) |
19 |
2 |
21 |
Snabbtest negativ (T-) |
9 |
75 |
84 |
28 |
77 |
105 |
Vi börjar med att räkna ut index of validity / efficiency:
89,5% av snabbtesterna ger alltså ett korrekt svar. Innebär det att detta snabbtest är ett bra test? För att titta närmare på detta jämför vi 89,5% med den efficiency vi skulle fått om snabbtestet och svalodlingen bara visat samma värde av ren slump, dvs. vi antar att snabbtestet och svalgodlingen arbetar oberoende av varandra.
Om testerna arbetar oberoende av varandra borde 26,7% (28/105) av svalgodlingarna och 20,0% (21/105) av snabbtesterna vara positiva, men det finns ingen korrelation mellan utfallet av de båda olika testerna. Sannolikheten för att båda testerna av slumpen båda skall vara positiva är 0,267´ 0,2=0,0534. Således är det förväntade antalet fall där båda testerna är positiva 0,0534´105=5,607 (Tabell 2a).
Tabell 2a - Utvärdering av snabbtest |
|||
Svalgodling är |
|||
...positiv |
...negativ |
||
Snabbtest positiv (T+) |
5,6 |
21 |
|
Snabbtest negativ (T-) |
|
84 |
|
28 |
77 |
105 |
Nu vet vi tillräckligt för att fylla i de tomma rutorna. 21-5,6=15,4 och 28-5,6=22,4 samt 84-22,4=61,6. Vi kan nu se att om testerna arbetade helt oberoende skulle slumpen ge följande resultat (Tabell 2b):
Tabell 2b - Utvärdering av snabbtest |
|||
Svalgodling är |
|||
...positiv |
...negativ |
||
Snabbtest positiv (T+) |
5,6 |
15,4 |
21 |
Snabbtest negativ (T-) |
22,4 |
61,6 |
84 |
28 |
77 |
105 |
Hur mycket bättre är ett index of validity av 0,895 jämfört med ett index på 0,640? Kappa är designat för att svara på denna frågan. Kappa (k) är kvoten mellan förbättringen av att använda vårt test (jämfört med slumpen) och den teoretiskt möjliga förbättringen (jämfört med slumpen). I vårt exempel är förbättringen av index jämfört med slumpen 0,895-0,640=0,255. Den teoretiskt bästa tänkbara index är att svalgodling och snabbtest alltid visar samma. I det fallet är index 1,0 (105/105). Kappa (k) i vårt exempel blir då:
Detta skulle kunna tolkas som att vårt snabbtest är ett bra test när det gäller att hitta halsflussbakterier (se nedan).
Exempel: Bedömning av en konsultation
Låt oss anta att dr Citron finner stöd för att C-vitamin sänker
blodtrycket. Det är naturligtvis viktigt för effekten att patienten får en
bra och positiv information om C-vitaminet. Han inleder då en ny undersökning
där han vill veta hur patienterna uppfattar informationen. Han ger patienterna
personlig information en och en. Direkt efter genomgången får de svara på en
fråga:
Jag tycker att informationen om C-vitamin gjorde mig positivt inställd till att ta tabletten (kryssa för det alternativ som passar bäst) |
|||
|
|||
Instämmer helt |
Instämmer delvis |
Tar delvis avstånd |
Tar helt avstånd |
Samtidigt tar Dr Citron och för var och en av konsultationerna och svarar på följande fråga:
Jag tror att denna patient tyckte att informationen
om C-vitamin gjorde honom/henne positivt inställd till att ta tabletten (kryssa för det alternativ som passar bäst) |
|||
|
|||
Instämmer helt |
Instämmer delvis |
Tar delvis avstånd |
Tar helt avstånd |
Det resultat vi finner är (Tabell 3):
Tabell 3 - Resultat av bedömningarna | ||||||
Patienter | ||||||
Instämmer helt |
Instämmer delvis |
Tar delvis avstånd |
Tar helt avstånd |
|||
Läkaren (Dr Citron) |
Instämmer helt |
21 | 12 | 0 | 0 | 33 |
Instämmer delvis |
4 | 17 | 1 | 0 | 22 | |
Tar delvis avstånd |
3 | 9 | 15 | 2 | 29 | |
Tar helt avstånd |
0 | 0 | 0 | 1 | 1 | |
28 | 38 | 16 | 3 | 85 |
För att räkna fram kappakoefficienten i det här exemplet så skall vi:
Att bedöma resultatet
Ju högre kappakoefficient desto starkare stämmer de båda mätningarna /
bedömningarna överens. Kappakoefficienten kan tolkas som (Altman 1991):
Tabell 4 - Värdering av kappa |
|
Kappakoefficient | Styrkan i överensstämmelsen |
< 0,20 | Ingen eller mycket svag |
0,21 - 0,40 | Svag |
0,41 - 0,60 | Hyfsad |
0,61 - 0,80 | God |
0,81 - 1,00 | Mycket god |
Speciella problem med Kappa
I två speciella situationer får man problem när man använder kappa. Kappa
fungerar bäst om utfallet mellan de olika alternativen är ungefär lika. Enklast
kan det beskrivas om man utvärderar en situation med bara två möjliga utfall,
exempelvis det första alternativet när vi ser hur snabbtest och svalgodling
samvarierar. Kappa fungerar bäst om antalet negativa test och antalet positiva
test är ungefär lika många. Ju mer det tenderar att bara vara det ena (kallas
obalans) desto mer problem får man med kappa (Feinstein 1990). Om utfallen inte
är ungefär lika finns två problemsituationer som paradoxalt ger konstiga kappa.
I den första paradoxen har båda testen (eller båda bedömarna)
företrädesvis valt endast ett av alternativen och då samma alternativ, detta
kallas symmetrisk obalans (Feinstein 1990). Vid kraftig symmetrisk obalans
uppträder en paradox som innebär att man trots mycket högt index of validity
ändå får orimligt lågt kappa (Feinstein 1990).
I den andra paradoxen är de två svarsalternativen inte heller
lika vanliga (obalans) utan det ena är vanligare än det andra. Skillnaden mot
den första paradoxen är att de olika testerna (eller olika bedömarna) föredrar
olika svarsalternativ, detta kallas asymmetrisk obalans (Feinstein 1990). Vid
stor asymmetrisk obalans fås lågt index of validity och helt rättvisande också
ett lågt kappa (Feinstein 1990). Vid måttlig asymmetrisk obalans kan man
paradoxalt få ett högre kappa än vid motsvarande symmetriska obalans (Feinstein
1990).
En föreslagen lösning av dessa två paradoxer vid binära
situationer (2x2-tabeller) är att alltid komplettera kappa med presentation av två
index av likhet (Cicchetti 1990). Jämför med hur ett index av likhet (Index of
validity) ofta kompletteras med sensitivitet och specificitet. På samma sätt bör
kappa alltid kompletteras med ett index för överensstämmelse av positiva utfall och ett
index för överensstämmelse av negativa utfall (Cicchetti 1990). I fall med högt index av
validity och samtidigt lågt kappa kan man genom dessa kompletterande index ofta
se att överensstämmelse eller likhet åt ena hållet är pålitligt men inte
tvärtom. Detta är en hjälp att kunna tolka högt index av validity kombinerat med
lågt kappa (Cicchetti 1990). För beräkning av index se nedan.
Tabell 5 - Modell för beräkning av index |
||||
Bedömning A |
||||
...positiv |
...negativ |
|||
Bedömning B |
...positiv |
a |
b |
g1 |
...negativ |
c |
d |
g2 |
|
f1 |
f1 |
N |
Index of validity: |
|
Kan vara 0-1 | |
Index p.g.a. slumpen: |
|
Kan vara 0-1 | |
Kappa: |
|
Är mindre än 1. Kan i speciella fall bli mindre än 0 |
|
Index för överensstämmelse av positiva utfall |
|
Kan vara 0-1 | |
Index för överensstämmelse av negativa utfall |
|
Kan vara 0-1 |
Referenser
Andersen JS, Borrild NJ, Renneberg J. An evaluation of a commercial co-agglutination test for the diagnosis of group A streptococcal tonsillitis in a family practice. Scand J Prim Health Care 1992;10:223-5. | |
Altman D.G. (1991) Some common problems in medical research. In Practical statistics for medical research. Edited by Altman D.G. Chapman & Hall, London. pp 396-439. (Sidan 404) | |
Cicchetti DV, Feinstein AR. High agreement but low kappa: II. Resolving the paradoxes. J Clin Epidemiol 1990;43(6):551-8. | |
Feinstein AR, Cicchetti DV. High agreement but low kappa: I. The problems of two paradoxes. J Clin Epidemiol 1990;43(6):543-9. |
Denna webbsida är författad av
Doc. Ronny Gunnarsson
Distriktsläkare/Familjeläkare
Läs om regler för ansvar och copyright som gäller för denna webbsida.