Kappakoefficient

Kappakoefficient
(Viktad kappakoefficient)
Denna sida är uppdaterad 2003-12-08

Användningsområde
Man jämför hur en mätning / bedömning av ett fenomen stämmer överens med en annan mätning / bedömning av samma fenomen. Exempel på situationer är att:

jämföra två olika test
jämföra samma test utfört av olika individer
jämföra samma test utfört av samma individ vid två olika tillfällen.
jämföra hur olika individer bedömer samma situation

Krav för att få göra denna analys
	De båda variabler som innefattar mätningen / bedömningen skall vara kategoriska (=kvalitativa) variabler som mäts enligt nominalskalan eller ordinalskalan.

Viktad kappakoefficient
En del anser att det vid ordinaldata är bättre att använda viktad kappakoefficient som förutom att ta hänsyn till andelen som stämmer överens även tar hänsyn till hur mycket man tycker olika. Det finns dock en allvarlig invändning mot viktad kappakoefficient, nämligen att man då måste ta differensen mellan olika ordinaldata, något som är tveksamt.

Användbarhet
Användbart om man vill titta på hur olika mätningar / bedömningar stämmer överens. Exempel är utvärdering av tester eller för att jämföra olika subjektiva bedömningar, vanligast är det sistnämnda.

Bakomliggande princip
Om vi vill ta fram överrensstämmelsen mellan två mätningar / bedömningar av samma fenomen är det enklaste att helt enkelt räkna antalet utfall där de båda mätningarna / bedömningarna stämmer överens och dividera det med det totala antalet test. Vi får då en kvot mellan 0-1 som brukar kallas index of validity. Nackdelen med detta är att vi inte vet hur kvoten skulle vara om de två olika mätningarna / testen enbart stämde överens slumpmässigt. Kappa innebär att man tar fram kvoten mellan den observerade chansen att göra ett bättre jobb än slumpen dividerat med teoretiskt bästa chansen att göra bättre än slumpen. Vi får då ett mått på hur mycket bättre än slumpen de två mätningarna / bedömningarna stämmer överens.

Hur gör man?
Låt oss först visa ett enklare exempel med utvärdering av ett nytt snabbtest för att upptäcka halsflussbakterier. Därefter tittar vi på ett exempel som beskrivs på sidan om skattningsskalor där läkare och patienter bedömer samma konsultation.

Exempel: Utvärdera snabbtest
Antag att vi vill utvärdera ett snabbtest för att hitta halsflussbakterier (grupp A streptokocker) (Andersen 1992). Snabbtestet jämförs då med svalgodling som gold standard (Tabell 1):

Tabell 1 - Utvärdering av snabbtest
	Svalgodling är
	...positiv	...negativ
Snabbtest positiv (T⁺)	19	2	21
Snabbtest negativ (T^-)	9	75	84
	28	77	105

Vi börjar med att räkna ut index of validity / efficiency:

89,5% av snabbtesterna ger alltså ett korrekt svar. Innebär det att detta snabbtest är ett bra test? För att titta närmare på detta jämför vi 89,5% med den efficiency vi skulle fått om snabbtestet och svalodlingen bara visat samma värde av ren slump, dvs. vi antar att snabbtestet och svalgodlingen arbetar oberoende av varandra.

Om testerna arbetar oberoende av varandra borde 26,7% (28/105) av svalgodlingarna och 20,0% (21/105) av snabbtesterna vara positiva, men det finns ingen korrelation mellan utfallet av de båda olika testerna. Sannolikheten för att båda testerna av slumpen båda skall vara positiva är 0,267´ 0,2=0,0534. Således är det förväntade antalet fall där båda testerna är positiva 0,0534´105=5,607 (Tabell 2a).

Tabell 2a - Utvärdering av snabbtest
	Svalgodling är
	...positiv	...negativ
Snabbtest positiv (T⁺)	5,6		21
Snabbtest negativ (T^-)			84
	28	77	105

Nu vet vi tillräckligt för att fylla i de tomma rutorna. 21-5,6=15,4 och 28-5,6=22,4 samt 84-22,4=61,6. Vi kan nu se att om testerna arbetade helt oberoende skulle slumpen ge följande resultat (Tabell 2b):

Tabell 2b - Utvärdering av snabbtest
	Svalgodling är
	...positiv	...negativ
Snabbtest positiv (T⁺)	5,6	15,4	21
Snabbtest negativ (T^-)	22,4	61,6	84
	28	77	105

Hur mycket bättre är ett index of validity av 0,895 jämfört med ett index på 0,640? Kappa är designat för att svara på denna frågan. Kappa (k) är kvoten mellan förbättringen av att använda vårt test (jämfört med slumpen) och den teoretiskt möjliga förbättringen (jämfört med slumpen). I vårt exempel är förbättringen av index jämfört med slumpen 0,895-0,640=0,255. Den teoretiskt bästa tänkbara index är att svalgodling och snabbtest alltid visar samma. I det fallet är index 1,0 (105/105). Kappa (k) i vårt exempel blir då:

Detta skulle kunna tolkas som att vårt snabbtest är ett bra test när det gäller att hitta halsflussbakterier (se nedan).

Exempel: Bedömning av en konsultation
Låt oss anta att dr Citron finner stöd för att C-vitamin sänker blodtrycket. Det är naturligtvis viktigt för effekten att patienten får en bra och positiv information om C-vitaminet. Han inleder då en ny undersökning där han vill veta hur patienterna uppfattar informationen. Han ger patienterna personlig information en och en. Direkt efter genomgången får de svara på en fråga:

Jag tycker att informationen om C-vitamin gjorde mig positivt inställd till att ta tabletten (kryssa för det alternativ som passar bäst)

Instämmer helt	Instämmer delvis	Tar delvis avstånd	Tar helt avstånd

Samtidigt tar Dr Citron och för var och en av konsultationerna och svarar på följande fråga:

Jag tror att denna patient tyckte att informationen om C-vitamin gjorde honom/henne positivt inställd till att ta tabletten (kryssa för det alternativ som passar bäst)

Instämmer helt	Instämmer delvis	Tar delvis avstånd	Tar helt avstånd

Det resultat vi finner är (Tabell 3):

Tabell 3 - Resultat av bedömningarna
		Patienter
		Instämmer helt	Instämmer delvis	Tar delvis avstånd	Tar helt avstånd
Läkaren (Dr Citron)	Instämmer helt	21	12	0	0	33
	Instämmer delvis	4	17	1	0	22
	Tar delvis avstånd	3	9	15	2	29
	Tar helt avstånd	0	0	0	1	1
		28	38	16	3	85

För att räkna fram kappakoefficienten i det här exemplet så skall vi:

Räkna fram i hur stor andel av antalet mätningar /bedömningar som man var helt överens (detta är samma som att räkna fram index of validity):
I vårt exempelvis 54 av 85 = 0,64 (=64%).
Räkna fram det förväntade antalet i varje cell om våra två olika bedömningar enbart sammanfaller på grund av slumpen:
Instämmer helt           33x28/85=10,87
Instämmer delvis        22x38/85= 9,84
Tar delvis avstånd       29x16/85=5,46
Tar helt avstånd               1x3/85=0,04
Totalt                                          26,20
Räkna fram index of validity som det skulle bli om våra olika bedömningar enbart är lika på grund av slumpen:
26,20/85=0,31
Räkna fram skillnaden mellan den observerade överrensstämmelsen och den som skulle förväntas av om våra olika bedömningar enbart är lika på grund av slumpen:
Vi tar det vi fick fram i punkt 1 ovan minus det vi fick fram under punkt 3. Vi får då 0,64-0,31=0,33
Räkna fram den teoretiskt bästa chansen att göra ett bättre jobb än slumpen:
Det teoretiskt ideala vore att dr Citron och patienterna alltid tyckte likadant, d.v.s. att de tyckte lika i 85 fall av 85 möjliga. Chansen att de stämmer överens vore då 85/85=1,0. Chansen att göra ett bättre jobb än slumpen vore då 1,0-0,31=0,69 (0,31 fick vi fram i punkt 3 ovan).
Ta fram kvoten mellan den observerade chansen att göra ett bättre jobb än slumpen och den teoretiskt bästa chansen att göra bättre än slumpen:
Vi delar det vi fick fram under punkt 4 ovan med det vi fick fram i punkt 5 ovan. 0,33/0,69=0,48. Vår kappakoefficient är alltså i det här exemplet 0,48.

Att bedöma resultatet
Ju högre kappakoefficient desto starkare stämmer de båda mätningarna / bedömningarna överens. Kappakoefficienten kan tolkas som (Altman 1991):

Tabell 4 - Värdering av kappa
Kappakoefficient	Styrkan i överensstämmelsen
< 0,20	Ingen eller mycket svag
0,21 - 0,40	Svag
0,41 - 0,60	Hyfsad
0,61 - 0,80	God
0,81 - 1,00	Mycket god

Speciella problem med Kappa
I två speciella situationer får man problem när man använder kappa. Kappa fungerar bäst om utfallet mellan de olika alternativen är ungefär lika. Enklast kan det beskrivas om man utvärderar en situation med bara två möjliga utfall, exempelvis det första alternativet när vi ser hur snabbtest och svalgodling samvarierar. Kappa fungerar bäst om antalet negativa test och antalet positiva test är ungefär lika många. Ju mer det tenderar att bara vara det ena (kallas obalans) desto mer problem får man med kappa (Feinstein 1990). Om utfallen inte är ungefär lika finns två problemsituationer som paradoxalt ger konstiga kappa.
    I den första paradoxen har båda testen (eller båda bedömarna) företrädesvis valt endast ett av alternativen och då samma alternativ, detta kallas symmetrisk obalans (Feinstein 1990). Vid kraftig symmetrisk obalans uppträder en paradox som innebär att man trots mycket högt index of validity ändå får orimligt lågt kappa (Feinstein 1990).
    I den andra paradoxen är de två svarsalternativen inte heller lika vanliga (obalans) utan det ena är vanligare än det andra. Skillnaden mot den första paradoxen är att de olika testerna (eller olika bedömarna) föredrar olika svarsalternativ, detta kallas asymmetrisk obalans (Feinstein 1990). Vid stor asymmetrisk obalans fås lågt index of validity och helt rättvisande också ett lågt kappa (Feinstein 1990). Vid måttlig asymmetrisk obalans kan man paradoxalt få ett högre kappa än vid motsvarande symmetriska obalans (Feinstein 1990).
    En föreslagen lösning av dessa två paradoxer vid binära situationer (2x2-tabeller) är att alltid komplettera kappa med presentation av två index av likhet (Cicchetti 1990). Jämför med hur ett index av likhet (Index of validity) ofta kompletteras med sensitivitet och specificitet. På samma sätt bör kappa alltid kompletteras med ett index för överensstämmelse av positiva utfall och ett index för överensstämmelse av negativa utfall (Cicchetti 1990). I fall med högt index av validity och samtidigt lågt kappa kan man genom dessa kompletterande index ofta se att överensstämmelse eller likhet åt ena hållet är pålitligt men inte tvärtom. Detta är en hjälp att kunna tolka högt index av validity kombinerat med lågt kappa (Cicchetti 1990). För beräkning av index se nedan.

Tabell 5 - Modell för beräkning av index
		Bedömning A
		...positiv	...negativ
Bedömning B	...positiv	a	b	g₁
	...negativ	c	d	g₂
		f₁	f₁	N

Index of validity:			Kan vara 0-1
Index p.g.a. slumpen:			Kan vara 0-1
Kappa:			Är mindre än 1. Kan i speciella fall bli mindre än 0
Index för överensstämmelse av positiva utfall			Kan vara 0-1
Index för överensstämmelse av negativa utfall			Kan vara 0-1

Referenser

	Andersen JS, Borrild NJ, Renneberg J. An evaluation of a commercial co-agglutination test for the diagnosis of group A streptococcal tonsillitis in a family practice. Scand J Prim Health Care 1992;10:223-5.
	Altman D.G. (1991) Some common problems in medical research. In Practical statistics for medical research. Edited by Altman D.G. Chapman & Hall, London. pp 396-439. (Sidan 404)
	Cicchetti DV, Feinstein AR. High agreement but low kappa: II. Resolving the paradoxes. J Clin Epidemiol 1990;43(6):551-8.
	Feinstein AR, Cicchetti DV. High agreement but low kappa: I. The problems of two paradoxes. J Clin Epidemiol 1990;43(6):543-9.

Denna webbsida är författad av
Doc. Ronny Gunnarsson
Distriktsläkare/Familjeläkare

Läs om regler för ansvar och copyright som gäller för denna webbsida.