Utvärdering av tester
Denna sida är uppdaterad
2002-01-05

Inom kvantitativ forskning kallar vi ibland våra datainsamlingstekniker för tester. I forskningsprojekt som använder tester är det alltid bra att kunna klargöra hur bra testet är i den använda situationen. En del forskningsprojekt har som direkt mål att ta fram bättre beskrivning av validitet och reliabilitet för ett test.
    När vi vill utvärdera ett test brukar vi ofta jämföra utfallet av vårt test (vi kan kalla det test A) med en gold standard (ett slags "facit"). Ett test kan vara en analys av Hb-värdet i blodet, mätning av systoliskt blodtryck, en bakterieodling från svalget, en strukturerad enkät eller en strukturerad intervju.

Vilka typer av tester finns det?
Inom kvantitativ metodik finns fyra huvudtyper av tester:

  1. Tester som ger ett exakt mätvärde, till exempel Hb-värde. Värdet kan i princip anta vilket värde som helst, givetvis inom rimliga gränser. Mätdata är kontinuerliga eller diskreta, d.v.s. skalstegen är ekvidistanta och mäts enligt intervallskalan eller kvotskalan (för information om olika variabler och mätskalor se sidan om variabler).
  2. Tester som ger svar med kvalitativa mätdata med mer än två tänkbara utfall där de tänkbara utfallen är ordnade, till exempel en enkät med svarsalternativen "instämmer helt"-"instämmer delvis"-"tveksam"-"instämmer inte alls". VAS (Visuell Analog Skala) räknas också hit. Mätdata mäts efter ordinalskalan.
  3. Tester som ger svar med kvalitativa mätdata med mer än två tänkbara utfall där de tänkbara utfallen är oordnade, exempelvis blodgruppstillhörighet. Mätdata mäts efter nominalskalan.
  4. Tester som ger ett ja-nej-svar (dikotomt svar), exempelvis närvaro eller frånvaro av streptokockbakterier i halsen. Mätdata mäts efter nominalskalan.

Utvärdering av tester

Svaret mäts enligt intervall / kvotskalan
För tester av typen 1 enligt ovan vill man undersöka hur utfallet av testet stämmer överens med resultatet av vårt facit (=gold standard). Detta kan lämpligen göras genom att för varje individ räkna ut skillnaden mellan vårt nya test och vårt facit. Vi räknar sedan fram medelvärde och standardavvikelse (ett mått på den genomsnittliga avvikelsen från medelvärdet) för alla våra skillnader. Vi kan sedan bilda ett 95%-konfidensintervall för skillnaderna. Om detta intervall skulle bli ±12g/l kan vi säga att det nya testet med 95% säkerhet inte kommer att skilja sig från det gamla testet med mer än 12g/l (om det nu var en ny metod för att mäta Hb som vi ville testa). Om materialet från någon av testerna är snedfördelat bör man transformera data (vanligtvis logaritmera). Läs mer om detta på vår sida om att utvärdera graden av överensstämmelse (limits of agreement).

Svaret mäts enligt ordinalskalan
Om antalet möjliga utfall är rimligt stort (<10-15) passar kappakoefficient som ett mått på hur väl det nya testet stämmer överens med det gamla etablerade.

Svaret mäts enligt nominalskalan och kan ha fler än två olika utfall
För tester av typ 3 kan man ange hur väl testet stämmer överens om man låter två olika personer utföra testet (inter-rater reliability" = inter-rater agreement) eller om man låter samma person utföra testet vid två olika tillfällen (test-retest reliability). Detta gör man genom att räkna ut kappakoefficient. I situationen med en enkät bestående av flera delar kan man ange hur väl de olika delar stämmer överens genom att ange Chronbach's alpha (="internal consistency reliability").

Svaret mäts enligt nominalskalan och kan ha två olika utfall
För tester av typ 4 kan man även här ange kappakoefficient. Det är dock mycket vanligare att man värderar testet utifrån egenskaper som känsligheten hos metoden (sensitivitet), chansen för att få falskt positiva svar (specificitet), om testet egentligen tillförde någon ny kunskap (likelihood ratio) samt användbarheten i det enskilda fallet (prediktivt värde).

Dikotomisering av testutfallet
Tester av typen 1 och 2 enligt ovan omvandlas ofta till tester av typen ja/nej (typ 4 enligt ovan) genom att man ställer upp en gräns. Om testresultatet hamnar ovan gränsen anses detta vara ett ja-svar, om värdet hamnar under anses testet ha gett ett nej-svar.

Felaktiga metoder vid jämförelse av olika tester
Det anses olämpligt att använda korrelationsanalys för att jämföra utfallet av tester av typ 1 eller 2 med en gold standard. Orsaken är att korrelationsanalysen ger mer utslag för de individuella skillnaderna än för skillnader i testutfall mellan det nya testet och gold standard. Även när testen stämmer dåligt överens kan man i en korrelationsanalys se en hög korrelation eftersom sambandet mest beror på att man mäter något där den individuella variationen slår igenom. Exempel på detta kan vara olika metoder att mäta BMI (Body Mass Index). Här kan två olika metoder stämma dåligt överens men skillnaderna i BMI mellan de olika individerna betyder mycket mer än skillnaderna i utfall av de olika testen. Intra Class Correlation är en metod som har blivit populär på senare år. Den liknar korrelationsanalysen men ger inte riktigt samma stora fel som denna.
    Ibland ser man att man med t-test jämför medelvärdet av resultaten mätta med det nya testet med medelvärdet för resultaten framtagna med vår gold standard Man hävdar då att ingen signifikant skillnad innebär att det nya testet är lika bra som vår gold standard. Det anses i den statistiska litteraturen att detta är ett olämpligt förfarande.

Sensitivitet och specificitet
För att kunna ta fram egenskapen sensitivitet och specificitet hos ett test måste vi ha ett facit att jämföra med. Detta facit kallas "gold standard" (se längre ner) och är den metod som anses bäst återge sanningen. Sensitiviteten är den andel sant positiva som testet korrekt identifierar som positiva och specificiteten är den andel sant negativa som testet korrekt anger som negativa (Tabell 1).

Tabell 1 - Sensitivitet och specificitet
  Gold standard är...  
  ...positiv ...negativ  
Positivt test a b a+b
Negativt test c d c+d
Sensitivitet=a/a+c Specificitet=d/b+d

Ett test är alltid en avvägning mellan sensitivitet och specificitet. Man kan designa ett test som alltid ger positivt utfall. Ett sådant test skulle ha en strålande bra sensitivitet (100%) men urusel specificitet (0%). Om man vill vara säker på att inte överdiagnostisera kan man designa ett test som alltid ger negativt utfall. Man får då den utmärkta specificiteten 100% men tyvärr en sensitivitet på 0%. Sådana här extrema test är naturligtvis helt värdelösa. I praktiken gör man en avvägning så att man får bästa möjliga kompromiss. För testet svalgodling (letar efter streptokockbakterier i svalget) är sensitiviteten c:a 90% och specificiteten c:a 97%.
    Egenskaperna sensitivitet och specificitet kan variera beroende på vilken metod man använder. De som tillverkar tester kan i förväg påverka vilka testegenskaper ett test skall ha genom att ändra på tillverkningsproceduren. Dessa variationer i sensitivitet och specificitet kan ritas upp grafiskt (Diagram 1). Den grafiska linjen kallas ROC-kurva som står för "Reciever/Response Operating Characteristic-curve".

Diagram 1 - ROC-kurva
(De två olika diagrammen representerar två alternativa sätt att ange x- och y-skalorna)
(De två olika kurvorna representerar två olika tester. Testet motsvarande den heldragna linjen kan anses vara något bättre än testet motsvarande den streckade linjen.

Olika tillverkningsprocedurer eller olika sätt att hantera testet varierar testegenskaperna och man kan således höja sensitiviteten hos ett test till priset av lägre specificitet och tvärtom. Ju bättre testet är desto mer närmar sig kurvan diagrammets övre vänstra hörn. Ett riktigt bra test ligger så nära detta hörn att det har samma höga sensitivitet och specificitet oavsett hur man (inom rimliga gränser) manipulerar med tillverkningsprocedurer eller olika sätt att hantera testet. Företag som tillverkar tester lägger ofta ner stor möda på att ge testet en rätt avvägning mellan sensitivitet och specificitet.
    Man kan tycka att egenskaperna sensitivitet och specificitet borde vara konstanta för ett test om man tillverkar det på samma sätt och handhar testet på samma sätt. I verkligheten påverkas dock dessa testegenskaper lite grand även av fenomenets prevalens. Tänk dig att en person sitter och granskar odlingsplattor för att upptäcka halsflussbakterier. Om personen visste att ungefär varannan platta innehöll halsflussbakterier skulle sannolikt varje platta bli noggrant granskad. Då blir sensitiviteten hög. Om det istället vore så att endast var 1000:e platta innehöll halsflussbakterier skulle varje platta sannolikt inte bli lika noggrant granskad. Sannolikheten att missa denna 1000:e skulle då öka något, med andra ord skulle sensitiviteten sjunka och specificiteten öka. Prevalensen påverkar alltså sensitiviteten och specificiteten.

Likelihood ratio (=Odds ratio)
Vitsen med att göra ett test är att vi skall veta mer efteråt. Testet skall alltså tillföra information. Sannolikheten för att individen har egenskapen (t. ex. sjukdomen) skall vara högre efter ett positivt test jämfört med före testet. Om sannolikheten inte ökar har testet inte tillfört något nytt. Hur många gånger sannolikheten ökar kallas likelihood ratio (LR) av ett positivt test. Man kan räkna ut LR av ett positivt testutfall, PLR (Formel 1, Formel 2), och av ett negativt testutfall, NLR (Formel 3, Formel 4). Vanligen brukar man bara räkna ut LR vid positivt testutfall.

Formel 1 - Likelihood ratio för ett positivt test, principinnehåll

 

Formel 2 - Likelihood ratio för ett positivt test

 

Formel 3 - Likelihood ratio för ett negativt test, principinnehåll

 

Formel 4 - Likelihood ratio för ett negativt test

Ett högt PLR gör att testet kommer att tillföra ny information. Omvänt gäller vid NLR, d.v.s. ett lågt värde är bra. LR beror på sensitiviteten och specificiteten men inte direkt på prevalensen. Enligt resonemanget ovan kan sensitivitet och specificitet ändras om prevalensen ändras. I regel påverkas LR mindre av ändringar i prevalensen än sensitivitet och specificitet. Likelihood ratio är mycket användbart om man vet prevalensen för det fenomen man vill undersöka (Formel 5).

Formel 5 - Exempel på användningen av likelihood ratio för ett positivt test
(Vi antar i detta exempel att sannolikheten före test att ha sjukdomen är 25% och att PLR är 2,4)
  Kunskap före genomfört test x PLR = Kunskap efter genomfört test
Odds för att individen har fenomenet:

1:3 = 0,33

x 2,4 =

2,4:3 = 0,8

Sannolikhet att individen har fenomenet:

1/3+1 = 0,25
= 25%
(="pretest probability"
="prior probability"
=sjukdomens prevalens)

 

2,4/3+2,4 = 0,44
= 44%
(="posttest probability"
="posterior probability"
=positivt predikivt värde)

Vet man prevalensen före test är likelihood ratio ett utmärkt sätt att räkna fram sannolikheten att individen efter testet har den egenskap man letar efter (=positivt prediktivt värde). Speciellt användbart blir detta när man utgår från en känd prevalens och sedan gör flera sinsemellan oberoende test i en serie. Oddset efter första testet blir förtest-oddset för nästa test, och så vidare. Viktigt att komma ihåg är att om man inte känner till prevalensen före test, då är likelihood ratio inte så mycket mer användbart än sensitivitet och specificitet. Ett högt positivt likelihood ratio kan visa att det i och för sig är ett bra test men det innebär inte att ett positivt test med hög sannolikhet indikerar närvaro av sjukdom (om det nu är sjukdom testet letar efter).

Prediktivt värde (Predictive value)
Sensitivitet och specificitet löser i regel fel problem. De berättar hur testet fungerar men inte hur patienten mår. Prediktivt värde (=förutsägande värde) talar om sannolikheten att den enskilda patienten har det som testet avser att hitta.
    När vi använder ett test vet vi inte vem som har eller saknar t. ex. sjukdomen. Vi kan använda sensitivitet, specificitet och den sökta egenskapens (sjukdomens?) förekomst (=prevalens) för att räkna ut prediktivt värde. Av dessa tre är det oftast prevalensen som påverkar prediktivt värde mest. Positivt prediktivt värde (PPV) är chansen att egenskapen (sjukdomen?) verkligen finns hos den testade individen om testet är positivt. Följdaktligen är negativt prediktivt värde (NPV) chansen att egenskapen (sjukdomen?) saknas hos den testade individen om testet är negativt. Om prevalensen av egenskapen (sjukdomen?) minskar så minskar det positiva prediktiva värdet medan det negativa prediktiva värdet ökar. Slutsatsen är att om prevalensen ändras så kan sensitivitet och specificitet kanske ändras men det prediktiva värdet kommer ovillkorligen att ändras.
    Man bör komma ihåg att prediktivt värde är ett statistiskt begrepp och inte ett medicinskt. Inom statistiken räknar man prediktivt värde på många olika fenomen, exempelvis sannolikheten att det idag blir en medelvind över 10m/sekund.
    Tänk dig att vi vill ta reda på om en person har betahemolyserande streptokockbakterier i halsen. Vi gör testet svalgodling som har sensitiviteten c:a 90% och specificiteten c:a 97%. Det låter ju som ett bra test. Anta att vi testar 1000 individer som redan är väl utredda med något annat slags test (Tabell 2). Just därför vet vi att exakt 10% av dessa 1000 individerna har streptokocker i halsen. Vi ser då att om vårt test är positivt innebär det 77% chans att individen har streptokocker i halsen.

Tabell 2 - Exempel för att räkna ut prediktivt värde
(PPV=Positivt prediktivt värde, NPV=Negativt prediktivt värde)

 

Har bakterier

Saknar bakterier

 

Positivt test

90

27

117

Negativt test

10

873

883

Totalt antal:

100

900

1 000

Sensitivitet = 90/100=90%

Specificitet = 873/900=97%

PPV = 90/117 = 77%

NPV = 873/883 = 99%

I vårt exempel ser vi att för en enskild patient med negativ svalgodling så är det 99% chans att personen verkligen inte har streptokockbakterier i svalget. Det vore alltså dumt att ge antibiotika i det läget. Ett positivt test säger för den enskilde patienten att det är 77% chans att det finns streptokockbakterier i svalget. Ju lägre prevalens av fenomenet/sjukdomen man letar efter desto mindre användbart är PPV medan svaret på NPV blir mer värdefullt. Vid stigande prevalens gäller det omvända. Generellt gäller att ju högre värden på prediktivt värde desto mer användbart är det (mer om detta längre fram).
    Om vi tänker oss att leta efter individer med en viss sjukdom där vi vet att prevalensen är 0,001%. Med andra ord en mycket ovanlig sjukdom. Om vi bara tar en person slumpmässigt vald är alltså chansen att den individen har sjukdomen 0,001%. Låt oss nu göra ett test med egenskapen 90% sensitivitet och 97% specificitet (samma testegenskaper som en svalgodling). För räkneexemplets skull tänker vi oss att 1 miljon individer undersöks (Tabell 3). Här ser vi att sannolikheten för att individen har sjukdomen ökar från 0,001% före testet till 0,03% efter ett positivt test. Blir vi klokare av det?!

Tabell 3 - Exempel på prediktivt värde vid låg prevalens
(PPV=Positivt prediktivt värde, NPV=Negativt prediktivt värde)

 

Har sjukdom

Saknar sjukdom

 

Positivt test

9 30 000 30 009

Negativt test

1 969 990 969 991

Totalt antal:

10 999 990 1 000 000

Sensitivitet = 9/10=90%

Specificitet = 969990/999990=97%

PPV = 9/30009 = 0,03%

NPV = 969990/969991 = 100%

Av detta (något extrema) exempel lär vi oss att prevalensen har en mycket stor inverkan på hur högt, och därmed användbart, det prediktiva värdet skall bli. Ju högre prediktivt värde desto större klinisk användbarhet av testet. Hur högt måste det vara för att testet skall kunna anses vara användbart? Det beror på situationen. Letar vi efter en farlig sjukdom som lätt kan botas med en biverkningsfri behandling så nöjer vi oss med ett lägre positivt prediktivt värde (PPV). Omvänt gäller att letar vi efter mindre farliga sjukdomar där behandlingen har tveksam effekt eller biverkningarna är märkbara så kräver vi ett högre PPV (mer om detta längre fram).

Man ser ibland skrivet att singla slant innebär att PPV och NPV båda är 50%. Detta är fel! Om man använder det beprövade testet slantsingling är sensitivitet och specificitet 50%. Det prediktiva värdet blir helt beroende av prevalensen. I exemplet med streptokockbakterier (Tabell 2) skulle testet slantsingling ha PPV 10% och NPV 90%. Detta innebär att om rätt sida av slanten kom upp (den som vi definierat som negativt test) skulle slantsingling vara tillräckligt bra för att vara jämförbart med en del av de tester som vi läkare använder i vår vardag.

Gold standard
Gold standard är en allmänt accepterad referensmetod eller den bästa metoden som finns för att fastställa närvaro eller frånvaro av det man letar efter. Förhoppningsvis är den allmänt accepterade referensmetoden också den bästa metoden. Alla ovanstående mått på värdet av ett test fås fram genom att jämföra vårt test med en gold standard. Det är viktigt och komma ihåg att "sanningen" och gold standard inte alltid är samma sak. Om de skiljer sig åt måste vi komma ihåg att vår testutvärdering inte är optimal. Ju större skillnad mellan "sanningen" och vår gold standard desto större risk att vårt nya test som utvärderas får bättre eller sämre testvärden än det egentligen har. (Falskt bättre testvärden om gold standard och det nya testet har samma systematiska fel, falskt sämre testvärden om enbart vår gold standard har ett systematiskt fel eller ett stort slumpmässigt fel)
    När man säger prediktivt värde är det inte självklart att det är sannolikheten för sjukdom man förutsäger. Det kan i medicinska sammanhang ofta vara närvaro av något annat än sjukdom, exempelvis en streptokockbakterie i halsen. Om närvaro av bakterien i halsen innebär att man alltid är sjuk av dem så är det ingen skillnad mellan att förutsäga närvaro av en bakterie eller en sjukdom, exempelvis halsfluss orsakad av streptokockbakterier. Om det finns friska bärare av samma bakterie som inte skall behandlas, då blir det genast en stor skillnad. Ett positivt test kan då innebära att individen är en bärare av streptokockbakterier som är sjuk av virus. Här är det viktigt att ha klart för sig vad det är som förutsägs och relevansen av det. Vad är det egentligen vår gold standard förutsäger? Mer information om detta finns i vår sektion om etiologiskt prediktivt värde (denna del är på engelska och lite mer avancerad).

Att bedöma testets kliniska användbarhet
Vilket mått på tester skall vi använda? Förenklat kan man säga att:

Sensitivitet, specificitet och likelihood ratio svarar på frågan: Hur mår testet?
Prediktivt värde svarar på frågan: Hur mår patienten?

Om vi vill bedöma användbarheten av ett test i praktiskt kliniskt bruk är sensitivitet och specificitet ganska ointressanta. Prediktivt värde är det överlägset bästa sättet att bedöma den kliniska användbarheten. Likelihood ratio är en alternativ väg för att ta fram prediktivt värde. Den vägen är speciellt användbar när man vill bedöma värdet av att ta flera olika tester i följd. Om vi känner till både egenskaperna prediktivt värde och likelihood ratio (sistnämnda kan räknas fram från sensitivitet och specificitet) kan vi försöka skatta testets kliniska användbarhet (Tabell 4).

Tabell 4 - Det kliniska värdet av ett test
Prediktivt värde Likelihood ratio  
Positivt
(PPV)
Negativt
(NPV)
Positivt
(PLR)
Negativt
(NLR)
 
Högt   Högt   Testet kommer att ge dig användbar information.
Högt   Lågt   Redan innan testet görs vet du att patienten sannolikt har sjukdomen. Testet tillför inte så mycket ny information.
Lågt   Högt   Testet ger dig ny information som dock är av tveksamt kliniskt värde.
Lågt   Lågt   Testet är oanvändbart i denna situation.
  Högt   Högt Redan innan testet görs vet du att patienten sannolikt inte har sjukdomen. Testet tillför inte så mycket ny information.
  Högt   Lågt Testet kommer att ge dig användbar information.
  Lågt   Högt Testet är oanvändbart i denna situation.
  Lågt   Lågt Testet ger dig ny information som dock är av tveksamt kliniskt värde.

Vad är högt respektive lågt? Det är svårt att ge ett exakt svar eftersom det beror på det man letar efter och konsekvenserna om man missar det. Som en grov utgångspunkt för diskussionen skulle jag vilja föreslå PLR >1,5, NLR<0,67, PPV>60 och NPV>90. Dessa värden kan vara en hjälp för att förstå tabell 4. I en faktisk utvärdering av den kliniska användbarheten av ett test måste man dock väga in de aspekter som det innebär att missa det testet letar efter (klassificera sjuka som friska), respektive konsekvensen av att klassificera friska som sjuka.
    Handlar det om en potentiellt dödlig sjukdom som lätt kan botas med en ofarlig behandling är det viktigt att inte missa någon individ. Här kanske man kan anse ett PPV efter test på mer än 5-10% vara tillräckligt för behandling. Om man å andra sidan utvärderar ett test för att hitta en sjukdom som endast sällan ger allvarliga komplikationer är det rimligt att kräva ett högre värde på PPV innan man ger behandling. Vid exempelvis halsfluss anser en del författare att sannolikheten för att individen har streptokocker (PPV av ett test för påvisande av streptokockbakterier) bör överstiga 60% innan man ger behandling. Handlar det om en sjukdom som endast sällan ger allvarliga komplikationer och där behandlingen medför risker för patienten kanske det är rimligt att kräva ett PPV på mer än 95-100% innan man ger behandling.


Denna webbsida är författad av
Doc. Ronny Gunnarsson
Distriktsläkare/Familjeläkare

Läs om regler för ansvar och copyright som gäller för denna webbsida.