Utvärdering av tester
Denna sida är uppdaterad
2002-01-05
Inom kvantitativ forskning kallar vi ibland våra datainsamlingstekniker för tester. I forskningsprojekt som
använder tester är det alltid bra att kunna klargöra hur bra testet är i den använda
situationen. En del forskningsprojekt har som direkt mål att ta fram bättre beskrivning
av validitet och reliabilitet för ett test.
När vi vill utvärdera ett test brukar vi ofta jämföra utfallet av
vårt test (vi kan kalla det test A) med en gold standard (ett slags
"facit"). Ett test kan vara en analys av
Hb-värdet i blodet, mätning av systoliskt blodtryck, en bakterieodling från svalget, en
strukturerad enkät eller en strukturerad
intervju.
Vilka typer av tester finns det?
Inom kvantitativ metodik finns fyra huvudtyper av tester:
Utvärdering av tester
Svaret mäts enligt intervall / kvotskalan
För tester av typen 1 enligt ovan vill man undersöka hur utfallet av testet stämmer
överens med resultatet av vårt facit (=gold standard). Detta kan lämpligen göras genom
att för varje individ räkna ut skillnaden mellan vårt nya test och vårt facit. Vi
räknar sedan fram medelvärde och standardavvikelse (ett mått på den genomsnittliga
avvikelsen från medelvärdet) för alla våra skillnader. Vi kan sedan bilda ett
95%-konfidensintervall för skillnaderna. Om detta intervall skulle bli ±12g/l kan
vi säga att det nya testet med 95% säkerhet inte kommer att skilja sig från det gamla testet med mer än 12g/l (om det nu var en ny metod för
att mäta Hb som vi ville testa). Om materialet från någon av testerna är snedfördelat bör man
transformera data (vanligtvis logaritmera).
Läs mer om detta på vår sida om att utvärdera
graden av överensstämmelse (limits of agreement).
Svaret mäts enligt ordinalskalan
Om antalet möjliga utfall är rimligt stort (<10-15) passar kappakoefficient
som ett mått på hur väl det nya testet stämmer överens med det gamla
etablerade.
Svaret mäts enligt nominalskalan och kan ha fler än två olika utfall
För tester av typ 3 kan man ange hur väl testet stämmer överens om
man låter två olika personer utföra testet (inter-rater
reliability" = inter-rater agreement) eller om man låter samma person utföra
testet vid två olika tillfällen (test-retest
reliability). Detta gör man genom att räkna ut kappakoefficient.
I situationen med en enkät bestående av flera delar kan man ange hur väl de olika delar
stämmer överens genom att ange Chronbach's alpha (="internal
consistency reliability").
Svaret mäts enligt nominalskalan och kan ha två olika utfall
För tester av typ 4 kan man även här ange kappakoefficient. Det är
dock mycket vanligare att man värderar testet utifrån egenskaper som känsligheten hos
metoden (sensitivitet), chansen för att få falskt positiva svar
(specificitet), om
testet egentligen tillförde någon ny kunskap (likelihood ratio) samt användbarheten i
det enskilda fallet (prediktivt
värde).
Dikotomisering av testutfallet
Tester av typen 1 och 2 enligt ovan omvandlas ofta till tester av typen
ja/nej (typ 4 enligt ovan) genom att man ställer upp en gräns. Om testresultatet hamnar
ovan gränsen anses detta vara ett ja-svar, om värdet hamnar under anses testet ha gett
ett nej-svar.
Felaktiga metoder vid jämförelse av olika tester
Det anses olämpligt att använda korrelationsanalys för att jämföra
utfallet av tester av typ 1 eller 2 med en gold standard. Orsaken är att
korrelationsanalysen ger mer utslag för de individuella skillnaderna än för skillnader i
testutfall mellan det nya testet och gold standard. Även när testen stämmer dåligt överens
kan man i en korrelationsanalys se en hög korrelation eftersom sambandet mest
beror på att man mäter något där den individuella variationen slår igenom.
Exempel på detta kan vara olika metoder att mäta BMI (Body Mass Index). Här
kan två olika metoder stämma dåligt överens men skillnaderna i BMI mellan de
olika individerna betyder mycket mer än skillnaderna i utfall av de olika
testen. Intra Class Correlation är en metod
som har blivit populär på senare år. Den liknar korrelationsanalysen men ger
inte riktigt samma stora fel som denna.
Ibland ser man att man med t-test
jämför medelvärdet av resultaten mätta med det nya testet med medelvärdet för resultaten
framtagna med vår gold standard Man hävdar då att ingen signifikant skillnad innebär
att det nya testet är lika bra som vår gold standard. Det anses i den statistiska litteraturen
att detta är ett olämpligt förfarande.
Sensitivitet och specificitet
För att kunna ta fram egenskapen sensitivitet och specificitet hos ett test
måste vi ha ett facit att jämföra med. Detta facit kallas "gold standard" (se
längre ner) och är den metod som anses bäst återge sanningen. Sensitiviteten är den
andel sant positiva som testet korrekt identifierar som positiva och specificiteten är
den andel sant negativa som testet korrekt anger som negativa (Tabell 1).
Tabell 1 - Sensitivitet och specificitet | |||
Gold standard är... | |||
...positiv | ...negativ | ||
Positivt test | a | b | a+b |
Negativt test | c | d | c+d |
Sensitivitet=a/a+c | Specificitet=d/b+d |
Ett test är alltid en avvägning mellan sensitivitet och specificitet. Man kan designa
ett test som alltid ger positivt utfall. Ett sådant test skulle ha en strålande bra
sensitivitet (100%) men urusel specificitet (0%). Om man vill vara säker på att inte
överdiagnostisera kan man designa ett test som alltid ger negativt utfall. Man får då
den utmärkta specificiteten 100% men tyvärr en sensitivitet på 0%. Sådana här extrema
test är naturligtvis helt värdelösa. I praktiken gör man en avvägning så att man
får bästa möjliga kompromiss. För testet svalgodling (letar efter streptokockbakterier
i svalget) är sensitiviteten c:a 90% och specificiteten c:a 97%.
Egenskaperna sensitivitet och specificitet kan variera
beroende på vilken metod man använder. De som tillverkar tester kan i förväg
påverka vilka testegenskaper ett test skall ha genom att ändra på
tillverkningsproceduren. Dessa variationer i sensitivitet och specificitet kan ritas upp grafiskt
(Diagram 1). Den grafiska linjen kallas ROC-kurva som står för "Reciever/Response
Operating Characteristic-curve".
Diagram 1 -
ROC-kurva |
Olika tillverkningsprocedurer eller olika sätt att hantera
testet varierar testegenskaperna och man kan således höja sensitiviteten hos ett
test till priset av lägre specificitet och tvärtom. Ju bättre testet är desto mer närmar sig kurvan diagrammets övre vänstra hörn.
Ett riktigt bra test ligger så nära detta hörn att det har samma höga sensitivitet och
specificitet oavsett hur man (inom rimliga gränser) manipulerar med
tillverkningsprocedurer eller olika sätt att hantera testet. Företag som
tillverkar tester lägger ofta ner stor möda på att ge testet en rätt avvägning
mellan sensitivitet och specificitet.
Man kan tycka att egenskaperna sensitivitet och specificitet borde vara
konstanta för ett test om man tillverkar det på samma sätt och handhar testet på
samma sätt. I verkligheten påverkas dock dessa testegenskaper lite grand även av
fenomenets prevalens. Tänk dig att en person sitter och granskar odlingsplattor för att
upptäcka halsflussbakterier. Om personen visste att ungefär varannan platta innehöll
halsflussbakterier skulle sannolikt varje platta bli noggrant granskad. Då blir
sensitiviteten hög. Om det istället vore så att endast var 1000:e platta innehöll
halsflussbakterier skulle varje platta sannolikt inte bli lika noggrant granskad.
Sannolikheten att missa denna 1000:e skulle då öka något, med andra ord skulle
sensitiviteten sjunka och specificiteten öka. Prevalensen påverkar alltså
sensitiviteten och specificiteten.
Likelihood ratio (=Odds
ratio)
Vitsen med att göra ett test är att vi skall veta mer efteråt. Testet skall
alltså tillföra information. Sannolikheten för att individen har egenskapen (t. ex.
sjukdomen) skall vara högre efter ett positivt test jämfört med före testet. Om
sannolikheten inte ökar har testet inte tillfört något nytt. Hur många gånger
sannolikheten ökar kallas likelihood ratio (LR) av ett positivt test. Man kan räkna ut
LR av ett positivt testutfall, PLR (Formel 1, Formel 2), och av ett negativt testutfall,
NLR (Formel 3, Formel 4). Vanligen brukar man bara räkna ut LR vid positivt testutfall.
Formel 1 - Likelihood ratio för ett positivt test, principinnehåll |
Formel 2 - Likelihood ratio för ett positivt test |
Formel 3 - Likelihood ratio för ett negativt test, principinnehåll |
Formel 4 - Likelihood ratio för ett negativt test |
|
Ett högt PLR gör att testet kommer att tillföra ny information. Omvänt gäller vid NLR, d.v.s. ett lågt värde är bra. LR beror på sensitiviteten och specificiteten men inte direkt på prevalensen. Enligt resonemanget ovan kan sensitivitet och specificitet ändras om prevalensen ändras. I regel påverkas LR mindre av ändringar i prevalensen än sensitivitet och specificitet. Likelihood ratio är mycket användbart om man vet prevalensen för det fenomen man vill undersöka (Formel 5).
Formel 5 - Exempel på
användningen av likelihood ratio för ett positivt test (Vi antar i detta exempel att sannolikheten före test att ha sjukdomen är 25% och att PLR är 2,4) |
|||
Kunskap före genomfört test | x PLR = | Kunskap efter genomfört test | |
Odds för att individen har fenomenet: | 1:3 = 0,33 |
x 2,4 = | 2,4:3 = 0,8 |
Sannolikhet att individen har fenomenet: | 1/3+1 = 0,25 ="prior probability" =sjukdomens prevalens) |
2,4/3+2,4 = 0,44 ="posterior probability" =positivt predikivt värde) |
Vet man prevalensen före test är likelihood ratio ett utmärkt sätt att räkna fram sannolikheten att individen efter testet har den egenskap man letar efter (=positivt prediktivt värde). Speciellt användbart blir detta när man utgår från en känd prevalens och sedan gör flera sinsemellan oberoende test i en serie. Oddset efter första testet blir förtest-oddset för nästa test, och så vidare. Viktigt att komma ihåg är att om man inte känner till prevalensen före test, då är likelihood ratio inte så mycket mer användbart än sensitivitet och specificitet. Ett högt positivt likelihood ratio kan visa att det i och för sig är ett bra test men det innebär inte att ett positivt test med hög sannolikhet indikerar närvaro av sjukdom (om det nu är sjukdom testet letar efter).
Prediktivt värde
(Predictive value)
Sensitivitet och specificitet löser i regel fel problem. De berättar hur testet
fungerar men inte hur patienten mår. Prediktivt värde (=förutsägande värde) talar om
sannolikheten att den enskilda patienten har det som testet avser att hitta.
När vi använder ett test vet vi inte vem som har eller saknar t. ex.
sjukdomen. Vi kan använda sensitivitet, specificitet och den sökta egenskapens
(sjukdomens?) förekomst (=prevalens) för att räkna ut prediktivt värde. Av dessa tre
är det oftast prevalensen som påverkar prediktivt värde mest. Positivt prediktivt
värde (PPV) är chansen att egenskapen (sjukdomen?) verkligen finns hos den testade
individen om testet är positivt. Följdaktligen är negativt prediktivt värde (NPV)
chansen att egenskapen (sjukdomen?) saknas hos den testade individen om testet är
negativt. Om prevalensen av egenskapen (sjukdomen?) minskar så minskar det positiva
prediktiva värdet medan det negativa prediktiva värdet ökar. Slutsatsen är att om
prevalensen ändras så kan sensitivitet och specificitet kanske ändras men det
prediktiva värdet kommer ovillkorligen att ändras.
Man bör komma ihåg att prediktivt värde är ett statistiskt begrepp
och inte ett medicinskt. Inom statistiken räknar man prediktivt värde på många olika
fenomen, exempelvis sannolikheten att det idag blir en medelvind över 10m/sekund.
Tänk dig att vi vill ta reda på om en person har betahemolyserande
streptokockbakterier i halsen. Vi gör testet svalgodling som har sensitiviteten c:a 90%
och specificiteten c:a 97%. Det låter ju som ett bra test. Anta att vi testar 1000
individer som redan är väl utredda med något annat slags test (Tabell 2). Just därför
vet vi att exakt 10% av dessa 1000 individerna har streptokocker i halsen. Vi ser då att om vårt
test är positivt innebär det 77% chans att individen har streptokocker i halsen.
Tabell
2 - Exempel för att räkna ut prediktivt värde |
|||
Har bakterier |
Saknar bakterier |
||
Positivt test |
90 |
27 |
117 |
Negativt test |
10 |
873 |
883 |
Totalt antal: |
100 |
900 |
1 000 |
Sensitivitet = 90/100=90% |
Specificitet = 873/900=97% |
||
PPV = 90/117 = 77% |
NPV = 873/883 = 99% |
I vårt exempel ser vi att för en enskild patient med negativ svalgodling så är det
99% chans att personen verkligen inte har streptokockbakterier i svalget. Det vore alltså
dumt att ge antibiotika i det läget. Ett positivt test säger för den enskilde patienten
att det är 77% chans att det finns streptokockbakterier i svalget. Ju lägre prevalens av
fenomenet/sjukdomen man letar efter desto mindre användbart är PPV medan svaret på NPV
blir mer värdefullt. Vid stigande prevalens gäller det omvända. Generellt gäller att
ju högre värden på prediktivt värde desto mer användbart är det (mer om
detta längre fram).
Om vi tänker oss att leta efter individer med en viss sjukdom där vi
vet att prevalensen är 0,001%. Med andra ord en mycket ovanlig sjukdom. Om vi bara tar en
person slumpmässigt vald är alltså chansen att den individen har sjukdomen 0,001%. Låt
oss nu göra ett test med egenskapen 90% sensitivitet och 97% specificitet (samma
testegenskaper som en svalgodling). För räkneexemplets skull tänker vi oss att 1
miljon individer undersöks (Tabell 3). Här ser vi att sannolikheten för att individen
har sjukdomen ökar från 0,001% före testet till 0,03% efter ett positivt test. Blir vi
klokare av det?!
Tabell
3 - Exempel på prediktivt värde vid låg prevalens |
|||
Har sjukdom |
Saknar sjukdom |
||
Positivt test |
9 | 30 000 | 30 009 |
Negativt test |
1 | 969 990 | 969 991 |
Totalt antal: |
10 | 999 990 | 1 000 000 |
Sensitivitet = 9/10=90% |
Specificitet = 969990/999990=97% |
||
PPV = 9/30009 = 0,03% |
NPV = 969990/969991 = 100% |
Av detta (något extrema) exempel lär vi oss att prevalensen har en mycket stor inverkan på hur högt, och därmed användbart, det prediktiva värdet skall bli. Ju högre prediktivt värde desto större klinisk användbarhet av testet. Hur högt måste det vara för att testet skall kunna anses vara användbart? Det beror på situationen. Letar vi efter en farlig sjukdom som lätt kan botas med en biverkningsfri behandling så nöjer vi oss med ett lägre positivt prediktivt värde (PPV). Omvänt gäller att letar vi efter mindre farliga sjukdomar där behandlingen har tveksam effekt eller biverkningarna är märkbara så kräver vi ett högre PPV (mer om detta längre fram).
Man ser ibland skrivet att singla slant innebär att PPV och NPV båda är 50%. Detta är fel! Om man använder det beprövade testet slantsingling är sensitivitet och specificitet 50%. Det prediktiva värdet blir helt beroende av prevalensen. I exemplet med streptokockbakterier (Tabell 2) skulle testet slantsingling ha PPV 10% och NPV 90%. Detta innebär att om rätt sida av slanten kom upp (den som vi definierat som negativt test) skulle slantsingling vara tillräckligt bra för att vara jämförbart med en del av de tester som vi läkare använder i vår vardag.
Gold standard
Gold standard är en allmänt accepterad referensmetod eller den bästa metoden
som finns för att fastställa närvaro eller frånvaro av det man letar efter.
Förhoppningsvis är den allmänt accepterade referensmetoden också den bästa metoden.
Alla ovanstående mått på värdet av ett test fås fram genom att jämföra vårt test
med en gold standard. Det är viktigt och komma ihåg att "sanningen"
och gold standard inte alltid är samma sak. Om de skiljer sig åt måste vi
komma ihåg att vår testutvärdering inte är optimal. Ju större skillnad
mellan "sanningen" och vår gold standard desto större risk att vårt
nya test som utvärderas får bättre eller sämre testvärden än det
egentligen har. (Falskt bättre testvärden om gold standard och det nya testet
har samma systematiska fel, falskt sämre testvärden om enbart vår gold
standard har ett systematiskt fel eller ett stort slumpmässigt fel)
När man säger prediktivt värde är det inte självklart att det är
sannolikheten för sjukdom man förutsäger. Det kan i medicinska sammanhang ofta vara
närvaro av något annat än sjukdom, exempelvis en streptokockbakterie i halsen. Om närvaro av bakterien i halsen
innebär att man alltid är sjuk av dem så är det ingen skillnad mellan att förutsäga
närvaro av en bakterie eller en sjukdom, exempelvis halsfluss orsakad av
streptokockbakterier. Om det finns friska bärare av samma bakterie som inte skall
behandlas, då blir det genast en stor skillnad. Ett positivt test kan då innebära att
individen är en bärare av streptokockbakterier som är sjuk av virus. Här är det
viktigt att ha klart för sig vad det är som förutsägs och relevansen av det. Vad är
det egentligen vår gold standard förutsäger? Mer information om detta finns i
vår sektion om etiologiskt prediktivt
värde (denna del är på engelska och lite mer avancerad).
Att bedöma testets kliniska användbarhet
Vilket mått på tester skall vi använda? Förenklat kan man säga att:
Sensitivitet, specificitet och likelihood ratio
svarar på frågan: Hur mår testet?
Prediktivt värde svarar på frågan: Hur mår patienten?
Om vi vill bedöma användbarheten av ett test i praktiskt kliniskt bruk är sensitivitet och specificitet ganska ointressanta. Prediktivt värde är det överlägset bästa sättet att bedöma den kliniska användbarheten. Likelihood ratio är en alternativ väg för att ta fram prediktivt värde. Den vägen är speciellt användbar när man vill bedöma värdet av att ta flera olika tester i följd. Om vi känner till både egenskaperna prediktivt värde och likelihood ratio (sistnämnda kan räknas fram från sensitivitet och specificitet) kan vi försöka skatta testets kliniska användbarhet (Tabell 4).
Tabell 4 - Det kliniska värdet av ett test | ||||
Prediktivt värde | Likelihood ratio | |||
Positivt (PPV) |
Negativt (NPV) |
Positivt (PLR) |
Negativt (NLR) |
|
Högt | Högt | Testet kommer att ge dig användbar information. | ||
Högt | Lågt | Redan innan testet görs vet du att patienten sannolikt har sjukdomen. Testet tillför inte så mycket ny information. | ||
Lågt | Högt | Testet ger dig ny information som dock är av tveksamt kliniskt värde. | ||
Lågt | Lågt | Testet är oanvändbart i denna situation. | ||
Högt | Högt | Redan innan testet görs vet du att patienten sannolikt inte har sjukdomen. Testet tillför inte så mycket ny information. | ||
Högt | Lågt | Testet kommer att ge dig användbar information. | ||
Lågt | Högt | Testet är oanvändbart i denna situation. | ||
Lågt | Lågt | Testet ger dig ny information som dock är av tveksamt kliniskt värde. |
Vad är högt respektive lågt? Det är svårt att ge ett exakt svar eftersom det beror
på det man letar efter och konsekvenserna om man missar det. Som en grov utgångspunkt
för diskussionen skulle jag vilja föreslå PLR >1,5, NLR<0,67, PPV>60 och
NPV>90. Dessa värden kan vara en hjälp för att förstå tabell 4. I en faktisk
utvärdering av den kliniska användbarheten av ett test måste man dock väga in de
aspekter som det innebär att missa det testet letar efter (klassificera sjuka
som friska), respektive konsekvensen av att klassificera friska som sjuka.
Handlar det om en potentiellt dödlig sjukdom som lätt kan
botas med en ofarlig behandling är det viktigt att inte missa någon individ.
Här kanske man kan anse ett PPV efter test på mer än 5-10% vara tillräckligt
för behandling. Om man å andra sidan utvärderar ett test för att hitta en
sjukdom som endast sällan ger allvarliga komplikationer är det rimligt att
kräva ett högre värde på PPV innan man ger behandling. Vid exempelvis
halsfluss anser en del författare att sannolikheten för att individen har
streptokocker (PPV av ett test för påvisande av streptokockbakterier) bör
överstiga 60% innan man ger behandling. Handlar det om en sjukdom som endast
sällan ger allvarliga komplikationer och där behandlingen medför risker för
patienten kanske det är rimligt att kräva ett PPV på mer än 95-100% innan
man ger behandling.
Denna webbsida är författad av
Doc. Ronny Gunnarsson
Distriktsläkare/Familjeläkare
Läs om regler för ansvar och copyright som gäller för denna webbsida.