Utvärdering av tester

Du är en av...aktiva besökare på den svenska delen - dessutom...aktiva besökare på den engelska delen

(antal aktiva besökare uppdateras automatiskt var 4:e minut)

Citera denna sida som:

Ronny Gunnarsson

Först publiserad:

March 16, 2000

på:

INFOVOICE.SE

Senast uppdaterad:

June 12, 2026

Om du vill informera om att denna webbsida finns...

Denna sidan ger dig ett fågelperspektiv över utvärdering av olika tester som används for screening, diagnostik eller olika forskningsändamål.

Du förstår denna sidan bäst om du först har läst sidan Observationer och variabler.

Inom forskning med empirik-atomistisk (“kvantitativ”) ansats kallar vi ibland våra datainsamlingstekniker för tester. I forskningsprojekt som använder tester är det alltid bra att kunna klargöra hur bra testet är i den använda situationen. En del forskningsprojekt har som direkt mål att ta fram bättre beskrivning av validitet och reliabilitet för ett test.

När vi vill utvärdera ett test brukar vi ofta jämföra utfallet av vårt test med en referensmetod (gold standard). Referensmetoden är ett slags “facit” (mer om detta längre ner). Ett test kan vara en analys av hemoglobinvärdet i blodet (Hb), mätning av systoliskt blodtryck, en bakterieodling från svalget, en strukturerad enkät eller en strukturerad intervju.

Table of contents (with links)

20 min reading (excluding any videos)

Vilka typer av tester finns det?

Inom empirik-atomistisk (“kvantitativ”) ansats finns fyra huvudtyper av tester:

Tester som ger ett exakt mätvärde enligt intervall eller kvotskalan till exempel Hb-värde. Värdet kan i princip anta vilket värde som helst, givetvis inom rimliga gränser. Mätdata är kontinuerliga eller diskreta, d.v.s. skalstegen är ekvidistanta och mäts enligt intervallskalan eller kvotskalan (för information om olika variabler och mätskalor se sidan om variabler).
Tester som ger svar enligt ordinalskalan med mer än två tänkbara utfall där de tänkbara utfallen är ordnade, till exempel en enkät med svarsalternativen “instämmer helt”-“instämmer delvis”-“tveksam”-“instämmer inte alls”. VAS (Visuell Analog Skala) räknas ibland hit.
Tester som ger svar enligt nominalskalan med mer än två tänkbara utfall där de tänkbara utfallen är oordnade, exempelvis blodgruppstillhörighet.
Tester som ger svar enligt nominalskalan med endast två tänkbara utfall (dikotomt utfall). Det kan vara ett ja-nej-svar, exempelvis närvaro eller frånvaro av streptokockbakterier i halsen.

Utvärdering av tester

Utfallet mäts enligt intervall / kvotskalan

För tester av typ 1 enligt beskrivningen ovan, där både det nya testet och referensmetoden ger kvantitativa resultat, vill vi undersöka hur väl resultatet från det nya testet överensstämmer med resultatet från referensmetoden/guldstandarden. Detta kan göras genom att beräkna skillnaden mellan det nya testet och referensmetoden för varje individ, till exempel: resultat från nytt test minus resultat från referensmetod. Därefter beräknar vi medelvärdet och standardavvikelsen för dessa skillnader. Medelvärdet av skillnaderna skattar den systematiska avvikelsen, bias, mellan de två metoderna, medan standardavvikelsen beskriver hur mycket de individuella skillnaderna varierar kring detta medelvärde. Bland–Altmans 95-procentiga överensstämmelsegränser beräknas vanligen som: medelskillnad ± 1,96 × standardavvikelsen för skillnaderna. Beräkningen förutsätter att skillnaderna mellan de två metoderna är ungefär normalfördelade och att variationen i skillnaderna är någorlunda konstant över mätområdet. Dessa gränser skattar det intervall inom vilket cirka 95 % av de individuella skillnaderna mellan de två metoderna kan förväntas ligga.

Låt oss titta på ett exempel där två metoder för att mäta hemoglobinnivåer i blodet jämförs. Om överensstämmelsegränserna är −12 till +12 g/L kan vi säga att när den nya metoden används för att mäta hemoglobin förväntas cirka 95 % av framtida individuella resultat ligga inom 12 g/L från det resultat som erhålls med referensmetoden, förutsatt liknande mätförhållanden och ungefär normalfördelade skillnader. Man kan också skapa ett Bland–Altman-diagram. Läs mer om detta på vår sida om att utvärdera graden av överensstämmelse (limits of agreement).

Utfallet mätes enligt ordinalskalan

Om antalet möjliga utfall är rimligt stort passar kappakoefficient som ett mått på hur väl det nya testet stämmer överens med det gamla etablerade. Vanlig kappakoefficient tar inte hänsyn till ordningen mellan utfallen. Om antalet utfall är många tenderar kappakoefficienten att bli väldigt låg. Om det finns en ordning är viktad kappakoefficient ett alternativ.

Utfallet mäts enligt nominalskalan – fler än två utfall

För tester av typ 3 kan man ange hur väl testet stämmer överens om man låter två olika personer utföra testet, Detta kallas inter-rater reliability” = inter-rater agreement. Om man låter samma person utföra testet vid två olika tillfällen kallas det test-retest reliability. Graden av överensstämmelse räknar man ut med kappakoefficient. I situationen med en enkät bestående av flera delar kan man ange hur väl de olika delar stämmer överens genom att ange Cronbach’s alfa (=”internal consistency reliability”).

Utfallet mäts enligt nominalskalan – endast två utfall

För tester av typ 4 kan man även här ange kappakoefficient. Det är dock mycket vanligare att man värderar testet utifrån egenskaper som känsligheten hos metoden (sensitivitet), chansen för att få ett negativt svar bland de som inte har det tillstånd man letar efter (specificitet), om testet egentligen tillförde någon ny kunskap (sannolikhetskvot (likelihood ratio))samt användbarheten i det enskilda fallet (prediktivt värde).

Sensitivitet och specificitet

För att kunna ta fram egenskapen sensitivitet och specificitet hos ett test måste vi ha ett facit att jämföra med. Detta facit kallas referensmetod eller “gold standard” (se längre ner) och är den metod som anses bäst återge sanningen. Sensitiviteten är den andel sant positiva som testet korrekt identifierar som positiva och specificiteten är den andel sant negativa som testet korrekt anger som negativa. Läs mer på webbsidan om sensitivitet, specificitet och ROC-analys.

Olika tillverkningsprocedurer eller olika sätt att hantera testet varierar testegenskaperna och man kan således höja sensitiviteten hos ett test till priset av lägre specificitet och tvärtom. Företag som tillverkar tester lägger ofta ner stor möda på att ge testet en rätt avvägning mellan sensitivitet och specificitet.

Teoretiskt betraktas sensitivitet och specificitet ofta som prevalensoberoende egenskaper hos testet. I praktiska situationer kan de dock påverkas indirekt genom förändringar i patientselektion, sjukdomspanorama eller observatörsbeteende. I verkligheten kan alltså sensitivitet och specificitet påverkas lite grand även av fenomenets prevalens. Tänk dig att en person sitter och granskar odlingsplattor för att upptäcka halsflussbakterier. Om personen visste att ungefär varannan platta innehöll halsflussbakterier skulle sannolikt varje platta bli noggrant granskad. Då blir sensitiviteten hög. Om det istället vore så att endast var 1000:e platta innehöll halsflussbakterier skulle varje platta sannolikt inte bli lika noggrant granskad. Sannolikheten att missa denna 1000:e skulle då öka något, med andra ord skulle sensitiviteten sjunka lite och specificiteten öka. Prevalensen påverkar alltså sensitiviteten och specificiteten lite grand.

Sannolikhetskvot = Likelihood ratio

Vitsen med att göra ett test är att vi skall veta mer efteråt. Testet skall alltså tillföra information. Sannolikheten för att individen har egenskapen (t. ex. sjukdomen) skall vara högre efter ett positivt test jämfört med före testet. Om sannolikheten inte ökar har testet inte tillfört något nytt. Hur många gånger oddset för att ha tillståndet man letar efter ökar kallas sannolikhetskvot eller likelihood ratio (LR) av ett positivt test. Man kan räkna ut LR av ett positivt testutfall (PLR), och av ett negativt testutfall (NLR). Vanligen brukar man bara räkna ut PLR och mindre ofta NLR. Läs mer på webbsidan om sannolikhetskvot (Likelihood ratio).

Ett högt PLR gör att testet kommer att tillföra ny information. Omvänt gäller vid NLR, d.v.s. ett lågt värde är bra. LR beror på sensitiviteten och specificiteten men inte direkt på prevalensen. Enligt resonemanget ovan kan sensitivitet och specificitet i vissa situationer ändras lite grand om prevalensen ändras. I regel påverkas LR mindre av ändringar i prevalensen än sensitivitet och specificitet. Vet man prevalensen före test är LR ett utmärkt sätt att räkna fram sannolikheten att individen efter testet har den egenskap man letar efter (=positivt prediktivt värde). Speciellt användbart blir detta när man utgår från en känd prevalens och sedan gör flera sinsemellan oberoende test i en serie. Oddset efter första testet blir förtest-oddset för nästa test, och så vidare.

Viktigt att komma ihåg är att om man inte känner till prevalensen före test, då är likelihood ratio inte så mycket mer användbart än sensitivitet och specificitet. Ett högt positivt likelihood ratio kan visa att det i och för sig är ett bra test men det innebär inte att ett positivt test med hög sannolikhet indikerar närvaro av sjukdom (om det nu är sjukdom testet letar efter).

Förutsägande värden = Prediktiva värden (Predictive value of tests)

Sensitivitet och specificitet löser i regel fel problem. De berättar hur testet fungerar men inte hur patienten mår. Prediktivt värde (=förutsägande värde) talar om sannolikheten att den enskilda patienten har det som testet avser att hitta. Man bör komma ihåg att prediktivt värde är ett statistiskt begrepp och det används inte bara inom medicin. Inom statistiken räknar man ibland prediktivt värde på många olika fenomen, exempelvis sannolikheten att det idag blir en medelvind över 10 meter per sekund.

När vi använder ett test vet vi inte vem som har eller saknar t. ex. sjukdomen. Vi kan använda sensitivitet, specificitet och den sökta egenskapens (sjukdomens?) förekomst (=prevalens) för att räkna ut prediktivt värde. Av dessa tre är det oftast prevalensen som påverkar prediktivt värde mest. Positivt prediktivt värde (PPV) är chansen att egenskapen (sjukdomen?) verkligen finns hos den testade individen om testet är positivt. Följdaktligen är negativt prediktivt värde (NPV) chansen att egenskapen (sjukdomen?) saknas hos den testade individen om testet är negativt. Om prevalensen av egenskapen (sjukdomen?) minskar så minskar det positiva prediktiva värdet medan det negativa prediktiva värdet ökar. Slutsatsen är att om prevalensen ändras så kan sensitivitet och specificitet kanske ändras något men det prediktiva värdet kommer ovillkorligen att ändras, ofta ganska mycket. Läs mer på webbsidan om prediktiva värden.

I Ju lägre prevalens av fenomenet/sjukdomen man letar efter desto mindre användbart är PPV medan svaret på NPV blir mer värdefullt. Vid stigande prevalens gäller det omvända. Generellt gäller att ju högre värden på prediktivt värde desto mer användbart är det (mer om detta längre fram).

Ju högre prediktivt värde desto större klinisk användbarhet av testet. Hur högt måste det vara för att testet skall kunna anses vara användbart? Det beror på situationen. Letar vi efter en farlig sjukdom som lätt kan botas med en biverkningsfri behandling så nöjer vi oss med ett lägre positivt prediktivt värde (PPV). Omvänt gäller att letar vi efter mindre farliga sjukdomar där behandlingen har tveksam effekt eller biverkningarna är märkbara så kräver vi ett högre PPV (mer om detta längre fram).

Att bedöma dikotoma testers praktiska användbarhet

Vilket mått på tester skall vi använda? Förenklat kan man säga att:

Sensitivitet och specificitet svarar på frågan: Hur mår testet?
Sannolikhetskvot (Likelihood ratio) svarar på frågan: Hur mycket ny information tillför testet?
Prediktivt värde svarar på frågan: Hur mår patienten? (eller vad är sannolikheten för fenomenet…?)

Om vi vill bedöma användbarheten av ett test i praktiken är sensitivitet och specificitet ganska ointressanta. Prediktivt värde är det överlägset bästa sättet att bedöma den praktiska (kliniska) användbarheten. Likelihood ratio är en alternativ väg för att ta fram prediktivt värde. Den vägen är speciellt användbar när man vill bedöma värdet av att ta flera olika tester i följd. Om vi känner till både egenskaperna prediktivt värde och likelihood ratio (sistnämnda kan räknas fram från sensitivitet och specificitet) kan vi försöka skatta testets kliniska användbarhet (Tabell 1).

Positivt prediktivt värde (PPV)	Negativt prediktivt värde (NPV)	Positivt Likelihood ratio (PLR)	Negativt Likelihood ratio (NLR)	Praktisk användbarhet
Högt		Högt		Testet kommer att ge dig användbar information.
Högt		Lågt		Redan innan testet görs vet du att patienten sannolikt har sjukdomen. Testet tillför inte så mycket ny information.
Lågt		Högt		Testet ger dig ny information som dock är av tveksamt kliniskt värde.
Lågt		Lågt		Testet är oanvändbart i denna situation.
	Högt		Högt	Redan innan testet görs vet du att patienten sannolikt inte har sjukdomen. Testet tillför inte så mycket ny information.
	Högt		Lågt	Testet kommer att ge dig användbar information.
	Lågt		Högt	Testet är oanvändbart i denna situation.
	Lågt		Lågt	Testet ger dig ny information som dock är av tveksamt praktiskt värde.

Tabell 1 – Att från prediktiva värden och Likelihood ratio avgöra om ett test är användbart

Våra värden på likelihood ratio och prediktiva värden är punktskattningar. Hur säkra dessa punktskattningar är beror mycket på hur många observationer vi har som underlag för våra beräkningar. Det innebär att vi alltid bör beräkna 95%-iga konfidensintervall för våra skattningar av likelihood ratio och prediktiva värden. Hur vi skall tolka likelihood ratio och prediktiva värden avgörs helt av deras konfidensintervall.

Här finns matematiskt inga givna gränsvärden för hur konfidensintervallen skall tolkas. Var man väljer att sätta upp gränsvärden för tolkning är alltså en gråskala där man i varje situation får göra ett beslut relevant för sin studie. Några praktiska gränsvärden som har diskuterats anges nedan som exempel (Tabell 2-4).

Nedre gräns	Övre gräns	Användbarhet
≥90%		Mycket användbar
≥60% och <90%		Sannolikt användbar
(allt annat)	(allt annat)	Information saknas för att avgöra användbarheten
	>10% och ≤40%	Sannolikt oanvändbar
	≤10%	Klart oanvändbar

Tabell 2 – 95% konfidensintervall för att avgöra användbarheten av prediktiva värden

Nedre gräns	Övre gräns	Användbarhet
≥10		Mycket användbar
≥5 och <10		Måttligt användbar
≥2 och <5		Svagt användbar
(allt annat)	(allt annat)	Information saknas för att avgöra användbarheten
	>1,5 och ≤2	Sannolikt oanvändbar
	≤1,5	Klart oanvändbar

Tabell 3 – 95% konfidensintervall för att avgöra användbarheten av PLR

Nedre gräns	Övre gräns	Användbarhet
	≤0,1	Mycket användbar
	>0,1 och ≤0,2	Måttligt användbar
	>0,2 och ≤0,5	Svagt användbar
(allt annat)	(allt annat)	Information saknas för att avgöra användbarheten
>0,2 och ≤0,5		Sannolikt oanvändbar
≥0,5		Klart oanvändbar

Tabell 4 – 95% konfidensintervall för att avgöra användbarheten av NLR

Vad är högt respektive lågt? Det är svårt att ge ett exakt svar eftersom det beror på det man letar efter och konsekvenserna om man missar det. Värdena i tabell 2, 3 och 4 ovan är ett förslag som en grov utgångspunkt för diskussion. Värdena för prediktiva värden (tabell 2) har använts i en tidigare studie .

De exempel på gränser som ges i tabell 2-4 kan vara en hjälp för att förstå tabell 1. I en faktisk utvärdering av den kliniska användbarheten av ett test måste man dock väga in de aspekter som det innebär att missa det testet letar efter (klassificera sjuka som friska), respektive konsekvensen av att klassificera friska som sjuka.

Handlar det om en potentiellt dödlig sjukdom som lätt kan botas med en ofarlig behandling är det viktigt att inte missa någon individ. Här kanske man kan anse ett PPV efter test på mer än 5-10% vara tillräckligt för behandling. Om man å andra sidan utvärderar ett test för att hitta en sjukdom som endast sällan ger allvarliga komplikationer är det rimligt att kräva ett högre värde på PPV innan man ger behandling. Vid exempelvis halsfluss anser en del författare att sannolikheten för att individen har streptokocker (PPV av ett test för påvisande av streptokockbakterier) bör överstiga 60% innan man ger behandling. Handlar det om en sjukdom som endast sällan ger allvarliga komplikationer och där behandlingen medför risker för patienten kanske det är rimligt att kräva ett PPV på över cirka 95% innan man ger behandling.

Kalkylator för binära diagnostiska testegenskaper

Kalkylatorn ovan använder standardiserade matematiska approximationer för att dynamiskt generera mätvärden och konfidensintervall, utan att vara beroende av externa statistiska bibliotek. Några detaljer om hur kalkylatorn fungerar förklaras nedan:

Konfidensintervall för proportioner (sensitivitet, specificitet, PPV, NPV) beräknas med hjälp av standardmetoden Wald. Formeln som används för den övre och undre gränsen är:

p \pm Z \sqrt{\frac{p(1-p)}{n}}

p representerar den beräknade andelen (t.ex. sensitivitet).
Z representerar det kritiska Z-värdet kopplat till det användardefinierade konfidensintervallet.
n representerar den relevanta urvalsstorleken (t.ex. totalt antal faktiskt positiva för sensitivitet).

Obs: För att förhindra matematiskt omöjliga gränser begränsas resultatet av Wald-beräkningen strikt till lägst 0 % och högst 100 %.

För att möjliggöra anpassade konfidensintervall (t.ex. 95 %, 98 %, 99 %) omvandlar skriptet dynamiskt användarens procentandel till ett Z-värde med hjälp av Abramowitz och Steguns approximation. Denna exakta algoritm beräknar inversen av den kumulativa standardnormalfördelningsfunktionen, vilket gör en uppslagstabell överflödig.

Till skillnad från andelar är sannolikhetskvoter (likelihood ratios) inte begränsade mellan 0 och 1; de sträcker sig från 0 till oändligheten. Att beräkna standardfel på en linjär skala skulle resultera i statistiskt ogiltiga gränser. För att kompensera för denna skevhet beräknar kalkylatorn variansen på en logaritmisk skala. Först beräknar den standardfelet för sannolikhetskvotens naturliga logaritm. För den positiva sannolikhetskvoten är formeln:

SE = \sqrt{\frac{1}{TP} – \frac{1}{TP+FN} + \frac{1}{FP} – \frac{1}{FP+TN}}

Konfidensgränserna beräknas på denna logaritmiska skala och exponentieras sedan tillbaka till den linjära skalan för att ge de slutgiltiga, korrekt asymmetriska konfidensintervallen:

\exp(\ln(LR) \pm Z \times SE)

Referensmetod (Gold standard)

Gold standard är en allmänt accepterad referensmetod eller den bästa metoden som finns för att fastställa närvaro eller frånvaro av det man letar efter. Förhoppningsvis är den allmänt accepterade referensmetoden också den bästa metoden. Alla ovanstående mått på värdet av ett test fås fram genom att jämföra vårt test med en gold standard. Det är viktigt och komma ihåg att “sanningen” och gold standard inte alltid är samma sak. Om de skiljer sig åt måste vi komma ihåg att vår testutvärdering inte är optimal. Ju större skillnad mellan “sanningen” och vår gold standard desto större risk att vårt nya test som utvärderas får bättre eller sämre testvärden än det egentligen borde ha. (Falskt bättre testvärden om gold standard och det nya testet har samma systematiska fel, falskt sämre testvärden om enbart vår gold standard har ett systematiskt fel eller ett stort slumpmässigt fel).

När man säger prediktivt värde är det inte självklart att det är sannolikheten för sjukdom man förutsäger. Det kan i medicinska sammanhang ofta vara närvaro av något annat än sjukdom, exempelvis en streptokockbakterie i halsen. Om närvaro av bakterien i halsen innebär att man alltid är sjuk av dem så är det ingen skillnad mellan att förutsäga närvaro av en bakterie eller en sjukdom, exempelvis halsfluss orsakad av streptokockbakterier. Om det finns friska bärare av samma bakterie som inte skall behandlas, då blir det genast en stor skillnad. Ett positivt test kan då innebära att individen är en bärare av streptokockbakterier som är sjuk av virus. Här är det viktigt att ha klart för sig vad det är som förutsägs och relevansen av det. Vad är det egentligen vår gold standard förutsäger? Mer information om detta finns i vår sektion om etiologiskt prediktivt värde. Just detta problem belyses även i nedanstående video:

(Nedanstående video är på engelska. Om du har svårt att förstå engelska kan du få svensk text genom att klicka på “YouTube” (i nedre högra hörnet) för att gå till YouTube där videon automatiskt startar. I YouTube klickar du på kugghjulsikonen, sedan klicka på “Subtitles”, klicka sedan på auto-translate och välj svenska. Detta fungerar någorlunda bra men det kan bli en del felaktigheter i översättningen).

Dikotomisering

Tester av typen 1 (som mäts med intervall- eller kvotskalan) och typ 2 (som mäts med ordinalskalan) omvandlas ofta till tester av typen ja/nej genom att man ställer upp en gräns. Om testresultatet hamnar ovan gränsen anses detta vara ett ja-svar, om värdet hamnar under anses testet ha gett ett nej-svar. Efter dikotomisering utvärderar man testet som att utfallet är dikotomt.

Felaktiga metoder vid jämförelse av olika tester

Det anses olämpligt att använda korrelationsanalys för att jämföra utfallet av tester av typ 1 eller typ 2 med en gold standard. Orsaken är att korrelationsanalysen ger mer utslag för de individuella skillnaderna än för skillnader i testutfall mellan det nya testet och gold standard. Även när testen stämmer dåligt överens kan man i en korrelationsanalys se en hög korrelation eftersom sambandet mest beror på att man mäter något där den individuella variationen slår igenom. Exempel på detta kan vara olika metoder att mäta Body Mass Index (BMI). Här kan två olika metoder stämma dåligt överens men skillnaderna i BMI mellan de olika individerna betyder mycket mer än skillnaderna i utfall av de olika testen.

Intra Class Correlation är en metod som har blivit populär på senare år. ICC mäter reliabilitet snarare än agreement. Ibland ser man att man med t-test jämför medelvärdet av resultaten mätta med det nya testet med medelvärdet för resultaten framtagna med vår gold standard Man hävdar då att ingen signifikant skillnad innebär att det nya testet är lika bra som vår gold standard. Detta är ett felaktigt sätt att utvärdera tester. Lär mer på vår sida om att välja statistiskt metod.

Referenser

{2262766:T9NZANUA};{2262766:T9NZANUA} vancouver default asc 0 5816