Att välja statistisk metod
Denna sida är uppdaterad 2010-05-08

(Titta gärna på vår engelska uppdaterade hemsida: Science-Network.TV "Choosing statistical analysis")

Du förstår den här sidan lättast om du först har läst:

I ett tidigt skede av projektet innan datainsamling bör du börja med att fråga dig vad vill du ha fram. På vad sätt vill du vara klokare efter projektet? Svaret på den frågan styr vilken design på projektet som är mest lämplig, vilka variabler som bör samlas in och hur dessa skall analyseras. Allt detta skrivs ner i projektplanen, alltså innan datainsamlingen görs. Planeringen av den statistiska analysen bör göras tidigt och beskrivas detaljerat i projektplanen innan datainsamlingen görs. Den här webbsidan beskriver mycket översiktligt hur väljer statistisk metod. Endast de vanligaste varianterna av studier tas upp här. I texten hittar du hänvisningar till andra sidor på denna webbplats som ger en utförligare beskrivning.

Innehållsförteckning

Statistikens fågelperspektiv

Experimentell undersökning / klinisk prövning

-

Parametriska eller icke parametriska test vid signifikansanalys?

-

Är grupperna jämförbara?

-

Signifikansanalys vid gruppjämförelse

-

Konfidensintervall vid gruppjämförelse

-

Effektstorlek vid gruppjämförelse
Icke experimentella undersökningar (= Observationsstudier = Observational studies)

-

Lite mer om analys av samvariation
Signifikansanalys eller sambandanalys?
Exempel

Statistikens fågelperspektiv

Statistik kan förenklat sägas bestå av beskrivande (=deskriptiv) statistik och analytisk statistik (Figur 1). 


Figur 1

I sort sett alla projekt med kvantitativ ansats (projekt som samlar in sifferdata) börjar med att presentera beskrivande statistik på något sätt. Ofta kan det vara deltagarnas medelålder och könsfördelning. Typiskt för den beskrivande statistiken är att beskriva det insamlade materialet med ett centralmått och ett spridningsmått för varje variabel. Efter att de insamlade data har beskrivits går man vidare med den analytiska statistiken. Sistnämnda väljs utifrån vilken design man har på sitt projekt. Nedan beskrivs hur man brukar resonera vid några vanliga typer av studiedesign.

Experimentell undersökning / klinisk prövning

En experimentell undersökning på människor kallas klinisk prövning. I sin vanligaste utformning har den två (eller flera) grupper av patienter som ges olika behandlingar. Målet är att jämföra dessa grupper och då dra slutsatser om vilken behandling som ger mest effekt. Först brukar man redovisa beskrivande statistik i en tabell med en kolumn som beskriver variablerna, en kolumn för varje grupp och eventuellt även en kolumn som beskriver p-värden för statistiskt signifikanta skillnader mellan grupperna. I denna tabell brukar man dels ha med en del demografiska bakgrundsvariabler, exempelvis kön och ålder, andra variabler som beskriver grupperna, exempelvis stadieindelning av cancer, samt de variabler som är effektmått (mäter resultatet av de olika behandlingarna) man vill jämföra mellan grupperna. För en kvalitativ variabel, exempelvis kön, skulle du redovisa den procentuella könsfördelningen, eventuellt med 95% konfidensintervall. Om variabeln var kvantitativ skulle du ange ett centralmått, till exempel medelvärde, och ett spridningsmått, vanligen standardavvikelse. Som nämnts ovan bör man efter en inledande beskrivande statistik göra någon form av analys med analytisk statistik. För att jämföra behandlingseffekt mellan grupperna använder man antingen signifikansanalys eller konfidensintervall.
     Den vanligaste utformningen av en klinisk prövning har två grupper som jämförs. När man jämför dessa grupper avseende utfallsmått kan man använda tre olika huvudspår; signifikansanalys (hypotesprövning), jämförelse av konfidensintervall och slutligen effektstorlek (effect size). Om man har bara två grupper har det med åren skett en glidning från att bara göra signifikansanalys över jämförelse av konfidensintervall mellan grupperna till att numera föredra att ange effektstorlek.

Parametriska eller icke parametriska test vid signifikansanalys?
Om du har bestämt dig för att göra signifikansanalys gör du ett statistiskt test som levererar ett siffervärde. Siffervärdet är ofta ett p-värde. Är variabeln kvantitativ eller kvalitativ? Om variabeln är kvantitativ är det bättre att använda ett parametriskt test om det går. Om dina variabler inte uppfyller villkoren för det parametriska test du har valt kan du nästan alltid använda motsvarande icke parametriska test (Figur 2). Det är viktigt att komma ihåg att alla statistiska test som används vid signifikansanalyser förutsätter att de individer som ingår i de olika grupperna är valda slumpmässigt och oberoende av varandra.


Figur 2

Parametriska test kallas de test som har vissa lite hårdare krav framför allt på hur mätvärdena skall vara fördelade. Det första och viktigaste kravet är att variablerna är kvantitativa. Dessutom kräver de att variabeln skall vara normalfördelad. Dessutom krävs om man jämför två eller fler grupper att variansen i de olika grupperna är ungefär lika stor.
    Om din variabel är kvantitativ bör du undersöka om dina mätvärden uppfyller villkoren för att få göra det parametriska testet. Fördelen med de parametriska testen är att de ofta är något känsligare än de icke parametriska testen när det gäller att upptäcka en statistisk skillnad mellan olika grupper. Om en kvantitativ variabel är snedfördelad kan man istället välja att göra motsvarande rangmetod (rangtester är exempel på icke parametriska test). Ofta är rangtester det bästa valet om antalet individer i ditt stickprov är litet. Ju mindre stickprov du har desto större chans att det inte är normalfördelat. Vid kvalitativa variabler skall du alltid använda icke parametriska test. Vid kvalitativa variabler är det ointressant om variabeln är normalfördelad eller ej.
    De icke parametriska testen har betydligt mindre krav. Det är aldrig direkt fel att använda ett icke parametriskt test även när ett parametriskt skulle kunna användas. Däremot kan det vara mindre lämpligt eftersom dessa test är något mindre känsliga än de parametriska testen.

Är grupperna jämförbara?
När man jämför två grupper i baseline (första mätningen innan behandling ges) är det nästan alltid så att deras världen är aldrig exakt likadana i alla variabler. Spelar det någon roll att de skiljer sig åt? Skall man kompensera för det? Låt oss diskutera detta med det enklaste (och vanligaste) exemplet, jämförelse mellan endast två omatchade grupper. Är det en experimentell studie finns oftast en randomisering till de olika grupperna. Randomiseringens huvuduppgift är att omvandla eventuella systematiska fel till slumpmässiga fel. Det är viktigt att randomiseringen fungerar bra annars går det inte att dra några slutsatser av studien. En korrekt randomisering bör ge grupper som initialt ser ungefär likadana ut. Detta är inget mål med randomiseringen men har den fungerat bör det bli så. Här finns nu tre olika åsikter.

  1. Om man har vet att man har gjort en korrekt randomisering är systematiska fel eliminerade och då spelar det ingen roll om grupperna skiljer sig åt i baseline. Man behöver inte göra någon för att närmare undersöka skillnader i baseline.
  2. Man tror att man gjort en korrekt randomisering som eliminerat systematiska fel. Om det inte är så måste hela studien betraktas som oanvändbar. Alltså borde man alltid undersöka om randomiseringen har fungerat som tänkt. Tyvärr finns inget sätt att direkt undersöka detta. Man kan indirekt göra en gissning genom att se om eventuella skillnader mellan grupperna i baseline ligger inom eller utanför slumpens felmarginal.
         De första slutsatser man vill dra är alltså ofta om en eventuell kontrollgrupp och en aktivt behandlad grupp är initialt jämförbara. Man tittar då exempelvis på om könsfördelningen i grupperna skiljer sig statistiskt signifikant åt, något som lämpligen görs med det statistiska testet chi-square. Därnäst tittar man på medelåldern i de båda grupperna. Ofta skiljer sig medelvärdet av åldern åt mellan grupperna, skillnaden är sannolikt liten om projektet är upplagt på rätt sätt med randomisering till de olika grupperna. Vi använder vanligen ett t-test för att avgöra om den lilla skillnad i medelålder vi har sett är så stor att den inte enbart kan förklaras av slumpen.
        Vi har nu dragit slutsatser om de båda grupperna är jämförbara och samtidigt har vi fått ett mått på graden av osäkerhet i vårt antagande att grupperna inte skiljer sig åt initialt utan är jämförbara. Om grupperna inte visar sig jämförbara finns det metoder där man i efterhand kan korrigera för olikheter mellan grupperna i exempelvis medelålder. Exempel på sådana metoder är Fisher´s eller Pitmans´s permutationstester med bakgrundsvariabler eller kovariansanalys.
        Statistiskt signifikanta skillnader mellan grupperna i baseline antyder indirekt att randomiseringen kanske inte har fungerat och det innebär att det kan finnas dolda systematiska fel. P-värden som ligger bara lite under 0,05 medför att man behöver korrigera gruppjämförelsen för den variabeln med något av ovan nämnda test. Om p-värdet ligger mycket långt under 0,05 talar detta för att det finns ett systematiskt fel som man inte kan kringgå med statistisk korrigering och detta är allvarligt. Var går gränsen för p-värdet när man inte längre bara kan korrigera för skillnader mellan grupperna i baseline utan bör misstänka att randomiseringen inte fungerat och därmed måste förkasta hela studien? Här finns ingen skarp gräns utan det är en kontinuerlig gråskala där man kan säga att ju lägre p-värde (ju större baseline skillnader mellan grupperna) desto större anledning att anse resultaten i studien som osäkra och oanvändbara.
  3. Om man vet att man gjort en korrekt randomisering är det ointressant om eventuella skillnader i baseline mellan grupperna ligger inom eller utanför slumpens felmarginal. Man bör alltid kompensera för dessa skillnader för att se om de har någon betydelse för den slutliga tolkningen.

Signifikansanalys vid gruppjämförelse
När man skall välja signifikansanalys för att svara på forskningsfrågan om vilken behandling som påverkar utfallsmåttet mest utgår man från några frågor:

  1. Är detta ett enfaktor eller flerfaktorförsök? (De allra flesta studier där man gör en signifikansanalys är enfaktorförsök).
  2. Är det en grupp som skall jämföras mot ett fixt värde (en fix andel eller ett fixt värde, exempelvis 0), eller är det två grupper som skall jämföras med varandra, eller är det mer än två grupper som samtidigt skall jämföras? (Jämförelse mot fixa andelar/värden kan användas i pilotprojekt där man vill jämföra ett funnet värde med ett förväntad värde i samma material. Ej samma bevisvärde som en randomiserad studie med två eller flera grupper.)
  3. Om det är två eller fler grupper som skall jämföras med varandra är de matchade eller omatchade?
  4. Vilken typ av variabel är iblandad i jämförelsen? Mäts den med nominalskala, ordinalskala eller intervall / kvotskala?
  5. Om variabeln mäts med nominalskala är den dikotom (kan bara anta två värden) eller kan variabeln anta mer än två värden?

När man besvarat dessa frågor går man in i en tabell som vägleder dig till den metod du skall använda. Du kan läsa mer om detta på sidan om signifikansanalys.

Konfidensintervall vid gruppjämförelse
Om man har ett enfaktorförsök med omatchade grupper är signifikansanalys och konfidensintervall lite olika sidor av samma mynt. Signifikanstestning för att jämföra två omatchade grupper med 5% signifikansnivå ger samma resultat som att se om 95% konfidensintervall för de två gruppernas medelvärde överlappar varandra eller ej. Om de inte överlappar varandra är samtidigt p-värdet vid signifikanstest <0,05. Man kan alltså i vissa situationer välja mellan dessa olika sidor av myntet. Om man skall jämföra flera olika grupper med varandra kan man med konfidensintervall ofta få lättförståeliga översiktsdiagram (se exemplet med att jämföra olika vårdgivare).

Effektstorlek vid gruppjämförelse
Effectstorlek (effect size) anses numera viktigt att räkna fram när man redovisar resultatet av en randomiserad kontrollerad studie.

Icke experimentella undersökningar
(= Observationsstudier = Observational studies)

Här har vi i princip en enda grupp där vi vill se vilka samband som finns mellan olika variabler. Det finns två huvudvarianter. Den ena är att vi intresserar oss för hur variabler samvarierar och det andra hur de är lika. Sistnämnda är typiskt när vi vill utvärdera olika tester eller enkäter. Vi brukar, precis som vid gruppjämförelser, först presentera beskrivande statistik som beskriver hur vår enda grupp ser ut. Därefter gör vi analyser för att få svar på våra forskningsfrågor. Här skiljer sig det åt lite grand beroende på om vi vill göra analys av samvariation eller likhet. Som vid gruppjämförelse börjar vi med att besvara några frågor:

  1. Är detta en undersökning som handlar om samvariation eller att visa grad av likhet?
  2. Vilka typer av variabler är iblandad i jämförelsen? Mäts de med nominalskala, ordinalskala eller intervall / kvotskala?
  3. Om variabeln mäts med nominalskala är den dikotom (kan bara anta två värden) eller kan variabeln anta mer än två värden?

När man besvarat dessa frågor går man in i en tabell som vägleder dig till den metod du skall använda. Du kan läsa mer om detta på sidan om sambandanalys.

Lite mer om analys av samvariation
Här bör vi börja titta på de data vi vill analysera med scatterdiagram för att se om det tycks finnas icke linjära samband som kräver speciella analysmetoder. I statistikprogram som exempelvis SPSS finns även funktioner för att se om samband är linjära eller mer komplexa. Oftast är eventuella samband (inom det studerade intervallet) linjära. Vidare analyser sker sedan oftast med någon form av korrelation / regression. Läs mer om detta på sidan om korrelation / regression.

Signifikansanalys eller sambandanalys?

I figur 1 ovan delas den analytiska statistiken in i gruppjämförelser och sambandsanalyser. En variant av gruppjämförelse är signifikansanalys och en variant av sambandanalys är analys av samvariation. Man kan visa att signifikansanalyser ofta är ett specialfall av analys av samvariation. Låt oss anta att vi vill jämföra två grupper som i en klinisk prövning randomiserats till två olika behandlingar. Vi kan jämföra vårt resultatmått mellan grupperna med exempelvis t-test. Vi kan också göra en enkel linjär regressionanalys där vi låter vårt resultatmått vara den beroende variabeln (y) och gruppindelningen blir den enda oberoende variabeln (x). I sistnämnda analysen får man ett p-värde på regressionskoefficienten för den oberoende variabeln x (gruppindelningen) och det blir faktiskt samma p-värde som vid t-testet (en eventuell skillnaden är försumbar).
    Det intressanta är att vi i regressionsmodellen kan lägga till ytterligare en oberoende variabel (ytterligare ett x), exempelvis ålder, om det skulle visa sig att de båda grupperna skiljer sig åt i baseline avseende ålder. Vi får då ett nytt p-värde på regressionkoefficienten för den första oberoende variabeln (gruppindelning) men nu justerat för ålder. Om flera variabler skiljer sig åt i baseline kan man lägga till dem som oberoende variabler. Detta kallas kovariansanalys och innebär att en av de oberoende variablerna (i vårt fall variabeln för grupptillhörighet) är en klassvariabel. Kovariansanalys är ett vanligt sätt att vid interventionsstudier justera för eventuella skillnader i baseline.

Exempel

Nordeman L, Nilsson B, Moller M, Gunnarsson R. Early access to physical therapy treatment for subacute low back pain in primary health care: a prospective randomized clinical trial. Clin J Pain. 2006 22:505-11.
[Denna artikel är dels ett exempel på hur man i en tabell beskriver skillnader i baselinevärden mellan två omatchade grupper. Vidare beskrivs hur man med kovariansanalys justerar för en skillnad mellan grupperna i baseline.]
(Fler exempel kommer att dyka upp)

 


Denna webbsida är författad av
Doc. Ronny Gunnarsson
Distriktsläkare/Familjeläkare

Läs om regler för ansvar och copyright som gäller för denna webbsida.