Flernivåmodeller
Denna sida är uppdaterad 2008-01-21
För att bäst förstå den här sidan bör du först ha läst:
Korrelation och regression
Beskriver på ett enkelt sätt vad korrelations och
regressionsanalys är. Varianter av dessa analyser är vanligast när man
analyserar data i flera nivåer.
Variabler
Beskriver skillnad mellan olika variabler och mätskalor.
Anta som exempel att vi samlat in uppgift om body mass index (BMI) från många skolelever. Samtidigt har vi frågat eleverna om de äter skollunch i skolans matsal eller ej. Anta vidare att vi mätt och frågat eleverna klassvis, det vill säga i vissa klasser är alla elever undersökta medan i andra är inga undersökta. Vi antar vidare att vi undersökt tre klasser i tre olika skolor. Om vi hittar ett samband mellan övervikt och huruvida de äter i skolmatsalen eller ej vad beror det på? Är det ett allmänt samband i alla skolor eller finns det någon speciell skolfaktor som gör att vi hittar ett samband som egentligen bara är ett uttryck för skillnader mellan olika skolor?
Individerna kan nås i olika undersökningar genom att de varit
på olika skolor, vårdcentraler, sjukhus etc. Förklaras resultaten av att
variablerna har samband på individnivå eller av skillnader mellan skolor,
vårdcentraler och sjukhus? Man kan tänka sig flera nivåer där upprepade
mätningar på individen är
lägsta nivån, individen själv nästa nivå, vårdenheter är tredje nivån och vårdområden eller landsting
fjärde
nivån. Kan man analysera data på individnivå och
samtidigt ta hänsyn till (justera för) eventuella effekter beroende på
skillnader mellan enheter och områden/landsting?
I olika forskningsstudier är det vanligt att individer samlas in från flera
olika centra. Detta kallas för klusterurval (se sidan om
urvalsstrategier). Spelar det någon roll om individerna samlas in från ett
enda eller flera olika centra? Om det kan tänkas spela roll hur tar man hänsyn
till det vid analys av insamlade data? Låt oss diskutera kring några exempel för
att göra det mer begripligt.
Tänkbara sätt att ta hänsyn till flernivåmodeller
Det finns olika statistiska knep att ta till när data föreligger i flera
nivåer. Även om det finns mycket avancerade matematiska modeller för att analysera
flernivåmodeller anses det att man kan komma hyfsat långt med "vanliga"
statistiska metoder. Några av de vanligaste "knepen" är:
Statistisk metod | Beskrivning | Referens | Nackdel |
"Ingen" | Man räknar på data i lägsta nivån som om det vore ett obundet slumpmässigt urval (fast det inte är det). Ingen hänsyn tas till att data är grupperade. | Om det finns en variation mellan olika högre nivåer (exempelvis skillnad mellan skolor) som man inte tar hänsyn till kan detta antingen göra att man ser statistiska samband som egentligen inte finns eller tvärtom att man missar samband som finns. Bör undvikas. | |
Aggregring av lägsta nivån (Aggregate analysis) | Den lägsta nivån (nivå 1) omvandlas till ett index. Ofta handlar det om att för varje patient / individ / enhet (nivå 2) räkna ut ett medelvärde. Detta index/genomsnittsvärde blir individens/enhetens värde. Exempelvis kan flera blodtryck vara tagna på en och samma patient. Man räknar då ut ett medelblodtryck som blir individens värde. | (Bland 1994) | Om en individ/enhet i nivå 2 har få ingående mätningar blir bidraget från en extra mätning stort. Detta kan öka den slumpmässiga variationen, något som kan minska chansen att hitta ett samband som finns. Denna felkälla kan i viss mån justeras bort antingen genom att man viktar data så att indexvärden som baserar sig på få data väger lättare än indexvärden baserade på många data eller genom att index baserade på få data justeras närmare medelindex för alla individerna/enheterna (Rice 1996). Vissa dataprogram (bland annat Epi Info) kan kompensera för detta genom att vikta varje individ/enhet (individer/enheter med få mätningar väger mindre än de med många mätningar). |
Kovariansanalys (Analysis of covariance) | Kovariansanalys är en variant av multipel linjär regression där en eller flera av de oberoende
variablerna är en dummy variabel (klassvariabel som mäts med
nominalskala). Vill man jämföra tre skolor finns två
möjligheter: a) Man skapar tre dummy variabler som representerar vardera skolor. Dessa sätt till 1 om eleven gick på den skolan, annars sätt värdet till 0. b) Utse en av vårdcentralerna till referensskola. Man skapar sedan två dummyvariabler för de andra skolorna som sätts till 0 eller 1. Regressionsanalysen ger betydelsen av de olika dummyvariablerna (klassvariablerna) och därmed betydelsen av varje skola avseende den resultatvariabel man använde. Enskilda skolor eller kliniker kan utvärderas. |
(Bland 1995a, Bland 1995b) |
Ger endast svar på betydelsen av de undersökta skolorna. Ger ingen allmän skattning av nivån skolor. Svårt att tolka om antalet grupper inom de högre nivåerna är många (Rice 1996). Skillnader mellan klasser eller skolor tenderar att felaktigt övervärderas (Rice 1996). |
Aggregerad flernivåanalys inom ramen för multipel linjär regression (Aggregate level analysis) | I aggregering av lägsta nivån (se ovan) tog man fram ett index för den lägsta nivån. Vid aggregerad flernivåanalys tar man fram ett annat indexvärde för varje högre nivå (man kan kombinera dessa förfaranden). I exemplet ovan skulle det innebära att den beroende variabeln är BMI. Oberoende variabler kan vara kön, ålder, var de äter sin måltid (görs som en binär variabel). Dessutom lägger man till en oberoende variabel som är klassens medel-BMI och en annan variabel som är skolans medel-BMI. Denna metod kan användas om flera nivåer är en felkälla man vill justera bort. Den kan också användas om man vill få ett allmänt mått på skolfaktorn. Om man däremot direkt vill jämföra olika nivåer-kliniker-skolor ger inte denna metod svar. | (Rice 1996) | Ger ett mått på betydelsen av en nivå (exempelvis skolor) men ger ingen möjlighet att jämföra på den nivån (man får inte svar på fråga hur enskilda skolor är vid jämförelse med varandra) |
"Avancerade flernivåmodeller" | Värderar betydelsen av varje nivå på ett mer korrekt sätt. Kräver dock speciell programvara. Inte alla statistikprogram klarar detta. | (Rice 1996) | Kräver i regel statistiker för att göras. |
Speciella statistiska program har konstruerats för att hantera avancerade flernivåmodeller. Skillnaden mellan att inte alls ta hänsyn till flernivåmodellen vid statistisk analys och att använda den aggregerade flernivåanalys som beskrivs ovan är mycket större än skillnaden mellan den aggregerade flernivåanalysen och avancerade flernivåmodeller.
Studiedesign
Empirisk-holistiska
studier (kvantitativa studier = studier som använder någon form av statistik) kan
grovt indelas i två huvudgrupper, epidemiologiska studier
och experimentella studier. I sammanhanget flernivåmodeller är det praktiskt
att i epidemiologiska studier särskilja två moment, presentation av rent
beskrivande (deskriptiv) karaktär samt en fördjupas analys av samband mellan
olika variabler (sambandsanalys). När vi nedan diskuterar exempel skall vi utgå
från dessa tre situationer; epidemiologisk studie med presentation av
deskriptiva data, epidemiologisk studie med sambandsanalys och slutligen
experimentell studie.
Flernivåanalys vid epidemiologisk studie med presentation av deskriptiva
data
I sin enklaste form har vi här bara två nivåer. Exempelvis kanske vi vill
beskriva dödligheten på hjärtavdelningarna på områdets tre sjukhus. Här skall vi
låta varje klinik ange sin dödlighet viktad med klinikens storlek. Viktningen
görs i det här exemplet genom att låta andelen patienter från varje klinik vara
viktningen. Om vi antar att vi har tre hjärtkliniker i området med dödligheten
första tre vårddygnen (mätt senaste kalenderåret) är 5%, 3% respektive 6% och
antalet patienter de haft senaste året är 1500, 2100 respektive 660 blir
områdets sammantagna dödlighet på hjärtavdelningarna:
5%*(1500/4260) + 3%*(2100/4260) + 6%*(660/4260) =
5%*0,352 + 3%*0,493 + 6%*0,155 = 1,76 + 1,48 + 0,93 = 4,2% (avrundas till en
decimal)
När vi, som i detta exempel, bara vill presentera en sammanvägd siffra utan närmare analys och har en enklare flernivåmodell med bara två nivåer (patienter och kliniker) kan vi använda det som skallas standardpopulationsmetoden. Har vi fler nivåer får vi använda en mer avancerad modell. Exemplet med dödlighet på hjärtavdelningar syftar bara till att ta fram en total dödlighet för alla kliniker. Att jämföra dödligheten mellan klinikerna för att sedan rangordna klinikerna är ett specialfall av flernivåmodeller som beskrivs på webbsidan Att jämföra vårdgivare, kliniker, sjukhus e.t.c.
Flernivåanalys vid epidemiologisk studie med sambandsanalys
Nedan beskrivs tre exempel där vi valt att använda en aggregerad flernivåanalys inom ramen för multipel
linjär regression.
Låt oss återvända till vårt inledande exempel om skolelever.
Vår fråga är alltså om lunchintag i skolmatsalen eller ej har samband med
övervikt. Vi antar att vi samlat in uppgift om body mass index (BMI) från många skolelever.
Samtidigt har vi frågat eleverna om de äter skollunch i skolans matsal eller ej.
Vi har även frågat om kön och ålder. Anta vidare att vi mätt och frågat eleverna klassvis, det vill säga i vissa
klasser är alla elever undersökta medan i andra är inga undersökta. Vi antar
vidare att vi undersökt fem klasser i tre olika skolor. Om vi hittar ett samband
mellan övervikt och huruvida de äter i skolmatsalen eller ej vad beror det på?
Är det ett allmänt samband i alla skolor eller finns det någon speciell
skolfaktor som gör att vi hittar ett samband som egentligen bara är ett uttryck
för skillnader mellan olika skolor? Här är skolbarn nivå1, skolklasser nivå 2
och skolor nivå 3. Vill man trassla till det ännu mer kan man tala om
rektorsområden (vardera innehållande flera skolor) som nivå 4. Här skulle det
passa att använda en multipel linjär regression.
Vi låter då BMI vara den beroende variabeln. Kön, ålder, en variabel för
klasseffekt och en variabel för skoleffekt blir oberoende variabler. Variabeln
för klasseffekt blir då klassens medel-BMI och variabeln för skoleffekt blir
skolans medel-BMI. Låt oss kalla variabeln BMI för BMI, variabeln ålder
för age, variabeln kön för sex, variabeln för om de äter i skolmatsalen eller ej
för matsal, variabeln för klasseffekt klass och slutligen variabeln för
skoleffekt skola. För att göra analysen skriver man i statistikprogrammet ett
kommando. I statistikprogrammet Epi Info skriver
man:
REGRESS BMI = age (sex) (matsal) klass skola
Orsaken till att variablerna sex och matsal har parantes runt om sig är att vi vill behandla dessa som dummyvariabler (klassvariabler), d.v.s som nominaldata och inte som egentliga siffror. Sex kan kodas som m för man och k för kvinna. Matsal kan kodas som m för matsal och a för om de äter lunch på annan plats. När datorn gör regress-kommandot levererar den ett svar som anger hur mycket variabeln matsal samvarierar med BMI om vi samtidigt tar hänsyn till kön, ålder och eventuell effekt av klasser och skolor. Som en bieffekt får vi även besked om hur mycket de andra oberoende variablerna (kön, ålder, klasser och skolor) samvarierar med BMI.
Flernivåanalys vid experimentell studie
Vi vill se om ett nytt sätt att ge distriktsläkare information om läkemedel påverkar läkarnas förskrivningsmönster
mer än konventionell information. Det vi vill göra är alltså en randomiserad
kontrollerad studie där en ny intervention jämförs med en kontrollgrupp. Några
informatörer i varje primärvårdsområde informerar alla läkare i området. Av
praktiska skäl kan vi alltså inte randomisera enskilda läkare utan
randomiseringen får ske områdesvis. Primärvårdsområden / informatörer slumpas till att få
endera informationen. Vi undersöker läkarnas förskrivning under en period före
respektive efter interventionen. Vi har här en flernivåmodell där
receptförskrivningar är nivå 1, läkare nivå 2, vårdcentraler nivå 3 och
primärvårdsområden nivå 4. Eftersom vårt intresse fokuseras på läkarnas beteende
väljer vi att göra vår analys på den nivån.
Förskrivningsmönstret före respektive efter
interventionen kartläggs för varje läkare med någon form av nyckeltal. Det kan exempelvis handla
om förskrivning av några billiga preparat jämfört med likvärdiga dyra preparat.
Vårt nyckeltal kan bli billiga läkemedels andel av totala antalet läkemedel.
Nyckeltalet ligger då någonstans mellan 0-1. Förändring i nyckeltal blir
effektmåttet och vi kallar denna variabel lakare. Om antalet förskrivningar
skiljer sig mycket åt mellan läkarna behöver vi kompensera för detta (Bland
1995b).
Eftersom vi förväntar oss att antalet recept mellan olika läkare skiljer
sig åt ganska mycket skapar vi även en
variabel som anger antalet förskrivningstillfällen som varje läkares förändrade
nyckeltal (indexvärde) baseras på. Vi kan kalla denna variabel viktning.
Medelindex (medelförändring av nyckeltal) för alla läkare på en vårdcentral blir
vårdcentralens medelindex. Vi kallar den variabeln vc. På motsvarande sätt
räknas ett
medelindex för primärvårdsområdet fram, vi kallar den variabeln omrade. Vi gör sedan en multipel
linjär regression med läkares index som beroende variabel och
oberoende variabler blir grupp, en dummyvariabel (klassvariabel) för behandlingsform, ålder hos
läkaren (kallas lak_age), kön hos
läkaren (vi kallar den variabeln lak_sex), vårdcentralsindex och primärvårdsområdesindex.
I statistikprogrammet Epi Info skriver man då:
REGRESS lakare = lak_age (lak_sex) (grupp) vc omrade WEIGHTVAR = viktning
Vi får då besked om hur grupptillhörighet (interventionsgrupp eller kontrollgrupp) samvarierar med förändring i förskrivningsmönster om vi samtidigt tar hänsyn till läkarens ålder, kön och det faktum att data är insamlat i flera nivåer samt att data viktas för hur mycket information varje läkare bidrar med .
Vi tänker oss ett annat exempel. Antag att vi vill jämföra två olika kariesförebyggande behandlingar bland skolbarn. Ett nyutvecklat koncept jämförs med konventionellt omhändertagande. Konceptet tillämpas gruppvis varför enskilda barn inte kan randomiseras utan det blir klasser som randomiseras. Det här exemplet liknar ovanstående exempel där vi ville jämföra två olika metoder för att informera läkare. I exemplet med kariesprofylax har vi en flernivåmodell där antalet kariesangrepp i tänder under en viss tid är nivå 1, skolbarn nivå 2, skolklassen nivå 3 och skolor nivå 4. Om man anser det nödvändigt kan man även bygga på med rektorsområden eller kommuner som nivå 5. Även i detta exempel kan det vara lämpligt att göra vår analys på nivån skolbarn. Vi skapar då ett kariesindex för varje skolbarn, vi kan kalla det skolbarn. Vi skapar sedan ett medelindex för skolklassen (kallas klass) och för skolan (kallas skola). Den typ av kariesförebyggande behandling de får anges i variabeln grupp. I statistikprogrammet Epi Info skriver man då:
REGRESS skolbarn = age (sex) (grupp) klass skola
Vi får då besked om hur grupptillhörighet (interventionsgrupp eller kontrollgrupp) samvarierar med kariesindex om vi samtidigt tar hänsyn till elevens ålder, kön och det faktum att data är insamlat i flera nivåer.
Låt oss diskutera ett tredje exempel. Ungdomar med självskadande beteende är ofta svåra att påverka. Vi vill undersöka om en ny intervention i form av gruppsamtal minskar det självskadande beteendet och ökar livskvaliteten. Ungdomar med självskadande beteende identifieras och tillfrågas om de vill delta. Alla får en liten informationsbroschyr och en enkät om livskvalitet. Interventionsgruppen får dessutom gruppsamtal. Efter ett tag får alla en ny enkät där man frågar efter självskadande beteende samt ber dem besvara frågor om livskvalitet. Vi har här en flernivåmodell där ungdomar är nivå 1, skolklassen nivå 2, skolor nivå 3. Om man anser det nödvändigt kan man även bygga på med rektorsområden eller kommuner som nivå 4. Vi gör på liknande sätt som i föregående exempel. I statistikprogrammet Epi Info skriver man då exempelvis:
REGRESS ungdom = age (sex) (grupp) klass skola kommun
Vi får då besked om hur grupptillhörighet (interventionsgrupp eller kontrollgrupp) samvarierar med självskadande beteende (eller livskvalitet) om vi samtidigt tar hänsyn till ungdomens ålder, kön och det faktum att data är insamlat i flera nivåer.
Flernivåmodeller en plåga eller tillgång?
Varför har vi egentligen data som kan arrangeras i flera nivåer? Hur hamnade
vi i den här situationen? Det finns två olika skäl:
Låt oss dock diskutera ovan nämnda exempel om att påverka läkares förskrivningsmönster. Här finns två alternativa förhållningssätt. Den ena är att vi faktiskt är intresserade av att veta vilken effekt vårdcentralsfaktorn, områdesfaktorn, läkarens kön eller ålder har på förändring i förskrivningsmönster. I sådant fall bör vi använda modellen så som den beskrevs ovan, nämligen:
REGRESS lakare = lak_age (lak_sex) (grupp) vc omrade WEIGHTVAR = viktning
Det andra förhållningssättet är att vi inte är intresserade av vilken effekt vårdcentralsfaktorn, områdesfaktorn, läkarens kön eller ålder har på förändring i förskrivningsmönster. Här vill vi bara veta gruppvariabelns (interventionens) effekt på förskrivningsmönster och enda skälet att ha med de andra variablerna är för att justera för dessa "covariater". Det enda egentliga sambandet som intresserar oss är mellan "lakare" och "grupp". I det läget kan man låta variabeln grupp och variabeln lakare byta plats. Vi får då:
LOGISTIC grupp = lak_age (lak_sex) lakare vc omrade WEIGHTVAR = viktning
Eftersom den beroende variabeln här är dikotom gör vi en logistisk regression (härav kommandot LOGISTIC istället för REGRESS). Det finns en fördel med detta förfarande, nämligen att den statistiska modellen blir mindre känslig för om data är snedfördelade (mer information om detta finns på sidan om en logistisk regression).
Avancerade flernivåmodeller
(Detta stycke är under konstruktion.) Läs:
Referenser
Bland JM, Altman DG. Correlation, regression, and repeated data. BMJ 1994;308(6933):896. | |
Bland JM, Altman DG. Calculating correlation coefficients with repeated observations: Part 1--Correlation within subjects. BMJ 1995;310(6977):446. | |
Bland JM, Altman DG. Calculating correlation coefficients with repeated observations: Part 2--Correlation between subjects. BMJ 1995;310(6980):633. | |
Rice N, Leyland A. Multilevel models: applications to health data. Journal of Health Services Research and Policy 1996;1(3):154-64. | |
David Rogosa and Hilary Saner (1995), "Longitudinal Data Analysis Examples with Random Coefficient Models," Journal of Educational and Behavioral Statistics, 20, 149-170) |
Denna webbsida är författad av
Doc. Ronny Gunnarsson
Distriktsläkare/Familjeläkare
Läs om regler för ansvar och copyright som gäller för denna webbsida.