(antal aktiva besökare uppdateras automatiskt var 4:e minut)
Citera denna sida som:
-
Vanlig linjär regression
-
Först publiserad:
på:
Senast uppdaterad:
Om du vill informera om att denna webbsida finns...
Att läsa denna sida ger dig en förståelse för vad vanlig (klassisk) linjär regression är och hur man gör analysen i statistikprogrammet SPSS (det görs på liknande sätt i andra statistikprogram).
Du förstår denna webbsida bäst om du först har läst sidorna Samvariation och Korrelation och regression.
Linjär regression innebär att utifrån observationer ta fram den räta linjens ekvation som bäst beskriver observationerna. Det finns många olika sorters linjära regressionsmodeller som alla använder den räta linjens ekvation (viktigt att titta på föregående länk innan du läser vidare).
I linjär regression, där den beroende variabeln mäts med intervall- eller kvotskalan, kallas det på svenska för “vanlig linjär regression” (=klassisk linjär regression) och på engelska för “standard linear regression”. Denna webbsida handlar enbart om “vanlig linjär regression”.
Olika sorters vanlig linjär regression
Det finns olika sorters “vanlig linjär regression”. Det kallas också ofta bara “linjär regression” och på engelska “standard linear regression” eller förkortat “linear regression”. Vanlig linjär regression kommer i några olika varianter:
| En beroende (Y) och en oberoende (X) variabel | Mer än en oberoende variabel (flera X) | Mer än en beroende variabel (flera Y) | Mer än en beroende variabel samt dessutom mer än en oberoende variabel (flera Y och flera X) | |
|---|---|---|---|---|
| Svenska benämningar | Enkel vanlig regression = Enkel linjär regression | Multivariabel (vanlig) linjär regression = Multipel linjär regression = Justerad linjär regression | Multivariat (vanlig) linjär regression | Multivariat (vanlig) linjär regression* |
| Engelska benämningar | Simple regression = Simple standard linear regression = Unadjusted standard linear regression (= Bivariate standard linear regression) | Multivariable (standard) linear regression = Multiple (standard) linear regression = Adjusted (standard) linear regression | Multivariate (standard) linear regression | Multivariate (standard) linear regression* |
- I konsekvensens namn borde detta kallas “Multivariat multipel (vanlig) linjär regression” men i praktiken utelämnar man “multivariabel” när man har med “multivariat”.
Den bakomliggande matematiken vid linjär regression förklaras enkelt och översiktligt på en annan webbsida. Det är viktigt att du har satt dig in i detta innan du läser vidare.
Enkel eller multipel linjär regression
En “enkel vanlig linjär regression” har bara en beroende variabel (Y) och en oberoende variabel (x). Det är alltså räta linjens ekvation och den kan matematiskt beskrivas på olika sätt (som alla betyder samma sak):
Y = a + bx
Y = b0 + b1x
Y = b + mx
Y = kx + m
Titta på denna video av “Mattecentrum” som introducerar tanken bakom “enkel linjär regression”:
Ibland kan inte variationer i den beroende variabeln (y) beskrivas på ett bra sätt med variation i enbart en enda oberoende variabel (ett x). Då kan det vara lämpligt att titta på en multipel linjär regression som innehåller flera oberoende variabler (flera x). Den kan matematiskt beskrivas som:
Y = a + b1x1 + b2x2 + b3x3 + … …bnxn
I formeln ovan har vi ett intercept (a) och flera regressionskoefficienter (flera olika b). Den enkla linjära regressionen kan enkelt åskådliggöras med ett scatterdiagram (figur 1 på sidan om korrelation och regression). En multipel linjär regression med två oberoende variabler kan åskådliggöras med ett tredimensionellt (svårförståeligt) scatterdiagram. Regressioner med tre eller fler oberoende variabler kan inte åskådliggöras i diagramform.
Hur gör man i praktiken?
Förutsättningar som dina observationer måste uppfylla
- Krav på själva variablerna (Datatyp):
Den beroende variabeln (y): Måste vara kontinuerlig (numerisk). Det betyder att den ska kunna mätas på en skala, till exempel blodtryck, inkomst, ålder eller vikt. Om ditt utfall är en kategori (t.ex. “Sjuk” eller “Frisk”) kan du inte använda linjär regression, utan måste byta till logistisk regression.
De oberoende variablerna (x): Får vara antingen kontinuerliga (t.ex. BMI) eller kategoriska (t.ex. kön, rökare/icke-rökare). Om de är kategoriska kodas de om till så kallade “dummy-variabler” (ofta 0 och 1) i statistikprogrammet. - Statistiska antaganden:
När variablerna är av rätt typ måste modellen uppfylla fyra matematiska krav. Inom statistiken brukar man komma ihåg dessa via den engelska förkortningen LINE:
L – Linjäritet (Linearity): Det måste finnas ett linjärt (rak-linjigt) samband mellan dina x-variabler och din y-variabel. Om sambandet egentligen ser ut som en U-kurva (t.ex. att stress är bra upp till en viss nivå, men sedan blir farligt) kommer en rak linje att missa sanningen helt. Detta kontrolleras enklast genom att titta på ett spridningsdiagram (scatter plot).
I – Independence (Oberoende observationer): Alla observationer / individer måste vara oberoende av varandra. Det betyder att en individs mätvärde inte får påverka en annans. Om du till exempel har mätt blodtrycket på samma patienter tre dagar i rad, är observationerna beroende. Då bryter du mot detta krav och måste använda andra metoder (t.ex. mixed-effects models).
N – Normalfördelade residualer (Normality): Här finns en av de vanligaste missuppfattningarna inom statistik: många tror att själva x- och y-variablerna måste vara normalfördelade. Det är fel. Vid vanlig linjär regression är det i stället viktigt att residualerna, alltså felen runt regressionslinjen, är ungefär symmetriska och inte innehåller alltför många extrema avvikelser. Det innebär att punkterna i genomsnitt bör ligga ungefär lika mycket ovanför som under linjen. Detta är särskilt viktigt om man har ett litet antal observationer och vill använda vanliga statistiska tester och konfidensintervall.
E – Equal variance (Homoskedasticitet): Detta är ett krångligt ord för ett enkelt koncept: Spridningen kring regressionslinjen ska vara ungefär lika stor längs hela linjen. Om datapunktarna ligger tätt intill linjen vid låga värden, men sprider ut sig som en stor tratt vid höga värden (så kallad heteroskedasticitet), så litar modellen för mycket på vissa datapunkter och för lite på andra.
Om du har fler än en x-variabel i din modell tillkommer ett viktigt krav till: Avsaknad av multikollinearitet: Dina oberoende variabler (x) får inte korrelera för starkt med varandra. Om du till exempel försöker förutsäga en persons lön och har med både “Antal år i yrket” och “Ålder” som x-variabler, kommer dessa två vara så lika varandra att modellen blir förvirrad över vilken av dem som faktiskt gör jobbet. I ett sådant fall välj bort den ena av de två oberoende variabler som korrelerar starkt med varandra. Du kan läsa mer om detta längre ner.
Om observationerna inte är linjära eller residualerna inte är normalfördelade kan man ofta lösa det genom att transformera variablerna (t.ex. logaritmera y-variabeln). Är datan väldigt skev kan man ibland behöva byta till icke-parametriska tester, dvs ett annat test än vanlig linjär regression.
Förberedelser
- Datarensning: Gör en frekvensanalys för varje variabel, var för sig. Du kommer sannolikt att hitta några överraskningar, såsom ett fåtal individer med ett tredje eller fjärde kön, en person med orimlig ålder, en person med kroppsvikt 2kg eller mer bortfall än förväntat. Gå tillbaka till källan och korrigera alla uppenbara fel. Om du inte har tillgång till källan så ändra uppenbara fel till bortfall. Kontrollera alla berörda variabler efter korrigeringen genom att göra en ny frekvensanalys. Detta måste göras noggrant innan du fortsätter.
- Undersök spår av potentiell bias (snedvridning): Titta på andelen bortfall (missing data) för varje variabel. Det förekommer nästan alltid visst bortfall. Är bortfallet stort i vissa variabler? Har du en rimlig förklaring till varför? Kan det vara ett tecken på att det finns en inbyggd bias (systematiskt fel i urvalet av observationer/individer) i din studie som kan påverka utfallet?
- Kontrollera om förutsättningar är uppfyllda: Kontrollera om förutsättningarna för vanlig linjär regression (se ovan) är uppfyllda.
- Behöver några variabler transformeras?: Ibland uppfyller inte observationerna de villkor som anges ovan. Om observationerna inte är linjära eller residualerna inte är normalfördelade kan man ofta lösa det genom att transformera variablerna (t.ex. logaritmera y-variabeln). Ibland kan det vara relevant att transformera en variabel även om den uppfyller alla villkor ovan. Exempel kan vara att transfromera kronor i inkomst till tusental eller tiotusental kronor (se första videoexemplet nedan).
- Välj strategi: Gör en enkel (ojusterad) linjär regression om du bara har en oberoende variabel (bara ett x). Om du däremot har flera oberoende variabler (flera x) behöver du välja en strategi för hur dessa ska inkluderas i analysen. Det finns några olika sätt att göra detta på. Det första tillvägagångssättet (5a nedan) är det bästa. Det är dock inte alltid genomförbart, så du kan behöva använda en annan strategi.
- Bygga en multivariabel model – från förutbestämd teori: Bestäm dig för att använda en fastställd kombination av oberoende variabler baserat på logiska resonemang/teorier (expertråd). Antalet oberoende variabler bör inte vara för stort, helst färre än 10. Detta är den föredragna metoden om du har en rimligt god teori om hur variablerna hänger ihop.
- Inkludera allt – utan en förutbestämd teori: Gör en multipel linjär regression med alla tillgängliga oberoende variabler utan att ha någon teori om huruvida dessa variabler är meningsfulla. Detta kan fungera om du bara har ett fåtal variabler. Om du har många variabler kommer det sannolikt att resultera i en slutmodell som innehåller många oanvändbara variabler som mest utgör “brus”. Undvik att göra detta.
- Fishing expedition: Om du har många oberoende variabler och ingen teori om vilka som är användbara, kan du låta datorn föreslå vilka variabler som är relevanta att inkludera. Detta brukar kallas för att göra en “fisketur” (fishing expedition). Du kan läsa mer om detta nedan.
Bygga en multivariabel model – från förutbestämd teori
Att bygga en linjär regressionsmodell där du själv, snarare än ett datorprogram, avgör vad som ska inkluderas är den metod som förordas. Det är 5a i listan ovan. Videon nedan inspelat av Olov Aronson beskriver hur man bygger en sådan modell i SPSS, i enlighet med punkt 5a ovan (videon visar inte alla steg i listan ovan):
Bygga en multivariabel model – fishing expedition
Om du har många oberoende variabler och ingen teori om vilka som är användbara, kan du låta datorn föreslå vilka variabler som är relevanta att inkludera. Detta brukar kallas för “en fisketur” (fishing expedition). De olika metoder du kan be datorn använda i en fishing expedition är:
- All possible regressions (alla tänkbara regressionsmodeller): Här ber du datorn göra en regressionsanalys för alla tänkbara kombinationer av de oberoende variablerna. Du väljer sedan den regressionsmodell som förklarar högst andel av variation i den beroende variabeln (y). Problemet är att arbetsinsatsen som datorn måste göra ökar lavinartat när antalet oberoende variabler blir fler. Man brukar tala om en maxgräns på 10-15 oberoende variabler och ovanför det är det inte lönt att försöka.
- Forward inclusion/selection (Framåtval): Kan användas om du har fler variabler än observationer. När en variabel väl har lagts till stannar den oftast kvar i modellen. Metoden kanske väljer variabel A först för att den ser bra ut på egen hand, men missar att variabel B och C tillsammans hade varit en mycket bättre prediktor. Den misslyckas ofta med att fånga upp komplexa samband som bara syns när flera variabler samspelar. Metoderna nedan är bättre.
- Backwards elimination (Bakåt-eliminering): Användbart om du har fler observationer än variabler.
- Stepwise regression (Stegvis regression): Detta är en hybrid. Den börjar oftast som forward selection (lägger till variabler), men vid varje steg kontrollerar den bakåt för att se om någon variabel som tidigare lagts till nu blivit icke-signifikant (kanske för att den nya variabeln förklarar samma sak bättre). Detta åtgärdar den största bristen hos forward selection. Om variabel A lades till tidigt men blev överflödig när variabel C lades till, kommer den stegvisa regressionen att kasta ut variabel A igen. Den är mer flexibel och bättre än både “Forward inclusion/selection” och “Backwards elimination”. Titta på denna video av Brandon Foltz som introducerar konceptet: https://www.youtube.com/watch?v=An40g_j1dHA (på engelska men du kan få svensk textning).
- Regulariseringstekniker såsom LASSO-regression, Ridge-regression och Elastic Net: Dessa metoder kan även kallas för “penalized regression” (straffad regression) eller “regularized regression”. Stegvis regression medför en risk för överanpassning (overfitting) av din modell till just dina specifika observationer. Regulariseringstekniker löser detta problem genom att införa ett straff (penalty) för komplexa modeller. De anses numera vara överlägsna konventionell stegvis regression. Av dessa modeller är Elastic Net kanske den bästa, och den kan utföras i R, STATA och SPSS (i de nyare versionerna). Läs mer om detta på sidan om regulariserad regression.
Hur många oberoende variabler kan man ta med?
Om man kastar in för många oberoende variabler i sin modell drabbas man av något som kallas överanpassning (overfitting). Överanpassning medför att din slutliga modell kanske fungerar för ditt dataset men så fort du tillämpar den på ett annat dataset fungerar modellen dåligt. Så var går gränsen när man har för många oberoende variabler? Det finns en uppsjö av olika tumregler för detta, de flesta med dåligt matematiskt stöd . Green utreder detta noggrannt och konstaterar att den tumregel som är minst dålig är:
N ≥ 50 + (8*m)
N = antal observationer och m = antal prediktorer (ofta lika med antal oberoende variabler)
(Exempel: Har du 5 oberoende variabler krävs minst 90 observationer)
Antalet observationer som krävs för ett visst antal oberoende variabler (x) beror mycket på effektstorleken (hur starkt samvarierar de oberoende variablerna med den beroende variablen). Tumregeln som anges ovan stämmer någorlunda väl med korrekta skattningar av stickprovsstorlek vid medium effektstorlek och vid mindre än sju oberoende variabler . I övriga situationer fungerar inte tumregeln bra . Om vi antar en signifikansnivå om 0,05 och en styrka (power) om 0,8 är det korrekta antalet observationer som krävs för olika antal oberoende variabler :
| Antalet prediktorer * | Liten effektstorlek R-kvadrat = 0,02 | Medium effektstorlek R-kvadrat = 0,13 | Hög effektstorlek R-kvadrat = 0,26 |
|---|---|---|---|
| 1 | 390 | 53 | 24 |
| 2 | 481 | 66 | 30 |
| 3 | 547 | 76 | 35 |
| 4 | 599 | 84 | 39 |
| 5 | 645 | 91 | 42 |
| 6 | 686 | 97 | 46 |
| 7 | 726 | 102 | 48 |
| 8 | 757 | 108 | 51 |
| 9 | 788 | 113 | 54 |
| 10 | 844 | 117 | 56 |
| 15 | 952 | 138 | 67 |
| 20 | 1066 | 156 | 77 |
| 30 | 1247 | 187 | 94 |
| 40 | 1407 | 213 | 110 |
* Här listas antal prediktorer som modellen kan innehålla (det är inte riktigt samma som regressionsparametrar). Om alla oberoende variabler mäts med intervallskala är antal oberoende variabler och antal prediktorer samma. Detta beror på att för en oberoende variabel som mäts med intervallskala blir det bara en betakoefficient och ett tillhörande p-värde. Det är annorlunda om den oberoende variabeln mäts med nominalskala med mer än två skalsteg. Då utses ett skalsteg till referens och de andra skalstegen får varsin betakoefficient. En nominal variabel med fyra skalsteg ger då tre prediktorer.
Multikollinearitet
I all multivariabel linjär regression måste du först kontrollera alla oberoende variabler för multikollinearitet. Detta innebär att kontrollera om några av de oberoende variablerna av potentiellt intresse korrelerar starkt med varandra. Om så är fallet måste du göra ett val innan du går vidare. Om du använder SPSS för att göra en vanlig multipel linjär regression kan du under knappen Statistics kryssa i att du vill ha Descriptives och Collinearity diagnostics.
Kollinearitetsdiagnostik (Collinearity diagnostics)
Här visas två olika mått Tolerance och Variance Inflation Factor (VIF). VIF är 1 delat med Tolerance så det räcker att titta på endera av dessa värden. Tolerance och VIF för en viss prediktor visar hur mycket variansen i den prediktorns regressionskoefficient ökar på grund av samvariation med de alla andra prediktorerna (alla andra x) i modellen. Du får en tolerance / VIF för varje oberoende variabel (för varje x). Tolerance < 0,1 eller VIF >10 talar för att allvarlig multikoliearitet finns i din modell. Gränsen <0,1 eller >10 är lite godtycklig och gränsen <0.2 respektive >5 kan anses tala för möjlig kollinearitet.
Om du har multikollinearitet behöver du leta vidare efter var problemet finns och bästa stället är att då titta i korrelationsmatrisen (covariance matrix). Om du bara har två oberoende variabler (bara två x) så visar tolerance/VIF samma sak som korrelation mellan dess oberoende variabler. Alltså om tolerance / VIF ser bra ut behöver du inte inspektera korrelationsmatrisen. Om du har mer än två oberoende variabler måste du gå vidare och inspektera korrelationsmatrisen (se nedan) oavsett vad tolerance / VIF visar eftersom kolineraritet enbart mellan två oberoende variabler inte alltid ger utslag i tolerance / VIF.
Tolerance / VIF säger dig om din regressionsmodell har ‘kollinearitetsfeber’. Korrelationsmatrisen (se nedan) talar om var orsaken till febern sitter.
Kovariansmatris (Covariance matrix)
Detta visar hur olika oberoende variablers regressionskoefficienter (b) korrelerar till varandra. Du får det som en extra resultattabell i SPSS om du under “Statistics” kryssar i rutan “Covariance matrix”. I normalfallet är detta information som du inte behöver bry dig om så du behöver inte be SPSS ge dig detta.
Korrelationsmatris (Correlation matrix)
Här tittar man på hur de oberoende variablerna (x) korrelerar till varandra. Alla oberoende variabler kontrolleras parvis för “nollte ordningens korrelationer” (zero order correlations). Detta innebär att parvis kontrollera om några av de oberoende variablerna av potentiellt intresse korrelerar starkt med varandra. Om du bara har två oberoende variabler (bara 2 x) så samvarierar korrelationskoefficienten r med VIF ungefär så här:
(r=0,60) → VIF ≈ 1,56
(r=0,70) → VIF ≈ 1,96
(r=0,80) → VIF ≈ 2,78
(r=0,90) → VIF ≈ 5,26
(r=0,95) → VIF ≈ 10,3
Det finns ingen knivskarp definition av vad som utgör en “stark korrelation”. Jag föreslår att om två oberoende variabler som har en Pearson- (eller Spearman-) korrelationskoefficient över +0,85 eller under -0,85 med ett p-värde <0,05 bör betraktas som korrelerade, det vill säga det finns ett potentiellt kollinearitetsproblem. Om hur har kollinearitet måste du göra ett val innan du går vidare och de alternativ du har är:
- Behåll båda om du anser att det finns teoretiska skäl till att båda skall vara med. Exempelvis att de mäter helt olika saker som råkar vara korrelerade.
- Skapa en ny variabel som är ett sammanslaget index av de två ursprungsvariablerna. Lämpligt om de mäter nästan samma sak.
- Utesluta en av dem från vidare analys. Detta val bör styras av vad som är mest praktiskt att behålla i den fortsatta analysen (vad som sannolikt är mest användbart). Vilken variabel är teoretiskt mest relevant att behålla eller vilken variabel är mätt med bäst precision?
- Använda regulariserad regression såsom ridge, lasso eller elastic net. Med dessa tekniker blir problem med korrelation mellan oberoende variabler ofta mindre allvarliga än i vanlig linjär regression. Det betyder dock inte att korrelation kan ignoreras helt. Regularisering kan vara mycket användbar, särskilt för prediktion, men valet av vilka variabler som bör ingå bör fortfarande grundas på teori och forskningsfråga, särskilt om modellen ska tolkas snarare än enbart användas för prediktion.
- Se om en icke linjär regressionsmetod passar data bättre.
Att tolka resultatet
När datorn har gjort regressionen har du fått mycket information som du bör gå igenom på ett strukturerat sätt. Du bör i nämnd ordning titta på:
- När du gjorde regressionen bör du har klickat i att du vill ha diagnostik för multikollinearitet (se ovan). Nu kollar du om villkoren för linjär regression tycks vara uppfyllda, det vill säga att du inte har problem med multikollinearitet.
- Bortfallet. Du skall tidigare ha tittat på bortfallet i enskilda variabler. Nu skall du titta på det sammanlagda bortfallet om du har flera oberoende variabler (gör en multipel linjär regression). Hur många observationer kunde inte användas i regressionen? Ju fler oberoende variabler du har med desto större sannolikhet att du saknar information i någon av dessa variabler. Om du har mer än obetydligt bortfall måste du titta på om bortfallet är jämt fördelat på de olika variablerna eller om en av dem står ut. Tyder bortfallet på ett potentiellt systematiskt fel i datainsamlingen? Om bortfallet totalt är <5% behöver du inte göra någon bortfallsanalys. Bortfall på >10% kräver att du gör en bortfallsanalys för att se om det finns ett systematiskt fel någonstans i ditt datamaterial. Bortfall mellan 5-10% är en gråzon.
- Utvärdera din regressionsmodell som helhet. R kvadrat (R square), eller hellre “Adjusted R square” om det finns, anger hur mycket av variationen i den beroende variabeln (y) som förklaras av dina oberoende variabler (dina x). R kvadrat går från 0 till 1. Noll betyder att din regressionsmodell inte förklarar något av variationen i den beroende variabeln medan 1,0 betyder att all variation i y förklaras av dina x. Du vill att denna skall vara så hög som möjligt.
- Titta på hur kategoriska variabler kodas i regressionen. Om du har med kön som en variabel skapas ofta en dummyvariabel med värdet 0 respektive 1. Det resultat du sedan ser är 1 jämfört med 0 som är referens. Det är viktigt att ha klart för sig om datorn gjorde män eller kvinnor som “1”. Misstag här gör att man drar fel slutsatser.
- Titta på utvärderingen av var och en av de oberoende variablerna (dina x). Här får du för varje oberoende variabel en betakoefficient och ett tillhörande p-värde. Observera att det finns betakoefficienter som är “unstandardised” och “standardised”. Om du skall använda din regressionsmodell för att genom antagna värden på de oberoende variablerna (dina x) räkna fram vad den beroende variabeln (y) är skall du använda “unstandardised”. Om du däremot vill avgöra vilka oberoende variabler (vilka x) som förklarar störst variation i den beroende variabeln (y) skall du använda “standardised”.
Vanliga engelska termer och vad de betyder
| Typ | Vad som står | Vad det betyder |
|---|---|---|
| df = DF = degrees of freedom = frihetsgrader | Total df | Antal observationer / individer i analysen (n) minus 1 (Dvs. n – 1). |
| Regression df = Model DF | Antal oberoende variabler (antal x) i din modell. I enkel linjär regression är det alltid 1. | |
| Residuals df = Error DF | Antal observationer minus antalet oberoende variabler minus 1. I enkel linjär regression är detta alltid antalet observationer minus 2 (n – 2). | |
| Sum of squares | Sum of squares Total | Ett mått på den totala variationen (spridningen) hos den beroende variabeln (y) runt sitt eget medelvärde, innan man tagit hänsyn till några oberoende variabler. |
| Sum of squares Regression (=Model SS) | Den del av den totala variationen i y som din regressionsmodell lyckas förklara. Ju högre detta värde är i relation till “Total”, desto bättre är modellen. | |
| Sum of squares Residuals = Sum of squares error | Den variation i y som din modell inte kan förklara (även kallat brus eller fel). Det är avståndet mellan de faktiska datapunktarna och regressionslinjen. | |
| Mean Square (MS = Genomsnittlig kvadratsumma) | Mean square Regression (= Model MS) | Tas fram genom att dela Sum of squares Regression med Regression df. I enkel linjär regression är detta värde exakt samma som Sum of squares (eftersom man delar med 1). |
| Mean square Residuals (= Error MS) | Variansen för residualerna. Tas fram genom att dela Sum of squares Residuals med Residuals df. | |
| Övergripande test | F-statistic (= F-value) | Ett mått på hur väl hela modellen passar datan jämfört med en modell helt utan oberoende variabler. Värdet beräknas genom att dela Mean square Regression med Mean square Residuals. |
| p-value (Ofta kopplat till F-värdet) | F-värdet omvandlas till ett p-värde. Om detta p-värde är signifikant (t.ex. < 0.05) betyder det att modellen som helhet är statistiskt signifikant och att minst en av dina x-variabler påverkar y. |
Uppskatta (prognostisera) utfallsvärden
I första videon nämndes hastigt möjligheten att använda en linjär regressionsmodell för att förutsäga värden på den beroende variabeln (y). Detta beskrivs mer i följande video av Olov Aronson:
ANOVA, ANCOVA eller linjär regression?
ANOVA är en metod för att jämföra olika grupper (gruppindelning är en kategorisk variabel som mäts med nominalskalan). ANCOVA är samma analys men man har även en kontinuerlig variabel. Linjär regression kan blanda oberoende variabler som är kontinuerliga och kategoriska. Den bakomliggande matematiken i dessa analyser är i princip densamma och du får i princip samma resultat. Skillnaden ligger i hur ditt statistikprogram presenterar resultaten. ANOVA ger dig omedelbart ett enda p-värde (ett så kallat F-test) för om din kategoriska variabel med alla dess olika värden som en helhet är av betydelse. Det är ett snabbt och tydligt ja eller nej presenterat på ett enkelt sätt. Motsvarande regressionsanalys kan ge svar på om ett visst värde i förhållande till referensvärdet betyder något men den jämför inte alla värden med varandra utan bara med referensvärdet. Vill du jämföra alla värden på din oberoende variabel med varandra är det ofta smidigare att gå vägen via ANOVA.
Några exempel som använder linjär regression
Exemplen nedan gör inte anspråk på att vara perfekta exempel på hur man skall göra linjär regression.
- Providing Mothers with a Pedometer and Subsequent Effect on the Physical Activity of Their Children: A Randomized Controlled Trial of Children with Obesity : Den beroende variabeln (y) är förändring i antal steg och grupptillhörighet är en av de oberoende variablerna samtidigt som man justerar för ytterligare några andra variabler.
- Predictors for future activity limitation in women with chronic low back pain consulting primary care: a 2-year prospective longitudinal cohort study : Spearmann’s rangkorrelation användes först för att sortera fram vilka oberoende variabler som skulle användas i den linjära regressionen. En multivariabel linjär regression tittar sedan på vilka kvarvarande oberoende variabler som samvarierar med upplevd nivå av aktivitetsproblem (den beroende variabeln).
- A randomized controlled trial comparing two ways of providing evidence-based drug information to GPs : Mulivariabel linjär regression användes för att jämföra två grupper där faktorer som skilde grupperna åt i början lades till som oberoende variabler för att justera bort effekten av dessa olikheter mellan grupperna. Grupptillhörighet var den viktigaste oberoende variabeln.