Multipel linjär regression
Denna sida är uppdaterad 2005-07-31
Den här sidan förutsätter förkunskaper om matematiska modeller och i synnerhet linjära modeller. Läs därför först sidan om korrelation och regression.
Ekvationen för en enkel regressionslinje har bara hade en oberoende variabel (bara ett x). Man kan tänka sig en matematisk modell där man vill beskriva hur y varierar beroende på hur flera andra variabler (flera x) varierar. Man får då en multipel regressionsmodell och den principiella formeln för detta är:
y = a + b1x1
+ b2x2
+ b3x3
.....e.t.c.
Formel 1 - Ekvationen för multipel regressionslinje
Här har vi ett intercept (a) och flera regressionskoefficienter (flera olika b). Den enkla regressionen kan enkelt åskådliggöras med ett scatterdiagram (diagram 1 på sidan om korrelation och regression). En regression med två oberoende variabler kan åskådliggöras med ett tredimensionellt (svårförståeligt) diagram. Regressioner med tre eller fler oberoende variabler kan inte åskådliggöras i diagramform.
Hur många oberoende variabler?
I en multipel regression har vi flera oberoende variabler (flera x). Hur
många x skall tas med i modellen? Vi kanske har gjort en studie där vi har
samlat in en mängd data. Skall alla dessa användas? Det kanske är flera
hundra. Det finns olika metoder för att lösa det här problemet. De tänkbara
alternativen är i princip:
"All possible regressions"
Här analyseras alla tänkbara kombinationer av regressioner. Antalet
kombinationer är 2k om vi har k antal x. Om vi har 4 olika x är det
alltså 16 olika regressionanalyser som behöver göras. Man kan sedan välja
den modell som har högst ra^2 (för förklaring av ra^2 se sidan om korrelation
och regression). Om man inte har mer än 6 olika x skulle man kunna göra
alla 64 regressionerna, en i taget. Har man fler x är det svårt att själv
hålla reda på alla kombinationer. Det finns statistikprogram som automatiskt
kan tugga sig igenom alla tänkbara varianter (exempelvis funktionen RSQUARE i
SAS). Om man har väldigt många variabler (100 tals) klarar inte ens en dator
av det.
"Forward selection"
Är ganska vanligt förekommande och går ut på följande:
Exempel på korrelationsmatris |
|||||
y |
x1 |
x2 |
x3 |
x4 |
|
y |
1,00 |
||||
x1 |
0,75 |
1,00 |
|||
x2 |
0,78 |
0,84 |
1,00 |
||
x3 |
0,84 |
0,68 |
0,64 |
1,00 |
|
x4 |
0,68 |
0,44 |
0,69 |
0,68 |
1,00 |
y = 30 + 2,9*X3
Formel 2 - ex på början av forward selection
y = -16 + 1,4*X2 + 2,0*X3
Formel 3 - ex på forward selection
Punkt 3-6 upprepas tills man inte får någon mer x vars r är signifikant.
"Backward elimination"
(Detta avsnitt är under konstruktion)
"Stepwise regression"
(Detta avsnitt är under konstruktion)
Multipel rangregression
(Detta avsnitt är inte färdigt ännu)
Att göra prognoser
(Detta avsnitt är inte färdigt ännu)
Att göra regression i statistikprogrammet Epi-Info
(Detta avsnitt är inte färdigt ännu)
Exempel på regression
På särskilda sidor finns exempel med datorutskrifter vid:
Denna webbsida är författad av
Doc. Ronny Gunnarsson
Distriktsläkare/Familjeläkare
Läs om regler för ansvar och copyright som gäller för denna webbsida.