Multipel linjär regression
Denna sida är uppdaterad 2005-07-31

Den här sidan förutsätter förkunskaper om matematiska modeller och i synnerhet linjära modeller. Läs därför först sidan om korrelation och regression.

Ekvationen för en enkel regressionslinje har bara hade en oberoende variabel (bara ett x). Man kan tänka sig en matematisk modell där man vill beskriva hur y varierar beroende på hur flera andra variabler (flera x) varierar. Man får då en multipel regressionsmodell och den principiella formeln för detta är:

y = a + b1x1 + b2x2 + b3x3 .....e.t.c.
Formel 1 - Ekvationen för multipel regressionslinje

Här har vi ett intercept (a) och flera regressionskoefficienter (flera olika b). Den enkla regressionen kan enkelt åskådliggöras med ett scatterdiagram (diagram 1 på sidan om korrelation och regression). En regression med två oberoende variabler kan åskådliggöras med ett tredimensionellt (svårförståeligt) diagram. Regressioner med tre eller fler oberoende variabler kan inte åskådliggöras i diagramform.

Hur många oberoende variabler?
I en multipel regression har vi flera oberoende variabler (flera x). Hur många x skall tas med i modellen? Vi kanske har gjort en studie där vi har samlat in en mängd data. Skall alla dessa användas? Det kanske är flera hundra. Det finns olika metoder för att lösa det här problemet. De tänkbara alternativen är i princip:

"All possible regressions"
Här analyseras alla tänkbara kombinationer av regressioner. Antalet kombinationer är 2k om vi har k antal x. Om vi har 4 olika x är det alltså 16 olika regressionanalyser som behöver göras. Man kan sedan välja den modell som har högst ra^2 (för förklaring av ra^2 se sidan om korrelation och regression). Om man inte har mer än 6 olika x skulle man kunna göra alla 64 regressionerna, en i taget. Har man fler x är det svårt att själv hålla reda på alla kombinationer. Det finns statistikprogram som automatiskt kan tugga sig igenom alla tänkbara varianter (exempelvis funktionen RSQUARE i SAS). Om man har väldigt många variabler (100 tals) klarar inte ens en dator av det.

"Forward selection"
Är ganska vanligt förekommande och går ut på följande:

  1. Gör en korrelationsmatris mellan alla variabler (alla x) som kan tänkas vara av intresse för att förklara variationen i y. Rent praktiskt ber man datorn räkna fram korrelationsfaktorn (r) för alla tänkbara samband när en variabel jämförs mot en annan. 

Exempel på korrelationsmatris

 

y

x1

x2

x3

x4

y

1,00

       

x1

0,75

1,00

     

x2

0,78

0,84

1,00

   

x3

0,84

0,68

0,64

1,00

 

x4

0,68

0,44

0,69

0,68

1,00

  1. Titta på alla x som har en r som är statistiskt signifikant (för information om signifikansprövning av r se sidan om korrelation och regression). Välj den av dessa x som har högst r vid jämförelse mot y. Gör en enkel regressionsanalys med denna x. Låt oss anta att ekvationen då blir:

y = 30 + 2,9*X3
Formel 2 - ex på början av forward selection

  1. Använd formel 2 för att räkna fram ett nytt y motsvarande varje x. För varje patient ta skillnaden mellan det verkliga uppmätta y och det y som räknas fram med formel 2. Låt oss kalla skillnaden för d1y.
  1. Gör en ny korrelationsmatris för att räkna fram r för hur alla kvarvarande x korrelerar mot d1y. Den x som korrelerar bäst till d1y läggs till om dess r är statistiskt signifikant. Om det högsta r man hittar inte är statistiskt signifikant lägger man inte till några fler x. Låt oss anta att resultatet då blir:

y = -16 + 1,4*X2 + 2,0*X3
Formel 3 - ex på forward selection

  1. Använd formel 3 för att räkna fram ett nytt y motsvarande varje x. För varje patient ta skillnaden mellan det verkliga uppmätta y och det y som räknas fram med formel 3. Låt oss kalla skillnaden för d2y.
  1. Gör en ny korrelationsmatris för att räkna fram r för hur alla kvarvarande x korrelerar mot d2y. Den x som korrelerar bäst till d2y läggs till om dess r är statistiskt signifikant (för information om signifikansprövning av r se sidan om korrelation och regression). Om det högsta r man hittar inte är statistiskt signifikant lägger man inte till några fler x.

Punkt 3-6 upprepas tills man inte får någon mer x vars r är signifikant.

"Backward elimination"
(Detta avsnitt är under konstruktion)

"Stepwise regression"
(Detta avsnitt är under konstruktion)

Multipel rangregression
(Detta avsnitt är inte färdigt ännu)

Att göra prognoser
(Detta avsnitt är inte färdigt ännu)

Att göra regression i statistikprogrammet Epi-Info
(Detta avsnitt är inte färdigt ännu)


Exempel på regression

På särskilda sidor finns exempel med datorutskrifter vid:

Multipel linjär regression


Denna webbsida är författad av
Doc. Ronny Gunnarsson
Distriktsläkare/Familjeläkare

Läs om regler för ansvar och copyright som gäller för denna webbsida.