Fördelningar av variabler
Denna sida är uppdaterad 2002-10-08

Variabler i en grupp kan fördela sig på olika sätt. Det innebär att de olika mätvärdena i en grupp skiljer sig åt på ett eller annat sätt. Detta kan beskrivas genom att ange efter vilken typ av fördelning de olika mätvärdena skiljer sig åt.


A. Fördelningar av kontinuerliga kvantitativa variabler

A1. Symmetriska fördelningar

A1a. Normalfördelningen
Normalfördelningen (Diagram 1) kännetecknas av att den kan beskrivas med endast två siffror, Centralmåttet medelvärde och spridningsmåttet standarddeviation. Man kan ge en bra beskrivning av varje normalfördelning genom att ange dess medelvärde och standarddeviation.

0023_D01.gif (2364 bytes)

Diagram 1

A1b. T-fördelningen
början av seklet kunde W.S. Gossett, som ofta använde pseudonymen Student, visa att vid stickprov med kvantitativa mätdata så var de inte riktigt normalfördelade utan följde en annan fördelning som han döpte till t-fördelningen. Vid stort stickprov (>100 individer) är t-fördelningen och normalfördelningen nästan identiska. Vid mindre stickprovsantal skiljer sig fördelningarna åt (Diagram 2). T-fördelningen ger då en riktigare beskrivning av verkligheten än normalfördelningen. Eftersom t-fördelningen blir samma som normalfördelningen vid ökande stickprovsstorlek finns det egentligen ingen anledning att byta till normalfördelningen. Konklusionen är att när vi vill göra signifikansanalys av kvantitativa data så används i regel alltid olika varianter av t-test, som använder t-fördelningen, oavsett om stickprovet är stort eller litet. Undantaget är när man har ett mycket stort stickprov som inte är normalfördelat. Då kan man ibland göra ett z-test, som använder normalfördelningen. För mer information om detta hänvisar jag till statistisk litteratur.

0023_D02.gif (2432 bytes)

Diagram 2

A1c. Andra symmetriska fördelningar
Det finns andra symmetriska fördelningar än normalfördelningen och t-fördelningen (exempelvis som i Diagram 3). Dessa fördelningar är ovanliga inom medicinsk forskning (men kan vara vanliga i andra sammanhang).

0023_D03.gif (2371 bytes)

Diagram 3

A2. Assymmetriska fördelningar
Två saker kan tala för att en fördelning är sned. För det första om medelvärdet och medianvärdet skiljer sig mycket åt. För det andra om standarddeviationen (SD) är mer än hälften av medelvärdet. Denna sista tumregel gäller bara om mätvärdena inte kan vara <0. Om standarddeviationen (SD) är mindre än hälften kan fördelningen ändå vara sned. Sneda fördelningar kan ofta omvandlas (transformeras) till normalfördelningar genom till exempel logaritmering. Logaritmering fungerar bara om alla mätvärden är >0 (logaritmen för noll är minus oändligheten, d.v.s. den är inte definierad). Transformering av mätdata förklaras inte vidare här. Det finns två typer av sneda fördelningar, positiva och negativa.

A2a. Positivt sned fördelning
Vid positivt sned fördelning (Diagram 4) blir medianen alltid mindre än medelvärdet

0023_D04.gif (2328 bytes)

Diagram 4

A2b. Negativt sned fördelning
Negativt sned fördelning (Diagram 5) är ovanligt. Vid denna fördelning blir medianen alltid större än medelvärdet.

0023_D05.gif (2329 bytes)

Diagram 5

B. Andra fördelningar

B1. Binomialfördelningen
Binomialfördelningen beskriver en variabel som bara kan anta två värden, har eller har inte den definierade egenskapen. Här talar vi om proportioner, eller förenklat procentuella fördelningar. Om jag gör ett stickprov på 8 slumpmässigt utvalda individer, hur stor sannolikhet är det att ingen av dem är rökare? ...att en är rökare? ...att två är rökare? ...etc etc. Om mitt stickprovsantal är litet kommer fördelningen att bli kraftigt sned (Diagram 6). Diagram 6 beskriver ett material på 8 individer. Där kan man utläsa sannolikheten att 0 av 8  individer har en viss egenskap, c:a 0,7 (=70%), sannolikheten att 1 av 8 individer har egenskapen är c:a 0,58 (=58%), etc.

0023_D06.gif (2671 bytes)
Diagram 6

Ju fler som är med i mitt stickprov desto mer lik normalfördelningen kommer fördelningen att bli. Om mitt stickprov är 80 slumpmässigt utvalda individer (Diagram 7) ökar chansen att fördelningen blir normalfördelad. Diagram 7  beskriver ett material på 80 individer. Där kan man utläsa sannolikheten att 0 av 80  individer har en viss egenskap c:a 0,05 (=5%), sannolikheten att 10 av 80 individer har egenskapen är c:a 0,12 (=12%), etc.

0023_D07.gif (2996 bytes)

Diagram 7

Man säger att vid ett större antal individer i stickprovet kan binomialfördelningen normalapproximeras. Vad är då "ett större antal individer"? Det anses rimligt att anta att materialet är normalfördelat i en grupp om proportionen P (=sannolikheten) av patienter med egenskapen (t.ex. närvaro av sjukdom) och 1-P båda överstiger 5/n där n är antalet patienter i gruppen. Ju mer P närmar sig 50% desto färre patienter krävs för att materialet skall kunna betraktas som normalfördelat. Om P = 50% räcker 10 patienter. Om P är 10 eller 90% krävs det 50 patienter i gruppen. Om P ligger utanför 10-90% krävs >50 patienter. Som synes är det oftast så att binomialfördelningen kan normalapproximeras.

B2. Poissonfördelningen
Poissonfördelningen är en modell för att beskriva sällsynta händelser, till exempel antalet nyupptäckta cancerfall varje vecka på ett lasarett. Poissonfördelningen liknar mycket binomialfördelningen. Om lasarettet är litet och därmed antalet nyupptäckta cancerfall litet så är fördelningen positivt sned. Om lasarettet är större och därmed att antalet nyupptäckta cancerfall per vecka är fler så liknar poissonfördelningen alltmer normalfördelningen. Som en praktisk tumregel kan man säga att om medelvärdet av nyupptäckta händelser per tidsenhet är >50 kan poissonfördelningen antas vara normalfördelad

B3. F-fördelningen
Om vi tar variansen (standarddeviationen i kvadrat) från ett stickprov a taget ur populationen A och delar med variansen från stickprov b taget ur populationen B har vi gjort ett F-test (kallas även "Variance ratio test). När man gör F-testet delar man alltid den större variansen med den mindre så att kvoten alltid blir >1. Om man upprepar detta F-test för många stickprov tagna ur samma populationer fås en mängd värden som följer F-fördelningen. Man kan gå in i en tabell där siffrorna från F-fördelningen finns. I den tabellen kan man utläsa ett p-värde. Detta p-värde anger sannolikheten att de båda populationerna A och B har samma varians. Om p-värdet är <0,05 antar man att de olika populationerna har olika varians. Det finns en utökad variant av det enkla F-testet som kallas Bartlett´s test. En del statistiska test, till exempel t-test och one way anova kräver att varianserna skall vara lika i de grupper som skall jämföras. Om varianserna visar sig vara signifikant olika skall man antingen använda motsvarande icke parametriska test eller om man har ett mycket stort stickprov kan man använda z-test, ett test som använder normalfördelningen.


Denna webbsida är författad av
Doc. Ronny Gunnarsson
Distriktsläkare/Familjeläkare

Läs om regler för ansvar och copyright som gäller för denna webbsida.