Fördelningar av variabler
Denna sida är uppdaterad 2002-10-08
Variabler i en grupp kan fördela sig på olika sätt. Det innebär att de olika mätvärdena i en grupp skiljer sig åt på ett eller annat sätt. Detta kan beskrivas genom att ange efter vilken typ av fördelning de olika mätvärdena skiljer sig åt.
A. Fördelningar av kontinuerliga kvantitativa variabler
A1. Symmetriska fördelningar
A1a. Normalfördelningen
Normalfördelningen (Diagram 1) kännetecknas av att den kan beskrivas med endast
två siffror, Centralmåttet medelvärde och spridningsmåttet standarddeviation. Man kan
ge en bra beskrivning av varje normalfördelning genom att ange dess medelvärde och
standarddeviation.
Diagram 1 |
A1b. T-fördelningen
början av seklet kunde W.S. Gossett, som ofta använde pseudonymen Student, visa att
vid stickprov med kvantitativa mätdata så var de inte riktigt normalfördelade utan
följde en annan fördelning som han döpte till t-fördelningen. Vid stort stickprov
(>100 individer) är t-fördelningen och normalfördelningen nästan identiska. Vid
mindre stickprovsantal skiljer sig fördelningarna åt (Diagram 2). T-fördelningen ger
då en riktigare beskrivning av verkligheten än normalfördelningen. Eftersom
t-fördelningen blir samma som normalfördelningen vid ökande stickprovsstorlek finns det
egentligen ingen anledning att byta till normalfördelningen. Konklusionen är att när vi
vill göra signifikansanalys av kvantitativa data så används i regel alltid olika
varianter av t-test, som använder t-fördelningen, oavsett om stickprovet är stort eller
litet. Undantaget är när man har ett mycket stort stickprov som inte är
normalfördelat. Då kan man ibland göra ett z-test, som använder normalfördelningen.
För mer information om detta hänvisar jag till statistisk litteratur.
Diagram 2 |
A1c. Andra symmetriska fördelningar
Det finns andra symmetriska fördelningar än normalfördelningen och t-fördelningen
(exempelvis som i Diagram 3). Dessa fördelningar är ovanliga inom medicinsk
forskning (men kan vara vanliga i andra sammanhang).
Diagram 3 |
A2. Assymmetriska fördelningar
Två saker kan tala för att en fördelning är sned. För det första om
medelvärdet och medianvärdet skiljer sig mycket åt. För det andra om
standarddeviationen (SD) är mer än hälften av medelvärdet. Denna sista tumregel
gäller bara om mätvärdena inte kan vara <0. Om standarddeviationen (SD) är mindre
än hälften kan fördelningen ändå vara sned. Sneda fördelningar kan ofta omvandlas
(transformeras) till normalfördelningar genom till exempel logaritmering. Logaritmering
fungerar bara om alla mätvärden är >0 (logaritmen för noll är minus oändligheten,
d.v.s. den är inte definierad). Transformering av mätdata förklaras inte vidare här.
Det finns två typer av sneda fördelningar, positiva och negativa.
A2a. Positivt sned fördelning
Vid positivt sned fördelning (Diagram 4) blir medianen alltid mindre än
medelvärdet
Diagram 4 |
A2b. Negativt sned fördelning
Negativt sned fördelning (Diagram 5) är ovanligt. Vid denna fördelning blir
medianen alltid större än medelvärdet.
Diagram 5 |
B. Andra fördelningar
B1. Binomialfördelningen
Binomialfördelningen beskriver en variabel som bara kan anta två värden, har
eller har inte den definierade egenskapen. Här talar vi om proportioner, eller förenklat
procentuella fördelningar. Om jag gör ett stickprov på 8 slumpmässigt utvalda
individer, hur stor sannolikhet är det att ingen av dem är rökare? ...att en är
rökare? ...att två är rökare? ...etc etc. Om mitt stickprovsantal är litet kommer
fördelningen att bli kraftigt sned (Diagram 6). Diagram 6 beskriver ett material på
8 individer. Där kan man utläsa sannolikheten att 0 av 8 individer har en viss
egenskap, c:a 0,7 (=70%), sannolikheten att 1 av 8 individer har egenskapen är c:a 0,58
(=58%), etc.
Diagram 6 |
Ju fler som är med i mitt stickprov desto mer lik normalfördelningen kommer fördelningen att bli. Om mitt stickprov är 80 slumpmässigt utvalda individer (Diagram 7) ökar chansen att fördelningen blir normalfördelad. Diagram 7 beskriver ett material på 80 individer. Där kan man utläsa sannolikheten att 0 av 80 individer har en viss egenskap c:a 0,05 (=5%), sannolikheten att 10 av 80 individer har egenskapen är c:a 0,12 (=12%), etc.
Diagram 7 |
Man säger att vid ett större antal individer i stickprovet kan binomialfördelningen normalapproximeras. Vad är då "ett större antal individer"? Det anses rimligt att anta att materialet är normalfördelat i en grupp om proportionen P (=sannolikheten) av patienter med egenskapen (t.ex. närvaro av sjukdom) och 1-P båda överstiger 5/n där n är antalet patienter i gruppen. Ju mer P närmar sig 50% desto färre patienter krävs för att materialet skall kunna betraktas som normalfördelat. Om P = 50% räcker 10 patienter. Om P är 10 eller 90% krävs det 50 patienter i gruppen. Om P ligger utanför 10-90% krävs >50 patienter. Som synes är det oftast så att binomialfördelningen kan normalapproximeras.
B2. Poissonfördelningen
Poissonfördelningen är en modell för att beskriva sällsynta händelser, till
exempel antalet nyupptäckta cancerfall varje vecka på ett lasarett. Poissonfördelningen
liknar mycket binomialfördelningen. Om lasarettet är litet och därmed antalet
nyupptäckta cancerfall litet så är fördelningen positivt sned. Om lasarettet är
större och därmed att antalet nyupptäckta cancerfall per vecka är fler så liknar
poissonfördelningen alltmer normalfördelningen. Som en praktisk tumregel kan man säga
att om medelvärdet av nyupptäckta händelser per tidsenhet är >50 kan
poissonfördelningen antas vara normalfördelad
B3. F-fördelningen
Om vi tar variansen (standarddeviationen i kvadrat) från ett stickprov a taget
ur populationen A och delar med variansen från stickprov b taget ur populationen B har vi
gjort ett F-test (kallas även "Variance ratio test). När man gör F-testet delar
man alltid den större variansen med den mindre så att kvoten alltid blir >1. Om man
upprepar detta F-test för många stickprov tagna ur samma populationer fås en mängd
värden som följer F-fördelningen. Man kan gå in i en tabell där siffrorna från
F-fördelningen finns. I den tabellen kan man utläsa ett p-värde. Detta p-värde anger
sannolikheten att de båda populationerna A och B har samma varians. Om p-värdet är
<0,05 antar man att de olika populationerna har olika varians. Det finns en utökad
variant av det enkla F-testet som kallas Bartlett´s test. En del statistiska test, till
exempel t-test och one way anova kräver att
varianserna skall vara lika i de grupper som skall jämföras. Om varianserna visar sig
vara signifikant olika skall man antingen använda motsvarande icke parametriska test
eller om man har ett mycket stort stickprov kan man använda z-test, ett test som
använder normalfördelningen.
Denna webbsida är författad av
Doc. Ronny Gunnarsson
Distriktsläkare/Familjeläkare
Läs om regler för ansvar och copyright som gäller för denna webbsida.