Du är en av...aktiva besökare på den svenska delen av denna webbplats. (Dessutom...aktiva besökare på den engelska delen.)

Citera denna sida som:

-

Observationer och variabler

-

Först publiserad:

på:

INFOVOICE.SE

Senast updaterad:

Om du vill informera om att denna webbsida finns...

Den här webbsidan beskriver skillnader i datas karaktär och vilka konsekvenser detta får när du beräknar statistik. Genom att läsa detta får du en bättre förståelse för mätskalor och hur du korrekt väljer en lämplig typ av statistik.

Du förstår denna webbsida bäst om du först har läst sidan Vad är forskning.

Pile of observations
Hög med observationer

Inom statistik försöker vi skapa mening ur ett virrvarr av observationer. Ibland uppfattar vi att de observationer vi kan få fram är röriga och andra gånger insamlade i ett fördefinierat ordnat mönster. I de flesta situationer ordnar vi observationerna i ett kalkylblad med rader och kolumner. Raderna kallas observationer och varje kolumn kallas en variabel (eller ibland en “faktor”).

Viktiga frågor

  • För varje variabel måste vi fråga oss vilken mätskala som är lämplig att använda.
  • För nominalvariabler vill vi också veta om de är dikotoma eller inte. För variabler mätta på en intervall- eller kvotskala vill vi också veta vilken fördelning de följer.
  • Är varje observation oberoende? Om inte, är de klustrade/nestlade och har vi information om det?

Svaren på dessa frågor är väsentliga för att avgöra vilken typ av beskrivande statistik och analytisk statistik som är lämpliga att använda.

Olika mätskalor

Den huvudsakliga skiljelinjen är om en variabel är kvantitativ eller kvalitativ (se tabell nedan). Benämningarna kvantitativ och kvalitativ har dock gradvis kommit att användas allt mindre eftersom de så lätt blandas ihop med benämningarna kvantitativa och kvalitativa ansatser / metoder.

Kvalitativa variablerKvantitativa variabler
NominalskalaOrdinalskalaIntervallskalaKvotskala
Har definierade kategorier.XX
Det finns en ordning mellan olika mätvärden.XXX
Avståndet mellan varje skalsteg är lika stort (ekvidistant)XX
Det finns en fast nollpunkt som möjliggör att skapa en kvot.X

Variabler som mäts med nominalskala

Variabler mätta på en nominalskala är oordnade kategoriska variabler och som namnet säger har de ingen ordning mellan observationerna. Blodgrupp är ett klassiskt exempel. Man kan inte säga att blodgrupp A är mer eller bättre än blodgrupp B. De är helt enkelt olika blodgrupper. Ett annat klassiskt exempel på oordnade kategoriska variabler är kön. Det senare är en dikotom eller binär version av nominalskalan..

Variabler som mäts med ordinalskala

Det typiska kännetecknet är en ordning, men skalstegen är inte ekvidistanta. Ett exempel är mätning av smärta med en visuell analog skala (VAS). Individer uppmuntras att beskriva sin aktuella smärtupplevelse genom att sätta ett X på en 100 mm lång linje. Avläsningen erhålls genom att mäta avståndet från början av skalan (vänster) och fram till X:et. Hela omfånget är 100 mm långt. Man kan säga att 40 mm på smärtskalan är mer smärta än 20 mm. Generellt sett betyder värden till höger på skalan mer smärta än värden till vänster på skalan. 40 mm är exakt dubbelt så långt som 20 mm. Däremot representerar 40 mm inte exakt dubbelt så mycket smärta som 20 mm. Även om det finns en ordning är skalstegen inte ekvidistanta.

Variabler mätta med intervallskala eller kvotskala

Två egenskaper är karakteristiska för kvantitativa variabler: ordning mellan olika skalsteg och ekvidistanta (lika) skalsteg (ökningar). Föreställ dig att du vill mäta antalet barn i alla familjer som bor i ett bostadsområde. En familj har fyra barn, och en annan två. Man kan säga att det finns en ordning i att fyra är mer än två. Eftersom varje skalsteg, ett barn, är lika stort, kan man säga att de fyra barnen är exakt dubbelt så många som två. När skalstegen är lika säger vi att skalstegen är ekvidistanta. Det finns två huvudgrupper av variabler mätta med en intervall- eller kvotskala: diskreta variabler och kontinuerliga variabler. Kontinuerliga variabler kan anta vilket värde som helst, till exempel blodtryck eller blodsockernivåer. Variabler som bara kan anta vissa värden, såsom heltal, kallas diskreta variabler. Exempel på diskreta variabler är antalet barn i en familj, eller antalet besök per år. Om antalet möjliga värden för en diskret variabel är många, är det rimligt att behandla den som en kontinuerlig variabel. I praktiken kan man säga att om variabeln är kvantitativ, det vill säga har en ordning och ekvidistanta skalsteg, bryr vi oss sällan om huruvida den är en diskret eller kontinuerlig variabel.

Typiskt för en kvotskala är att den har en absolut nollpunkt. Exempel på en diskret variabel som mäts på en kvotskala är antalet besök på en vårdcentral. Kvoter, såsom antal besök per år, kan beräknas om det finns en nollpunkt. Ett annat exempel är att jämföra antalet barn mellan två förskolor. Antalet kan vara dubbelt så högt på den ena förskolan jämfört med den andra. Temperatur på Kelvinskalan är ett exempel på en kontinuerlig variabel som också kan beskrivas med en kvotskala. Eftersom temperaturen på Kelvinskalan inte kan gå under 0, kan man säga att 20°K är exakt dubbelt så mycket som 10°K. Temperatur enligt Celsiusskalan är ett exempel på en kontinuerlig variabel som inte kan beskrivas med en kvotskala. Man kan säga att +20°C är mer än +10°C. Men eftersom temperaturen enligt Celsiusskalan kan gå under 0, kan man inte säga att +20°C är dubbelt så mycket som +10°C.

Mätskalor och val av statistik

Beskrivande statistik

Addition och subtraktion är meningslöst om mätskalan inte har ekvidistanta skalsteg. Detta innebär att du inte kan beräkna summapoäng, medeltal eller utföra en subtraktion för att räkna ut förändring. Det senare orsakar problem om du vill titta på förändringar över tid som mäts med, till exempel, en VAS (Visuell Analog Skala). Därför bör du inte ta ett slutvärde minus startvärdet för att beräkna förändring när variabeln mäts med en ordinalskala.

CentralmåttSpridningsmått
MedelMedianAndelStandardavvikelseInterkvartilavståndRange (min-max)konfidens intervall
NominalskalaXX
OrdinalskalaXX(X)
Intervallskala – sned fördelningXX(X)
Intervallskala – normalfördelningXX(X)
Kvotskala – tid till en händelseMedianöverlevnadstidX(X)X
Kvotskala – räknedataXXX

Analytisk statistik

Du använder analytisk statistik när du vill dra slutsatser om effektstorlek eller genomföra hypotesprövning. Många statistiska tester kräver att observationerna följer en strikt uppsättning regler eller antaganden. Det viktigaste av dessa är att observationerna måste följa en specifik fördelning. Dessa tester kallas “parametriska” eftersom de gör antaganden om populationens parametrar (de “sanna” värden du försöker uppskatta, som medelvärdet eller standardavvikelsen). Statistiska tester som inte kräver dessa antaganden är mer flexibla och kallas icke-parametriska tester. Parametriska tester är ofta (men inte alltid) känsligare, vilket betyder att de har en något större chans att hitta något som du letar efter. Skillnaden i känslighet mellan parametriska och icke-parametriska tester är dock ofta förvånansvärt liten. Om dina observationer passar din “fasta nyckel”, använd då parametriska tester. Annars, använd en skiftnyckel som kan anpassa sig till dina observationer.

Icke parametriska tester
(Se det som en justerbar skiftnyckel)
Parametriska tester
(Se det som en fast nyckel som inte kan justeras)
NominalskalaX
OrdinalskalaX
Intervallskala – sned fördelningX
Intervallskala – normalfördelningX
Kvotskala – tid till en händelse(X)X
Kvotskala – räknedataX

Vissa statistiker skulle tillämpa parametriska tester på stora observationsmaterial mätta på en ordinalskala och som är normalfördelade. Detta anses av vissa vara ett praktiskt tillvägagångssätt. Dock saknar det teoretiskt stöd eftersom parametriska tester kräver ekvidistanta skalsteg. Det är aldrig fel att använda ett icke-parametriskt test om du är osäker.

Beroende observationer

De flesta statistiska tester som används för analytisk statistik kräver att observationerna är oberoende av varandra. Detta är kanske inte alltid fallet och denna situation hanteras genom att använda blandade (mixade) modeller (Mixed-effects models) där man kan justera för beroendet.