Vi kommer ha driftstörningar under en tid framöver (se "Uppdateringar").
(antal aktiva besökare uppdateras automatiskt var 4:e minut)
Citera denna sida som:
-
Skattning av stickprovsstorlek
-
Först publiserad:
på:
Senast updaterad:
Om du vill informera om att denna webbsida finns...
Denna webbsida beskriver vad stickprovsberäkning är och vad du behöver tänka på. Genom att läsa denna sida kommer du lära dig att själv utföra enkla beräkningar av stickprovsstorlek.
Du kommer förstå innehållet bäst om du först har läst sidorna Introduktion till statistik, Urvalsstrategier och datainsamling samt Effektstorlek.
Antag att vi vill undersöka om C-vitamin sänker blodtrycket. Vi antar, som en inledande nollhypotes, att det inte kommer finnas någon skillnad mellan grupperna. Alternativhypotesen är att det finns en skillnad mellan grupperna. Vi vill testa detta genom att jämföra två grupper av individer: en grupp som får C-vitamin och en som får placebo. I denna utvärdering med analytisk statistisk vill vi fastställa graden av osäkerhet kring vår nollhypotes genom att beräkna en effektstorlek och ett p-värde. Hur stor är chansen att vi lyckas påvisa att vi kan förkasta nollhypotesen (att det finns en verklig skillnad mellan grupperna) om det faktiskt är sant att det finns en skillnad? Hur stort stickprov behöver vi för vår studie?
Typ II-fel och studiens statistiska styrka (Power)
Det vore fördelaktigt om vi, innan studien genomförs, kunde veta hur stor chansen är att vi får ett resultat som visar att nollhypotesen är osannolik (p < 0,05). Detta kan beräknas i förväg och kallas för studiens statistiska styrka (eller power). Studiens styrka är ett mått på sannolikheten att vår studie kommer att förkasta nollhypotesen och upptäcka en effekt av C-vitamin när en sådan effekt faktiskt existerar.
Det är önskvärt att uppskatta projektets styrka i förväg innan det genomförs. Om styrkan uppskattas vara lägre än 80 % bör projektets design ändras. Ett vanligt sätt att modifiera designen är att öka den planerade stickprovsstorleken. Hur mycket behöver stickprovsstorleken ökas för att uppnå >80 % chans att upptäcka en effekt (t.ex. att få ett p-värde < 0,05)?
Studiens styrka hänger ihop med risken att begå ett Typ II-fel (att missa en effekt av C-vitamin som faktiskt finns där). Ett Typ II-fel betecknas även (ß) och innebär att vi misslyckas med att förkasta nollhypotesen trots att den faktiskt är falsk. Vid ett Typ II-fel ger vår studie ett falskt negativt resultat (p > 0,05) trots att det finns en verklig effekt/skillnad etc. Storleken på beta avgörs dels av storleken på effekten vi undersöker och dels av stickprovsstorleken. Effektstorleken är vad den är, men stickprovsstorleken kan vi påverka.
Ju högre risken är för ett Typ II-fel (ß) the lower is the power of the study. desto lägre är studiens styrka. Matematiskt är studiens styrka 1-ß (om du föredrar att presentera styrkan som ett tal mellan 0 och 1). Ofta multipliceras detta med 100 för att presentera styrkan som en procentsats mellan 0 och 100 %.
Introduktion till beräkning av stickprovsstorlek
De statistiska beräkningarna (=analytisk statistik) analyserar dina data och producerar resultat såsom effektstorlekar (oddskvoter, hazardkvoter etc.) och p-värden. Är anledningen till att man inte uppnår statistisk signifikans att det inte finns någon korrelation/skillnad mellan grupperna, eller är anledningen att stickprovsstorleken var för liten? För att undvika att hamna i det sistnämnda problemet rekommenderas att man använder en särskild programvara och gör den planerade statistiska beräkningen “baklänges” med hjälp av en antagen effektstorlek, en bestämd signifikansnivå och önskad statistisk styrka (power) hos studien. Det har gradvis blivit allt vanligare att etikprövningsnämnder och finansiärer kräver en uppskattning av stickprovsstorleken innan de godkänner ett projekt.
I alla projekt samlar man först in data och bearbetar dem preliminärt innan den faktiska analysen påbörjas. Följande steg innefattar beräkning av beskrivande (deskriptiv) statistik och, om tillämpligt, även analytisk (inferentiell) statistik. Om ditt projekt endast innehåller deskriptiv statistik ska du fokusera din stickprovsberäkning på denna. Exempel på fokus på deskriptiv statistik: “För att bekräfta en prevalens på 5 % av ett tillstånd med en felmarginal på 3 % (2–8 %) skulle det krävas 377 observationer”. Om ditt projekt däremot innefattar någon form av analytisk (inferentiell) statistik bör du fokusera din stickprovsberäkning på denna och inte utföra någon stickprovsberäkning för den deskriptiva statistiken.
Olika metoder för att uppskatta stickprovsstorlek
- Ta ett bekvämlighetsurval och hoppas att det räcker.
- Se hur många observationer andra publicerade projekt inkluderade och imitera dem.
- Följ en tumregel.
- Gör en beräkning baserad på dina bästa antaganden.
Hopp är bra i många situationer, men inte i denna. Att imitera andra är inte heller ett bra råd. Tänk om de andra gjorde en studie med för låg statistisk styrka (underpowered)? Varför upprepa deras misstag? Det finns vissa tumregler (alternativ C ovan), såsom:
- För gruppjämförelser av medelvärden (t-test), ha minst 30 i varje grupp.
- För gruppjämförelser av proportioner (chi-två), ha minst 5 i varje cell.
- För vanlig linjär regression / korrelation, ha minst 20 observationer för varje oberoende variabel.
- För logistisk regression, ha minst 10 gånger fler händelser/utfall än oberoende variabler .
- För Cox-regression, ha minst 10 gånger fler händelser/utfall än oberoende variabler . Till exempel: om du har fyra oberoende prediktorvariabler i modellen och andelen positiva fall i populationen förväntas vara 0,30 (30 %) skulle det minsta antalet fall som krävs vara 133.
Dessa tumregler är dock ganska rudimentära eftersom de inte tar hänsyn till storleken på den effekt du letar efter. De ger bara det absoluta minimiantalet du bör ha för att undvika att bryta mot underliggande matematiska antaganden, men de tar inte hänsyn till din specifika situation. Det bästa tillvägagångssättet för att uppskatta stickprovets storlek är att göra en korrekt stickprovsberäkning (alternativ D ovan) som tar hänsyn till situationen i din studie. Detta görs genom att först fatta fyra viktiga beslut:
- Bestäm vilken statistisk metod som ska användas för den analytiska (inferentiella) statistiken.
- Bestäm vilken effektstorlek / korrelation du letar efter. Det är bäst om detta kan uppskattas med hjälp av data från tidigare publikationer. Du måste göra en kvalificerad gissning om inga tidigare publikationer finns.
- Bestäm vad som skulle vara en acceptabel säkerhetsmarginal för att undvika att begå ett Typ I-fel (att hävda ett statistiskt fynd som inte är sant). Denna säkerhetsmarginal kallas alfa eller signifikansnivå och sätts vanligtvis till 0,05. Detta innebär att du har en chans på tjugo att begå ett Typ I-fel (att inbilla sig och tro att det finns en effekt när det i verkligheten inte gör det).
- Bestäm vilken statistisk styrka (power) din studie ska ha. Detta är samma sak som motsatsen till risken att begå ett Typ II-fel (att inte identifiera en effekt/korrelation som är sann). Styrkan sätts ofta till något mellan 0,80–0,95 vilket motsvarar 5–20 % chans att begå ett Typ II-fel.
Resten är ganska enkelt när vi väl har fattat dessa fyra beslut. Vi matar in våra val i en programvara som gör den statistiska beräkningen “baklänges” och anger hur stort stickprov vi behöver. Exempel på sådan programvara är G*Power och PASS. G*Power är gratis men PASS är ganska dyrt. G*Power klarar av de flesta situationer förutom Cox-regression.
Exempel på stickprovsberäkningar
Klicka för att fälla ut och se en video som förklarar mer:
Exempel där programvaran G*Power används
Exempel 1 på stickprovsberäkning för jämförelse av två grupper – T-test och Mann-Whitneys test
(Nedanstående video är på engelska. Om du har svårt att förstå engelska kan du få svensk text genom starta videon, sedan klicka på kugghjulsikonen, sedan klicka på Subtitles, klicka sedan på auto-translate och välj svenska. Detta fungerar någorlunda bra men det blir en del felaktigheter i översättningen).
Exempel 2 på stickprovsberäkning för jämförelse av två grupper – T-test och Mann-Whitneys test
(Nedanstående video är på engelska. Om du har svårt att förstå engelska kan du få svensk text genom starta videon, sedan klicka på kugghjulsikonen, sedan klicka på Subtitles, klicka sedan på auto-translate och välj svenska. Detta fungerar någorlunda bra men det blir en del felaktigheter i översättningen).
Exempel 3 på stickprovsberäkning för ovillkorad binär logistisk regression då den oberoende variabeln är binär (såsom kön)
(Nedanstående video är på engelska. Om du har svårt att förstå engelska kan du få svensk text genom starta videon, sedan klicka på kugghjulsikonen, sedan klicka på Subtitles, klicka sedan på auto-translate och välj svenska. Detta fungerar någorlunda bra men det blir en del felaktigheter i översättningen).
Exempel där programvaran PASS används
Exempel på stickprovsberäkning för Cox regression
(Nedanstående video är på engelska. Om du har svårt att förstå engelska kan du få svensk text genom starta videon, sedan klicka på kugghjulsikonen, sedan klicka på Subtitles, klicka sedan på auto-translate och välj svenska. Detta fungerar någorlunda bra men det blir en del felaktigheter i översättningen).
Stickprovsberäkning vid multipel regression
Du kanske planerar att använda multipel regression (med mer än en oberoende variabel) som din föredragna slutgiltiga statistiska analys. Det finns några olika sätt att hantera denna situation:
- Gör en stickprovsberäkning för varje oberoende variabel som om du skulle göra enkla (ojusterade) regressioner. Du kommer att få en stickprovsstorlek för varje oberoende variabel. Välj den med högst antal som din föredragna stickprovsstorlek (och lägg kanske till en marginal på 20 % extra). Detta är den vanligaste strategin och den som används i videorna ovan.
- Om du bara är intresserad av en oberoende variabel och vill lägga till några fler enbart för att justera för dem (som förväxlingsfaktorer/confounders), försök uppskatta bidraget från kovariaterna (“R square other X” i G*Power) och lägg in det i G*Power tillsammans med den förväntade informationen kring din huvudsakliga oberoende variabel för att beräkna den nödvändiga stickprovsstorleken. Att hitta rätt värde för “R square other X” är knepigt och kan vara omöjligt. Gör antingen en rimlig gissning eller använd strategi 1 ovan.
- Det kan finnas många oberoende variabler i en explorativ studie och ingen är inledningsvis viktigare än någon annan. Den enklaste lösningen är att använda strategi 1 ovan. Det kan vara svårt att reda ut hur variablerna förhåller sig till varandra i en multivariabel modell utan att göra många gissningar.
- Att beräkna stickprovsstorlek för interaktionsvariabler i en regression är knepigt av två anledningar. För det första är det ofta svårt att hitta stöd för de antaganden du behöver göra, så du kan bli tvungen att gissa vilt. För det andra skulle du behöva mer avancerad programvara än G*Power och en statistiker som har erfarenhet av denna avancerade beräkning (inte alla statistiker har det).
Signifikansnivå (alfa) kontra p-värde
Ett lågt p-värde säger att det är osannolikt att vi skulle få de observationer vi sett om effekten/sambandet vi letar efter i verkligheten är noll. Ett lågt p-värde indikerar att nollhypotesen kan förkastas och att alternativhypotesen är den mest sannolika. Hur lågt måste p-värdet vara för att vi ska tro att vår alternativhypotes är den mest rimliga? Detta bör avgöras från fall till fall. Läs mer om detta på sidan som beskriver signifikansnivån (alfa).
Kalkylatorer för styrka (power) eller stickprovsstorlek
Många statistiska programpaket, såsom G*Power (gratis), SPSS, STATA, MedCalc, statistikprogrammet R project (gratis), Jamovi (gratis) och SAS, har funktioner för att uppskatta stickprovsstorlek. Det finns också flera gratis onlinekalkylatorer:
- ClinCalc.com: Comparing two unmatched groups or one group versus population
- Raosoft: Calculator for confidence interval for proportions
- Sealed envelope: Superiority study comparing two unmatched groups where the outcome variable is binary
- Sealed envelope: Equivalence study comparing two unmatched groups where the outcome variable is binary
- Sealed envelope: Non-inferiority study comparing two unmatched groups where the outcome variable is binary
- Sealed envelope: Superiority study comparing two unmatched groups where the outcome variable is continous
- Sealed envelope: Equivalence study comparing two unmatched groups where the outcome variable is contonous
- Sealed envelope: Non-inferiority study comparing two unmatched groups where the outcome variable is continous
- Power and sample size: Lots of different calculators (including survival analysis such as Cox regression)
Stickprovsberäkning vid klusterstudier
Traditionella statistiska metoder förutsätter att urval och analys sker på samma nivå. Klustrade data uppstår när deltagare väljs ut via grupper men analyseras som individer. Även om metoden är användbar, minskar detta tillvägagångssätt den statistiska effektiviteten eftersom observationer inom samma grupp ofta är korrelerade .
Klustrens påverkan mäts med intraklasskorrelation (ICC). Tänk på ICC som en procentsats. Föreställ dig alla skillnader (variationen) i dina data som en paj. ICC anger hur stor del av denna paj som orsakas av gruppen som någon tillhör. Formeln för detta kan förenklas till:
ICC = Variation orsakad av gruppen / Total variation
Om ICC är 0,05 betyder det att 5 % av skillnaden i dina resultat beror på vilken grupp deltagarna tillhörde, och att 95 % utgörs av rent individuella skillnader mellan människor.
Ett typiskt exempel kan vara att observationer är klustrade på olika vårdcentraler eller olika sjukhus. Eftersom observationer inom varje kluster är relaterade till viss del, tillförs en slumpmässig variation mellan klustren som gör att “bilden blir något suddig”. Det innebär att du måste öka din stickprovsstorlek för att behålla förmågan att hitta det du letar efter. Det går att visa att det är bättre att ha många kluster som bidrar med få observationer, jämfört med att ha få kluster som bidrar med många observationer. För att uppskatta detta, beräkna först den nödvändiga stickprovsstorleken som om det inte fanns någon klustereffekt. Använd därefter kalkylatorn nedan för att uppskatta vilken effekt olika klusterdesigner får på den nödvändiga stickprovsstorleken.
Du behöver hitta ett lämpligt antagande för ICC att mata in nedan. Det idealiska är om du hittar en publikation med en studie liknande din som anger ICC. Om så är fallet, använd det värdet. I annat fall får du göra en rimlig gissning för att uppskatta ICC. I sjukhusmiljö varierar ICC mellan 0,02–0,2 . Inom öppenvården ligger vanliga uppskattningar av ICC på 0,01–0,02 . Även om ICC vanligtvis är <0,1 kan det ibland vara uppåt 0,3 . Om du inte har någon aning om vad ICC är kan du utforska konsekvenserna av att sätta ICC till 0,01, 0,02, 0,05 och 0,1.
Exempel på hur du kan formulera din stickprovsberäkning
Nedan följer exempel på hur man skriver avsnittet om stickprovsstorlek i ett studieprotokoll eller i det slutgiltiga manuskriptet.
| Situation | Exampel på formuleringar (på engelska eftersom det är citat) |
|---|---|
| En randomiserad kontrollerad studie som syftar till att minska antibiotikaförskrivningen vid urinvägsinfektioner hos sköra äldre . | “For the sample size calculation, we assumed a clinically relevant reduction in antibiotic prescribing rates from 0.75 to 0.40 per person year, an intracluster correlation coefficient of 0.06, one sided testing, an α of 0.05, a power of 0.8, and a cluster size of 10 patients contributing for seven months in the follow-up period. Using a Wilcoxon test with an adjustment for cluster randomisation, it was estimated that 333 patients would be needed. To account for loss to follow-up, we increased the cluster size to 20 patients. In total, we aimed to include 680 participants in 34 clusters.” |
| En observationsstudie för att utveckla och validera en multivariabel prediktionsmodell utifrån en retrospektiv kohortstudie. Syftet var att förutsäga utvecklingen av en enteroatmosfärisk fistel hos patienter med öppen buk . | “Sample size calculations were based on significant prognostic factors from the recently published systematic review regarding each of the outcomes. All sample size calculations were performed using the software G*Power version 3.1.9.2 with the level of significance set to 0.05, the power to 95% and using a two-tailed test. The sample sizes required for analysing the different independent prognostic factors were for (a) large bowel resection: 287 patients; for (b) failed delayed fascial closure: 99 patients. Therefore, for the expected number of significant variables considered within our study, the aim is to include a total of at least 287 patients.” |
| En observationsstudie för att få en översiktlig uppskattning av den relativa betydelsen av demografiska faktorer såsom glesbygdsboende, socioekonomisk standard och etnicitet jämfört med traditionella riskfaktorer för kvinnor som diagnostiserats med bröstcancer i Far North Queensland, Australien . | “A sample size calculation was performed for the primary research question using Power Analysis and Sample Size (PASS) Software. Assuming a power of 0.95, an alpha of 0.05, and hazards ratios of 1.6, 1.4, and 1.3 for Aboriginal and Torres Strait Islander status, remoteness of area of residence, and socioeconomic status respectively, the required sample sizes were 224, 276, and 501.” |
| En interventionsstudie med enbart en grupp, där vissa individer antogs reagera annorlunda på interventionen jämfört med andra . | A sample size calculation was made for the potential difference in antibiotic prescribing in case of a negative test for GAS. It was assumed that 20% of general practice trainees (registrars) would prescribe antibiotics despite a negative test for GAS, in comparison to 40% for specialist general practitioners, assuming a level of significance of 0.05, a power of 0.8 and a two-sided test requires 207 patients. The software G*Power version 3.1.9.2 was used assuming logistic regression with antibiotic prescribing as the dependent variable. The researchers aimed to collect data from 300 patients. |
| En randomiserad kontrollerad studie som syftade till att undersöka om att förse mödrar med stegräknare skulle öka den fysiska aktiviteten hos deras barn . | A two-tailed Student’s t-test was used as a surrogate analysis in the sample size calculation. Under the assumptions of 80% power, an alpha of 0.05, increase of daily steps of +1300 in the intervention group and no change in the control group with a standard deviation of 1200 in both groups, results in a requirement of 16 participating children. To allow for some loss to follow-up, the target was set to 25 in each group. |
| En randomiserad kontrollerad studie med tre syften. Detta projekt syftar till att (a) uppskatta människors intresse för hälsorelaterad forskning, (b) fastställa i vilken utsträckning människor uppskattar att bli aktivt informerade om aktuell lokal hälsorelaterad forskning och (c) undersöka om nivån på människors intresse kan påverkas genom att proaktivt marknadsföra aktuell lokal hälsorelaterad forskning med hjälp av stora TV-skärmar . | A sample size estimation was made for each of the aims: a) Accepting a margin of error of 2.5% with a 95% confidence level and assuming that 80% are positive towards medical research requires 938 responses. b) Accepting a margin of error of 2.5% with a 95% confidence level and assuming that 50% are positive to the automated information system for medical research requires 1428 responses. c) Assuming a level of significance of 0.05, 95% power, a two-tailed test and assuming that the proportion of patients being positive to medical research increases from 80% to 90% requires 341 surveys before and 341 surveys after the introduction of the automated presentation system. We aimed to collect approximately 500 answered surveys in each phase, in total 1500. |
| En randomiserad kontrollerad studie som syftade till att utvärdera effekten av oralt prednisolon i låg dos under fyra dagar som tillägg till konventionell behandling vid smärtsam akut extern otit . | Sample size calculations were based on the primary research questions and made two-tailed to avoid the assumption that a difference between groups would always favour the intervention group. Sample size calculations for survival analysis used the statistical software PASS version 11.0.8.20 Other sample size calculations were done using the statistical software G*Power version 3.1.3. We calculated that 198 patients would be sufficient to answer all primary research questions. We expected that some patients would be lost to follow-up so we aimed to include 250 patients. A more detailed description of the sample size calculation is described in the full study protocol. |
| En observationell tvärsnittsstudie (enkät) som syftade till att klargöra faktorer som korrelerar med allmänläkares benägenhet att förskriva tillskott vid marginell vitamin B12-brist . | Male medical practitioners have in other situations been seen as more proactive (for better or worse) than female medical practitioners in prescribing behaviour [Citation 21]. The authors wanted to explore if this was also true for the prescribing of vitamin B12 supplementation for the described scenario. We assumed that 30% of female and 60% of male practitioners are high prescribers of B12 and using logistic regression. Level of significance was set to 0.05 and power set to 80%. A required sample size of 88 GPs was calculated by the statistical power analysis program G*Power, version 3.1.9.2, on 31st October, 2014. We aimed to collect more than 90 surveys. |
| En observationsstudie som syftade till att 1) etablera en reproducerbar metod för att bedöma förkalkning i bukaortaaneurysm (AAA) med hjälp av datortomografi; 2) undersöka sambandet mellan förkalkning i AAA och tillväxt . | The required sample size was calculated based on two assumptions. Firstly, mean AAA volume growth/year in patients with calcification volume < median was assumed to be 12 cm3/yr, SD = 6.5 cm3/yr based on results from a previous CT study [Citation 17]. Secondly we predicted that AAA growth rate would be 42% greater in patients with calcification volume < median as suggested by results from a study by Lindholt and colleagues [Citation 16]. Using the G-power 3.1.9.2 tool, (Two tailed t-test: difference between means α = 0.05, Power = 0.95), 30 observations in each group were needed. |
| En observationsstudie som syftade till att kvantifiera prevalensen av dokumenterad urinvägsinfektion (UVI), ospecifika symptom samt antibiotikabehandling vid misstänkt UVI på särskilda boenden. Studien undersökte samband med hjälp av logistisk regression . | To estimate the covariation between presence of a symptom and having diabetes we assume that 3% of non-diabetics and 12% of diabetics has confusion or fatigue or restlessness with an alpha error of 0.05, a power of 90% and a prevalence of diabetes of 15% requires 620. To estimate the covariation between being on antibiotics and having diabetes we assume that 1% of non-diabetics and 8% of diabetics are on antibiotics with an alpha error of 0.05, a power of 90% and a prevalence of diabetes of 15% requires 602. To ensure a suitable sample we aim to include 850 participants. All sample size calculations are made using the software G*Power version 3.1.9.2. |
Läs mer…
- Martin Gellerstedt – Kompendium om stickprovsstorlek. 2011.
- NCSS Statistical software: Video about basics in calculating power and sample size (på engelska)
- Sabyasachi et al. Sample size calculation – Basic principles. Indian J of Anaesthesia. 2016 . (på engelska)
- Rutherford et al. Methods for sample size determination in cluster randomized trials. International Journal of Epidemiology. 2015 (på engelska)