En hjelp til å forstå elementær statistikk og til å
bedømme usikkerhet i forskningsresultater basert på tilfeldige utvalg. Følgende begreper forklares: 1 Variasjon og
normalfordeling 2
Standardavvik 3
Utvalgsvariasjon og standardfeil 4
Konfidensintervall 5
Standardfeilen for en prosentandel 6
Standardfeilen for en forskjell 7 P-verdi 8 T-verdi 9
Korrelasjonsanalyse 10 Regresjonsanalyse 11 Forklart varians 12 Relativ risiko 13 Oddsratio 1
Variasjon og normalfordeling: Enhver
egenskap eller effekt av et tiltak i en populasjon har en spredning rundt et
gjennomsnitt. En normalfordeling er en symmetrisk, klokkeformet spredning om
midtpunktet. 2
Standardavvik (SA) er et mål på graden av spredning rundt
gjennom-snittet. I en normalfordeling angir et standardavvik den avstand fra
gjennomsnittet som 68 prosent av populasjonen ligger innenfor. 95 prosent av en normalfordelt populasjon
ligger innenfor en avstand av 2 standardavvik fra gjennomsnittet.
3 Utvalgsvariasjon og standardfeil: Trekker
man flere tilfeldige utvalg fra samme populasjon, vil gjennomsnittsverdiene i
utvalgene variere noe rundt gjennomsnittsverdien for populasjonen som helhet.
Graden av spredning i gjennomsnittene kan uttrykkes ved deres standardavvik.
Dette standardavviket forteller hvor stor unøyaktighet man må forvente hvis
man generaliserer til populasjonen som helhet ut fra gjennomsnittet i et
enkelt utvalg. Gjennomsnittenes standardavvik kan anslås ved at man dividerer
standardavviket i det utvalget man har
trukket med kvadratroten av antall personer (N) i utvalget (eksempel 1).
Resultatet kalles standardfeilen (SF) for
gjennomsnittet i utvalget når dette brukes som estimat for gjennomsnittet i
populasjonen. Eksempel 1: I et utvalg på 100 er
gj.snittsblodtrykket 130 mm og standardavviket 20 mm. => SF = 20/100 = 2
mm. 4 Konfidensintervall: Gjennomsnittet i populasjonen som helhet ligger
med 95 % sannsynlighet innenfor en
avstand av 2 standardfeil fra
gjennomsnittet i utvalget. Området ’utvalgsgjennomsnitt +/- 2 standardfeil’
kalles 95-prosent konfidens-intervallet (KI) for gjennomsnittet i
populasjonen (eksempel 2). Eksempel 2: I eksempel 1
er 95 % KI = 130 +/- 2x2 =126–134 mm. 5 Standardfeilen for en prosentandel: Ofte måles
prosentandelen (P) som har en bestemt egenskap, snarere enn
gjennomsnittsskåren på egenskapen. SF(P) =
P(100-P)/N, når N er
utvalgsstørrelsen (eksempel 3). Note 3: 100 fikk medisin, 10 % ble friske. => SF(P) = (10x90)/100
= 3 %. 6 Standardfeilen for en forskjell mellom to gjennomsnitt eller to
prosentandeler: SF(Diff) = SF12
+ SF2 2
, der SF1 og SF2 er standardfeilene for hvert av
gjennom-snittene/prosentandelene (eksempel 4). Eksempel 4: 60 % av 100 reagerte positivt på medikament A, mens 50 % i en annen tilfeldig gruppe på 144 personer
reagerte positivt på placebo.
=> SF1 = 4.9 %, SF2 = 4.2 %,
SF(Diff) = 6.4 %, KI = 10 +/- 12.8 %,
dvs fra –2.8 % til +22.8 %.
7 P-verdi: På grunn av tilfeldig variasjon kan grupper som
egentlig er like, skåre ulikt i utvalgsundersøkelser. Anta at en undersøkelse
viser en viss forskjell mellom to grupper.
Sannsynligheten for å trekke et utvalg som viser minst så stor
forskjell når det egentlig ikke er forskjell, kalles forskjellens p-verdi (eksempel 5). Jo
lavere p-verdien er, jo mer statistisk
signifikant anses den observerte forskjellen å være. Eksempel
5. Forekomsten av en sykdom var 10 prosent i en behandlingsgruppe på 100
personer, mot 15 prosent i en like stor kontrollgruppe. Sjansen for å finne
en så stor forskjell hvis behandlingen i virkeligheten var virkningsløs, er
28 %. Dvs. at den observerte
forskjellen har en p-verdi på 0.28. NB!
Den vekten en bør tillegge en observert forskjell avhenger på den ene side av
p-verdien, og på den annen side av hvor rimelig forskjellen virker ut fra det
en ellers vet. Er forskjellen uforståelig, vil en betrakte den som tilfeldig
med mindre p-verdien er svært lav. 8
T-verdi:
Dividerer man en forskjell på forskjellens standardfeil (se foran), får man
forskjellens t-verdi, se eksempel 6. Høy t-verdi betyr at forskjellen er stor
i forhold til den statistiske feilmarginen, og derfor overbevisende. Det er
en direkte sammenheng mellom t-verdier og p-verdier. Har man mange
observasjoner, gjelder tallene til høyre.
Eksempel
6. Observert en forskjell på 20 mm blodtrykk mellom en
behandlingsgruppe og en kontrollgruppe. SF
beregnes til å være 10 mm. =>
t-verdi = 2.0. t-verdi: 1.0
1.5 1.7 2.0
2.6 p-verdi:
0.32 0.13 0.09
0.05 0.01 9 Korrelasjonsanalyse forteller hvor sterkt to egenskaper samvarier i et utvalg av subjekter. Samvariasjonen uttrykkes som en
koeffisient r mellom –1 og +1.
Standardfeilen for r brukt som
estimat for hele populasjonen: SF(r)
= (1 – r2) / N, når N er utvalgsstørrelsen (eks. 7). Note
7.: N = 100, r = 0.8 gir SF (r) = 0.036 og 95% KI = 0.8 +/- 0.072 = 0.73 –
0.87. 10 Regresjonsanalyse viser hvordan
subjekters skåre på én egenskap (avhengig variabel) påvirkes av deres skårer
på andre egenskaper (forklaringsvariable), se eksempel 8 på såkalte ustandardiserte
regresjons-koeffisienter. Det kan også beregnes standardiserte koeffisienter, se eksempel 9. Disse viser hvilke forklaringsvariable som betyr mest for den
avhengige variabelen. Eksempel 8. Ustandardisert
regresjons-likning. Blodtrykk = B + 0.8 x
År + 0.6 x Kg. Likningen forteller at blodtrykket i gjennomsnitt øker med 0.8 mm per år ved uendret kroppsvekt, og
med 0.6 mm når kroppsvekten øker med en kilo og alderen er uendret. Eksempel 9.
Anta at man sammenlikner personer med gjennomsnittlig kroppsvekt med
personer med kroppsvekt et standardavvik over gjennomsnittet. Personene er
ellers like. Anta at blodtrykket hos de sistnevnte ligger et halvt
standardavvik over gjennomsnittlig blodtrykk. => standardisert
regresjonskoeffisient = 0.5. 11 Forklart varians: Figur 4 illustrerer
regresjonsanalyse i det enkleste tilfellet med bare en forklaringsvariabel.
Det er plottet inn et utvalg personer med skårer på egenskapene X og Y. På Y
har de en spredning rundt et gjennomsnitt y0. Noe av denne spredningen skyldes spredning
på X. Regresjonsanalysen anslår
gjennomsnitts-verdier for Y gitt
ulike verdier for X, jfr skrålinjen i figuren. Spredningen rundt denne linjen er mindre
enn spredningen rundt gjennomsnittet
for y. Reduksjonen i spredning kalles forklart
varians. Den beregnes som en prosent og betegnes R2. Høy R2
indikerer at forklaringsmodellen som helhet er god. 12 Relativ risiko: Er risikoen for sykdom 20 % i en gruppe og 10 % i en annen, er den
relative risikoen (RR) i den første gruppen
20:10 = 2.0. 13 Oddsratio: Er risikoen
for sykdom i en gruppe 20 %, er oddsen 20/80 = 1/4. Er risikoen 10 % i en
annen gruppe, er oddsen her 10/90 = 1/9.
Oddsratioen (OR) blir da: ¼ : 1/9 = 2,25. Oddsratio er tilnærmet lik relativ risiko
hvis begge risikoer er under 20-30 %, se tabellen.
|