February 9, 2021

Hvor afhængigt er uafhængigt nok for middelværdien af en normalfordeling?

Mange standardmetoder i statistik antager at observationer i et datasæt er uafhængige. En af de første modeller, der gennemgåes i indledende statistikkurser er inferens for middelværdien af en normalfordelt variabel.

Dette gøres ved at bestemme det empiriske gennemsnit μˉ=1ni=1nxi {} = _{i=1}^n x_i og den epiriske spredning σˉ=1n1i=1n(xiμˉ)2 {} = af observationerne xi,i=1nx_i, i=1 n.

Ud fra dette kan der bestemmes konfidensintervallet

(μˉt0.025,n11nσˉ,μˉ+t0.025,n11nσˉ) ( {} - t_{0.025,n-1} {}, {} + t_{0.025,n-1} {} )

og der kan foretages t-test af middelværdien mod en forudbestemt værdi.

I denne forbindelse lærer studerende, at det ud over normalfordelingsantagelsen er nødvendigt at observationerne er uafhængige. Da jeg for nyligt rettede en stak eksamensopgaver i et indledende statistikkursus, var der mange studerende, der diskuterede muligheden for at enkelte personer inkluderet i et kohortestudie potentielt var ikke-uafhængige, eftersom det ikke kunne udelukkes, at personer f.eks. kunne være i familie med hinanden. Dette fik mig til at overveje, hvor stor en andel af en stikprøve skal være del af ikke-uafhængige klynger, for at ikke-uafhængigheden reelt betyder noget for inferensen for normalfordelingens middelværdi.

For at undersøge dette, simulerede jeg data (med 10,000 simulationer for hvert scenarie) ud fra modellen X=μ+γ+ϵa X = + + ^a for personer inkluderet i en klynge og X=μ+ϵu X = + ^u for personer ikke inkluderet i en klynge. R-koden for min simulation kan findes her.

I alle mine simulationer sættes den sande middelværdi μ til 00.

De tilfældige dele af modellen er valgt til alle at være normalfordelt γN(0,σγ) N(0,), ϵaN(0,σϵa) ^a N(0,^a_), ϵuN(0,σϵu) ^u N(0,^u_) og med parametrene valgt så (σϵu)2=(σϵa)2+(σγ)2(u_)2 = (a_)2 + ()^2, sådan at den totale variation mellem vilkårlige individer, der ikke er i samme klynge, er σϵu^u_. I alle mine simulationer er dette valgt til σϵu=2^u_.

Ud fra denne datagenererende proces fik jeg følgende resultater. Her er effektiv stikprøvestørrelse beregnet som (se/se0)2n( se / se_0 )^2 n hvor sese er den observerede standardfejl, se0se_0 den observerede standardfejl i det tilsvarende scenarie med ingen klyngeeffekt, altså fuld uafhængighed, og nn antal observationer i stikprøven.

Antal observationer Antal klynger Klyngernes størrelse σγ_ Gennemsnitlig standardfejl Effektiv stikprøvestørrelse
100 10 10 0.0 0.1996273 100.0
100 10 10 0.5 0.1989488 99.3
100 10 10 1.0 0.1969086 97.3
100 10 10 1.5 0.1924680 93.0
100 10 10 2.0 0.1852052 86.0
100 25 2 0.0 0.1995013 100.0
100 25 2 0.5 0.1997287 100.0
100 25 2 1.0 0.1993487 99.8
100 25 2 1.5 0.1989864 99.5
100 25 2 2.0 0.1986680 99.2

Ud fra disse resultater ser vi, at endda i situationer, hvor alle observationer er del af store klynger (10 klynger á 10 observationer i øverste del af tabellen), som har meget lidt variation indenfor klyngen (ingen variation i rækkerne med σγ=2.0_ og altså σϵa=0^a_), taber vi kun få procent af den effektive stikprøvestørrelse.

Det er derfor tydeligt at få ikke-uafhængige observationer i store stikprøver, såsom enkelte familiemedlemmer i kohortestudier på mange tusinde personer ikke er et problem, i hvert fald ikke i dette simple tilfælde med en normalfordelings middelværdi.

Uafhængighedsantagelsen er selvfølgelig stadig vigtig, da afhængighedsstrukturen i sig selv kan bidrage med information. Samtidigt er det også uklart, om den negative påvirkning af ikke-uafhængighed er større i andre statistiske modeller.

Konklusionen må dog stadig være, at kun fordi man ikke kan udelukke, at enkelte observationer i ens store (eller blot, ikke meget lille) stikprøve, i en hvis grad er afhængige af hinanden, er dette ikke en betydende begrænsning for studiets resultater i sig selv. Som så ofte, er modelantagelserne ikke enten-eller, men et kontinuum fra fuldstændigt opfyldt til problematisk afvigende.


Previous post
Konfundering, konfunding eller confounding? I biostatistik, epidemiologi og relaterede områder bruges det engelske begreb confounding til at beskrive den situation, hvor en variabel både