Hvor afhængigt er uafhængigt nok for middelværdien af en normalfordeling?

Mange standardmetoder i statistik antager at observationer i et datasæt er uafhængige. En af de første modeller, der gennemgåes i indledende statistikkurser er inferens for middelværdien af en normalfordelt variabel.

Dette gøres ved at bestemme det empiriske gennemsnit μˉ=1ni=1nxi {} = _{i=1}^n x_i og den epiriske spredning σˉ=1n1i=1n(xiμˉ)2 {} = af observationerne xi,i=1nx_i, i=1 n.

Ud fra dette kan der bestemmes konfidensintervallet

(μˉt0.025,n11nσˉ,μˉ+t0.025,n11nσˉ) ( {} - t_{0.025,n-1} {}, {} + t_{0.025,n-1} {} )

og der kan foretages t-test af middelværdien mod en forudbestemt værdi.

I denne forbindelse lærer studerende, at det ud over normalfordelingsantagelsen er nødvendigt at observationerne er uafhængige. Da jeg for nyligt rettede en stak eksamensopgaver i et indledende statistikkursus, var der mange studerende, der diskuterede muligheden for at enkelte personer inkluderet i et kohortestudie potentielt var ikke-uafhængige, eftersom det ikke kunne udelukkes, at personer f.eks. kunne være i familie med hinanden. Dette fik mig til at overveje, hvor stor en andel af en stikprøve skal være del af ikke-uafhængige klynger, for at ikke-uafhængigheden reelt betyder noget for inferensen for normalfordelingens middelværdi.

For at undersøge dette, simulerede jeg data (med 10,000 simulationer for hvert scenarie) ud fra modellen X=μ+γ+ϵa X = + + ^a for personer inkluderet i en klynge og X=μ+ϵu X = + ^u for personer ikke inkluderet i en klynge. R-koden for min simulation kan findes her.

I alle mine simulationer sættes den sande middelværdi μ til 00.

De tilfældige dele af modellen er valgt til alle at være normalfordelt γN(0,σγ) N(0,), ϵaN(0,σϵa) ^a N(0,^a_), ϵuN(0,σϵu) ^u N(0,^u_) og med parametrene valgt så (σϵu)2=(σϵa)2+(σγ)2(u_)2 = (a_)2 + ()^2, sådan at den totale variation mellem vilkårlige individer, der ikke er i samme klynge, er σϵu^u_. I alle mine simulationer er dette valgt til σϵu=2^u_.

Ud fra denne datagenererende proces fik jeg følgende resultater. Her er effektiv stikprøvestørrelse beregnet som (se/se0)2n( se / se_0 )^2 n hvor sese er den observerede standardfejl, se0se_0 den observerede standardfejl i det tilsvarende scenarie med ingen klyngeeffekt, altså fuld uafhængighed, og nn antal observationer i stikprøven.

Antal observationer Antal klynger Klyngernes størrelse σγ_ Gennemsnitlig standardfejl Effektiv stikprøvestørrelse
100 10 10 0.0 0.1996273 100.0
100 10 10 0.5 0.1989488 99.3
100 10 10 1.0 0.1969086 97.3
100 10 10 1.5 0.1924680 93.0
100 10 10 2.0 0.1852052 86.0
100 25 2 0.0 0.1995013 100.0
100 25 2 0.5 0.1997287 100.0
100 25 2 1.0 0.1993487 99.8
100 25 2 1.5 0.1989864 99.5
100 25 2 2.0 0.1986680 99.2

Ud fra disse resultater ser vi, at endda i situationer, hvor alle observationer er del af store klynger (10 klynger á 10 observationer i øverste del af tabellen), som har meget lidt variation indenfor klyngen (ingen variation i rækkerne med σγ=2.0_ og altså σϵa=0^a_), taber vi kun få procent af den effektive stikprøvestørrelse.

Det er derfor tydeligt at få ikke-uafhængige observationer i store stikprøver, såsom enkelte familiemedlemmer i kohortestudier på mange tusinde personer ikke er et problem, i hvert fald ikke i dette simple tilfælde med en normalfordelings middelværdi.

Uafhængighedsantagelsen er selvfølgelig stadig vigtig, da afhængighedsstrukturen i sig selv kan bidrage med information. Samtidigt er det også uklart, om den negative påvirkning af ikke-uafhængighed er større i andre statistiske modeller.

Konklusionen må dog stadig være, at kun fordi man ikke kan udelukke, at enkelte observationer i ens store (eller blot, ikke meget lille) stikprøve, i en hvis grad er afhængige af hinanden, er dette ikke en betydende begrænsning for studiets resultater i sig selv. Som så ofte, er modelantagelserne ikke enten-eller, men et kontinuum fra fuldstændigt opfyldt til problematisk afvigende.

February 9, 2021

Konfundering, konfunding eller confounding?

I biostatistik, epidemiologi og relaterede områder bruges det engelske begreb confounding til at beskrive den situation, hvor en variabel både påvirker eksponeringen og udfaldet i en model.

Der er ikke konsensus om, hvad den korrekte danske oversættelse af confounding er, og i praksis bruges ofte både den engelske stavemåde og udtale af confounding. Denne situation er uhensigtsmæssigt, da det hverken er særlig elegant, eller sprogligt velfungerende, at bruge et engelsk ord i danske sætninger, hverken på skrift, eller mundtligt, f.eks. i undervisningssammenhænge.

Situationen forværres af behovet for forskellige bøjningsformer, specielt

  • confounding for selve det abstrakte fænomen
  • confounder for den variabel, der udløser fænomenet
  • to confound for det tilsvarende udsagnsord
  • confounding som tillægsord, f.eks. i vendingen a confounding variable

Jeg mener derfor at der er behov for et dansk ord for dette fænomen, og gerne et ord, som bøjes naturligt for alle, der er vandt til at tale dansk.

Findes konfundering på dansk allerede?

Konfundere optræder som udsagnsord i Ordbog over det danske Sprog (ODS) fra 1928 i betydningen bringe forvirring, uorden i; fremkalde forvirring og lignende betydninger, men uden at de sundhedsvidenskabelige betydninger nævnes i ODS. Ordet optræder dog ikke i den (moderne) Den Danske Ordbog.

Hverken konfunder, konfundere eller konfundering (ej heller konfunding) optræder i KorpusDK (Det Danske Sprog- og Litteraturselskabs korpus af danske tekster fra perioden 1990-2000).

I Retskrivningsordbogen, optræder bådet udsagnsordet konfundere i betydningen forveksle, sammenblande; forvirre og navneordet konfundering i betydningen det at konfundere, men hverken tillægsordet konfunderende eller navneordet konfunder.

I det danske Ugeskrift for Læger forekommer ordet konfundering i 30 artikler, konfunderet i 4 artikler og konfundere/konfunderer ligeledes i 4 artikler. Konfunder som navneord, ser derimod ikke ud til at forekomme.

Ordet konfunder, dog kun i sin flertalsform konfundere forekommer derimod flere gange i Sundhedsstyrelsens rapport Sundhedsmæssige effekter af fysisk aktivitet og stillesiddende tid hos 0-4-årige børn fra 2006 og i både ental og flertal i rapporten Får man ondt i lænderyg og i nedre ekstremiteter af meget stående og gående arbejde? udgivet af NFA i 2020.

Der kan findes enkelte danske undervisningsvideoer, som eksplicit anvender konfundering i dens statistiske betydning. Nogle af disse er tydeligvis tiltænkt undervisning i gymnasieskolen, nemlig på Ørestad Gymnasium og Københavns VUC samt i en video der understøtter en Matematik B-lærebog for HF.

Endvidere optræder ordet konfundering i kursusbeskrivelsen for kurset Basal statistik og epidemiologi for veterinærstuderende på Københavns Universitet.

Norsk

På norsk (bokmål) indgår ordet konfundering i sin statistiske betydning i artiklen Konfundering — et tilbakevendende problem i Tidsskrift for Den norske legeforening. Artiklen er skrevet af Magne Thoresen, som er professor i biostatistik ved Universitetet i Oslo. Denne artikel er også eneste fund for ordet konfundering i den sundhedsvidenskabelige litteraturdatabase PubMed.

I denne artikel optræder også konfunderende som tillægsord, mens der ikke indgår et navneord svarende til det engelske confounder. I stedet bruges sammensætningerne konfunderende faktor og konfunderende variabel.

Dog findes der i Tidsskrift for Den norske legeforening artiklen Konfunder — ikke confounder — på norsk fra 2013 af lægen, professor på Universitet i Oslo og redaktør for tidsskriftet Erlend Hem. I denne artikel konkluderes at begreberne konfundering og konfunderende faktor har fået en hvis udbredelse på norsk, herunder i lærebøger. Der diskuteres om konfunderer eller konfunder er et passende norsk ord for det engelske confounder og Erlend Hem plæderer for konfunder, grundet den mere mundrette udtale. Denne artikel er eneste fund for konfunder i PubMed.

Ordet konfundering optræder i alt i 54 artikler og konfunderende i 170 artikler i Tidsskrift for Den norske legeforening, til gengæld ser ordet konfunder (endnu?) ikke ud til at optræde udbredt i artikler i tidsskriftet.

Desuden optræder ordet konfundering i sin videnskabelige betydning i mindst en norsk undervisningsvideo fra NTNU.

Svensk

I Svenska Akademiens Ordbok (SAOB) optræder ordet konfundera i betydningen sammanblanda, röra ihop; förväxla og lignende betydninger, uden at der dog i ordbogen angives en statistisk / epidemiologisk betydning. Også de relaterede ord konfunderad, konfunderande og konfundering optræder i SAOB.

I det svenske Läkartidningen optræder konfunderad i 23 artikler, herunder i én artikel tilbage fra 1991 som er den eneste registreret i PubMed hvor ordet ser ud til at optræde. Desuden optræder vendinger som konfunderande faktorer og i alt optræder vendinger der starter med konfunder i 34 artikler.

I mindst en af disse artikler bruges konfundera som udsagnsord i vendingen har konfunderat, dog i betydningen forundret fremfor i den statistisk / epidemiologiske betydning. Tilsvarende er også nogle af forekomsterne af ordet konfunderad, herunder artiklen registreret i PubMed, udtryk for den ikke-videnskabelige betydning, mens det kun er i få artikler, at det tydeligt er den videnskabelige betydning af ordene der gøres brug af.

I Läkartidningen møder man desuden artiklen Øl, vin, spiritus og dødelighed fra 2001, som interessant nok er på dansk skrevet af Morten N Grønbæk og kollegaer fra forskellige sjællandske hospitaler. I denne dansksprogede artikel forekommer konfunderet, konfunderes, konfunderende og konfounder (bemærk stavemåden med ou).

I Läkartidningen optræder også (mindst) en artikel på norsk, som bruger konfunderende faktorer.

Forslag til brug af konfundere på dansk

Eftersom ordene konfundering og konfundere allerede findes i den danske Retskrivningsordbogen foreslår jeg at anvende disse ord også for den statistiske / epidemiologiske betydning.

Derimod findes ordet konfunding ikke i nogen af de skandinaviske kilder jeg kunne opdage, og virker derfor mindre egnet til introduktion til fagsproget.

Dog er der også behov for yderligere bøjningsformer af konfundere, som ikke optræder i de danske kilder. Jeg foreslår derfor følgende bøjningsformer:

  • at konfundere, bøjet som konfunderer, konfunderede, konfunderet og dermed svarende til den eksisterende bøjning i Retskrivningsordbogen.
  • en konfundering, bøjet konfunderingen, konfunderinger, konfunderingerne, svarende til den eksisterende bøjning i Retskrivningsordbogen.
  • konfunderende som aktivt afledt tillægsord af konfundere
  • konfunderet som passivt afledt tillægsord af konfundere
  • en konfunder med bøjningen konfunderen, konfundere, konfunderne på baggrund af både dets brug i danske rapporter såvel som forslaget om indførelsen af det samme ord på norsk i artiklen af Erlend Hem. Derimod virker ordet konfounder, som optræder i en enkelt dansksproget kilde for mig som en unaturlig blanding mellem dansk og engelsk, som jeg ikke vil anbefale at bruge.

Som vi har set i dette indlæg, er der faktisk en relativ udbredt anvendelse af konfundering og relaterede ord på dansk. Denne er dog stadig sjælden nok til at jeg hyppigt møder både sundhedsforskere og studerende, der ikke kender ordets danske udtale og stavemåde, og forundres når jeg bruger det på dansk i (universitets-)undervisning og skriftlig kommunikation. Måske kan dette indlæg bidrage til at ændre denne ærgerlige tilstand.

January 28, 2021