5 Beskrivende statistik

Dette kapitel handler om, hvordan man med få ord, tal og figurer kan beskrive store datasæt. I eksemplerne benytter jeg datasættet fra spørgeskemaundersøgelsen om selvrapporteret helbred fra 2742 voksne personer.

Den menneskelige korttidshukommelse kan sjældent rumme mere end 5-8 informationsbidder ad gangen. Personligt var det et tilbageslag for mig, da vi i Danmark gik fra 6- til 8-cifrede telefonnumre.

Fordi de fleste datasæt rummer mere end 5-8 stykker data, er det nødvendigt for os som mennesker at kunne præsentere data i meningsfulde sammendrag, som formidler alt det væsentlige i data men på ganske lidt plads.

Heldigvis kan data ofte beskrives uddybende med få oplysninger om datas centrum, form og spredning. Vi behøver fx ikke kende højden på alle danske mænd for at konstatere, at de gennemgående er højere end danske kvinder (men lidt lavere end hollandske mænd). Til det formål kan vi nøjes med at vide (fra en stikprøveundersøgelse), at de i gennemsnit er omkring 180 cm høje og sjældent lavere end 160 cm eller højere end 200 cm, mens kvinder i gennemsnit er ca. 167 cm høje og sjældent lavere end 145 cm eller højere end 185 cm.

Ud fra disse oplysninger, kan vi gøre os nogle velbegrundede antagelser om datas centrum, form og spredning.

Histogrammerne i Figur 5.1 viser fordelingen af højde hos kvinder og mænd fra spørgeskemaundersøgelsen. X-aksen angiver kropshøjden i intervaller à 4 cm, og y-aksen (søjlehøjden) viser, hvor mange personer, der findes i hvert interval.

Fordeling af kropshøjde

Figur 5.1: Fordeling af kropshøjde

Histogrammer er en god måde at illustrere måletals centrum, form og spredning på. Det er tydeligt, at centrum for mænds højde ligger omkring 180 cm, mens kvinders centrum er omkring 167 cm. Man kan også se, at højde for begge køn synes at have en nogenlunde symmetrisk form. Endelig kan man ane, at spredningen på mænds højde er en smule større end spredningen på kvinders højde.

5.1 Datas centrum

Der findes adskillige udtryk for den såkaldte centrale tendens i data. Til vores formål er det nok at kende til gennemsnittet og medianen.

Alle kender gennemsnittet og er fortrolige med, hvordan man beregner det ved at lægge alle tallene sammen og dividere med antallet af tal: \(\bar{X} = \frac{x_1+x_2 ... +x_{n-1}+x_n}{n}\).

Et andet meget benyttet mål for den centrale tendens er medianen, som er den midterste værdi i et sorteret datasæt. Har man fx tallene {1, 2, 3}, er medianen 2. I datasættet {2, 1, 3} er medianen også 2, fordi data skal sorteres, før man udpeger det midterste tal.

Hvis antallet af tal er lige, er medianen gennemsnittet af de to midterste tal, fx 2,5 for tallene {1, 2, 3, 4}.

Man finder altså medianen ved først at sortere tallene og dernæst finde det tal, som deler datasættet i to lige store dele.

5.2 Datas form

I mange datasæt ligger gennemsnit og median tæt på hinanden. I eksemplerne ovenfor er de faktisk helt ens. Dette gælder, når data fordeler sig symmetrisk omkring midtpunktet. Men hvis der i data forekommer “skæve” værdier, som gør data asymmetriske, kan gennemsnit og median være meget forskellige. Har man fx tallene {1, 2, 9}, er medianen stadig 2, mens gennemsnittet er 4. Det “skæve” tal 9 trækker altså i gennemsnittet men ikke i medianen, som bliver liggende lige i midten af data.

I spørgeskemaundersøgelsen fordeler deltagernes alder sig som i Figur 5.2.

Aldersfordeling

Figur 5.2: Aldersfordeling

Fordelingen er tydeligt asymmetrisk med en lang hale mod højre, og medianen (35 år) er da også betydeligt lavere end gennemsnittet (41.3 år). Man siger, at formen er højreskæv, når halen peger mod højre og medianen er mindre end gennemsnittet. Omvendt, hvis halen peger mod venstre, kalder man fordelingen venstreskæv.

Eksempler på data, som ofte fordeler sig symmetrisk er fysiologiske parametre som puls. blodtryk, højde og vægt. Typiske asymmetriske data er mål for tid (ventetid, tid mellem hændelser osv.) og visse biokemiske parametre.

Det er vigtigt at kunne vælge bevidst mellem brug af median og gennemsnit. Hvis data er symmetrisk fordelt, kan det være hip som hap. Men ved skæve fordelinger, rummer median og gennemsnit to forskellige budskaber. Kort fortalt udtrykker gennemsnittet datas tyngdepunkt, mens medianen udtrykker datas midtpunkt. Tænkt på en vippe på en legeplads med en voksen i den ene ende og et barn i den anden. Midtpunktet (medianen) deler vippen i to lige store halvdele, mens tyngepunktet (gennemsnittet) er forskudt mod den voksne. Det afhænger af opgaven, hvilke af de to mål for central tendens, der er mest velegnet. Og ofte kan det være nyttigt at have dem begge med i sin analyse.

Af og til støder man på fordelinger med flere pukler eller påfaldende brede midtersektioner. Figur 5.3 viser fordeling af højde hos alle personer uanset køn. Man aner to pukler med toppunkter omkring hhv. kvinders og mænds gennemsnitshøjder og en påfaldende bred midte i området med “høje” kvinder og “lave” mænd.

Fordeling af kropshøjde for mænd og kvinder samlet

Figur 5.3: Fordeling af kropshøjde for mænd og kvinder samlet

Fordelinger med flere pukler kaldes multimodale, og er et typisk tegn på, at data fra flere markant forskellige grupper er blandet sammen.

5.3 Datas spredning

Med “spredning” mener vi, hvor meget data breder sig ud fra centrum. I spørgeskemaundersøgelsen er næsten alle mænd mellem 160 og 200 cm høje.

5.3.1 Kvartiler

Ligesom med datas centrum findes der mange mål for spredning. Det enkleste mål er spændvidden (eng.: range), som er differencen mellem den højeste og den laveste værdi i et datasæt. Spændvidden er intuitivt let at forstå men knap så nyttig til praktisk statistik. Spændvidden har det nemlig med at variere med datasættets størrelse – jo flere data, jo større spændvidde – og er derfor ikke et robust mål for spredning.

Forklaringen på dette er, at jo flere personer man måler, jo større er chancen for at finde de sjældne tilfælde af særligt høje eller lave personer Hvis man kun måler 5 personer, vil spændvidden med stor sandsynlighed være meget mindre, end hvis man måler 100 personer, selv om de to stikprøver kommer fra den samme population. Derfor kan spændvidden sjældent stå alene som mål for datas spredning.

I stedet benytter man ofte kvartiler som spredningsmål. Første kvartil afgrænser den nederste fjerdedel (25%) af værdierne i et datasæt. Den anden kvartil (50%) er et andet ord for medianen, som deler data i to halvdele. Og tredje kvartil afgrænser de nederste tre fjerdedele (75%) af data.

Kvartiler er er mere robuste mål for datas spredning end spændvidden, blot man sikrer sig, at datasættet har en vis størrelse. Det giver fx ikke mening at udregne kvartiler, hvis man har færre end fire tal. I praksis bør datasæt være store nok til, at de tre kvartiler er forskellige fra hinanden og ikke ændrer sig væsentligt, når datasættet vokser.

Første, anden og tredje kvartil udgør tilsammen et meningsfuldt sammendrag af datas centrum, form og spredning. Centrum ligger på anden kvartil (medianen), spredningen angives af afstanden mellem første og tredje kvartil – dette kaldes den interkvartile spændvidde; og formen får man indtryk af ved at se på medianens placering i forhold til første og tredje kvartil. Hvis medianen ligger midt imellem kvartilerne, tyder det på, at data fordeler sig symmetrisk. Det samme er tilfældet, hvis medianen og gennemsnitet ligger tæt ved hinanden.

Tabel 5.1: Fordeling af kropshøjde hos mænd og kvinder
Køn N Minimum
  1. kvartil
Gennemsnit Median
  1. kvartil
Maksimum
Mand 1131 156 174 179.6 180 185 207
Kvinde 1335 143 163 167.0 167 172 198

En kompakt og elegant præsentation af måledatas centrum, form og spredning er kassediagrammet (eng.: boxplot). Kassens øvre og nedre grænse viser hhv. første og tredje kvartil og afgrænser dermed de midterste 50% af data. Stregen i midten af kassen viser medianen. Kassediagrammets knurhår (eng.: whiskers) strækker sig normalt halvanden gang den interkvartile spændvidde fra medianen, og prikkerne viser de mest yderlige datapunkter.

Figur 5.4 viser de samme data som Figur 5.1.

Kassediagram med fordeling af legemshøjde hos kvinder og mænd

Figur 5.4: Kassediagram med fordeling af legemshøjde hos kvinder og mænd

Af Figur 5.5 fremgår den skæve aldersfordeling tydeligt ved, at medianen ikke ligger midt i kassen, som afgrænser den interkvartile spændvidde.

Kassediagram over aldersfordeling hos kvinder og mænd

Figur 5.5: Kassediagram over aldersfordeling hos kvinder og mænd

Mere om histogrammer og kassediagrammer i næste kapitel om datavisualisering.

5.3.2 Standardafvigelse

Standardafvigelsen (eng.: standard deviation, SD) er en anden meget benyttet parameter til angivelse af måledatas spredning. SD er defineret som kvadratroden af de kvadrerede forskelle mellem de enkelte tal og gennemsnittet divideret med antallet af tal minus 1: \(SD = \sqrt{\frac{(x_i - \bar{x})^2}{n-1}}\). Det er lettest at forstå SD, hvis man lukker øjnene for kvadratrodstegnet. Tilbage står et udtryk, der minder om datas gennemsnitlige afstand til gennemsnittet – jo større afstand, jo større SD.

Standardafvigelsen er så udbredt, at den på dansk ofte blot kaldes spredningen. Undgå venligt udtrykket “standarddeviation” udtalt på dansk. Det er der ikke noget, der hedder.

I vores spørgeskemaundersøgelse finder vi, at spredningen på mænds og kvinders højde er hhv. 7.65 cm og 6.87 cm.

For data, som følger den såkaldte normalfordeling, har standardafvigelsen et par meget nyttige egenskaber. Ifølge normalfordelingen vil ca. to tredjedele af data befinde sig i intervallet plus/minus én SD fra gennemsnittet (\(\bar{X}\pm{1}SD\)), ca. 95% befinder sig inden for \(\bar{X}\pm{2}SD\), og næsten alle (>99%) data befinder sig inden for \(\bar{X}\pm{3}SD\).

Disse tommelfingerregler gælder kun for data, som er normalfordelte. Men selv for ikke-normalfordelte, meget asymmetriske data vil over 98% normalt befinde sig inden for \(\bar{X}\pm{3}SD\). Det betyder, at uanset datas form og fordeling er intervallet \(\bar{X}\pm{3}SD\) ligesom den interkvartile spændvidde et robust mål for datas spredning. Denne egenskab udnytter vi i kapitlet om Shewharts kontroldiagram.

5.4 Beskrivelse af kategoriske data

Mens centrum, form og spredning er naturlige parametre i ethvert sæt af måletal, giver det ikke umiddelbart mening at tale om centrum osv. for tælletal. Hvad er fx det “gennemsnitlige” køn eller spredningen på helbredsstatus?

I det følgende skelner vi mellem binære data, altså data med kun to kategorier, fx {sand, falsk}, og kategoriske data med flere end to kategorier, fx {dårlig, nogenlunde, god}.

5.4.1 Beskrivelse af binære data

Hvis vi tildeler en binær variabel værdierne 0 og 1, kan vi meget enkelt udregne et udtryk for datas centrum ved at beregne gennemsnittet, som er lig med proportionen af værdien 1.

I spørgeskemaundersøgelsen findes variablen “ryger”, som antager værdierne sand og falsk. Hvis vi oversætter “sand” til 1 og “falsk” til 0 kan vi beregne andelen af rygere som gennemsnittet. Ud af i alt 2466 personer, som har opgivet rygerstatus er der 1058 rygere. Det vil sige, at \(\frac{1058}{2466}=0.43\) svarende til 43% af personerne ryger.

5.4.2 Beskrivelse af data med tre eller flere kategorier

Det enkleste sammendrag af kategoriske data med flere end to kategorier får man ved simpelthen at tælle antallet i hver kategori. I spørgeskemaundersøgelsen blev deltagerne bedt om at angive deres helbred som enten “meget dårligt”, “dårligt”, “nogenlunde”, “godt” eller “meget godt”.

Svarene fordelte sig således:

Meget dårligt Dårligt Nogenlunde Godt Meget godt
25 76 489 1158 718

En nyttig grafisk fremstilling af fordelingen af kategoriske data er søjlediagrammet.

Selvvurderet helbred

Figur 5.6: Selvvurderet helbred

Hvis der er tale om ordinale data – altså data, hvor der er en naturlig rangorden mellem kategorierne som i Figur 5.6 – kan man med en vis ret sige, at søjlediagrammet fremstiller datas centrum, form og spredning.

Bemærk, at søjlediagrammet ligner histogrammet – men kun næsten. Fordi histogrammet repræsenterer fordelingen af kontinuerte måletal bør der ikke være mellemrum mellem søjlerne, som der er i et almindeligt søjlediagram, som repræsenterer diskrete (diskontinuerte) kategoriske data.

I nogle tilfælde kan det være meningsfuldt at oversætte ordinale data til numeriske data. I så fald har vi de sædvanlige metoder til måledata til rådighed. Hvis vi tildeler helbredskategorierne værdier fra 1 til 5, hvor 1 = meget dårligt og 5 = meget godt og samtidig antager, at afstandene mellem kategorierne er lige store, så fx 4 betyder, at helbreddet er dobbelt så godt som 2, kan vi på sædvanlig vis udregne fx gennemsnittet (= 4), medianen (= 4), spredningen (= 0.84) og den interkvartile spændvidde (= 1).

I nogle tilfælde er det meningsfuldt at benytte en non-ækvidistant skala. Karakterskalaen (både 12- og 13-skalaen) er et eksempel på en ordinal skala, hvor der ikke er lige lang mellem skalatrinene.

Endelig kan man vælge at dikotomisere data – dvs. oversætte en variabel til en sand-falsk-variabel. Hvis vi fx dikotomiserer helbredsvariablen, så den bliver “sand”, hvis helbreddet er “godt” eller “meget godt”, kan vi behandle helbred som en logisk variabel og let beregne andelen af personer med godt helbred.

Dikotomisering kan i øvrigt benyttes til alle typer data – også numeriske. Vi kunne fx finde andelen af høje personer, hvis vi dikotomiserer højde efter en eller anden grænseværdi.

5.5 Beskrivende statistik kort sagt

Store datamængder kan ofte beskrives meningsfuldt i sammendrag omfattende datas centrum, form og spredning.

Men vi er ikke færdige. Selv de mest præcise sammendrag kan snyde. Det ser vi på i næste kapitel om visualisering, hvor vi går på jagt efter mønstre og tendenser i data, som ikke lade sig indfange i simple sammendrag.