Hjem > grafikk, KOSTRA > ST 49/11: En ny verktøykasse

ST 49/11: En ny verktøykasse

Korrelasjoner og spredningsdiagrammer er statistiske verktøy

En vanlig metode for systematisk datainnsamling starter med å definere et sett undersøkelsesenheter og et sett variable. Deretter henter vi inn, eller observerer, enhetenes verdier på alle angitte variable. Informasjonen kan presenteres som en todimensjonal tabell, med enhetene langs den ene, og variablene langs den andre aksen. En slik tabell kaller jeg en datamatrise.

I dagens verden vil slike tabeller lages i digital form. Datamatrisen er i så fall en enkel database. Databasen er enkel fordi den underliggende datamodellen er enkel. Vi kan kalle den en flat eller todimensjonal database,

Den norske bibliotekstatistikken er organisert på denne formen. Bibliotekene er undersøkelsesenheter. Verdiene skaffes til veie ved egenrapportering: hvert enkelt bibliotek leverer opplysninger om seg selv. Informasjonen lagres i flate databaser (datamatriser).

Fire ulike bibliotektyper dekkes, hver med sitt eget registreringsskjema.

  1. folkebibliotek
  2. fagbibliotek
  3. skolebibliotek
  4. mobile enheter

Når det gjelder fagbibliotekene, har det vært tradisjon for å gjøre hele matrisen tilgjengelig for analyse og gjenbruk. Selve grensesnittet er imidlertid ganske rudimentært. Hele matrisen publiseres som ett gigantisk regneark.

Den økende vektleggingen av statistikk i bibliotekfeltet har skapt interesse for fri adgang til data fra de andre sektorene også. Statistikkprodusentene, det vil si ABM-utvikling og (nå) Nasjonalbiblioteket, har ikke sagt noe skriftlig om dette, men en slik utvikling har vært antydet i muntlig og uformell form. For folkebibliotekene har vi adgang til deler av den digitale dokumentasjonen gjennom KOSTRA.

De første KOSTRA-tallene om folkebibliotek ble publisert rett etter år 2000. Den første versjonen hadde flere faglige svakheter. Indikatorene ble revidert i 2006 etter påtrykk fra brukerne i bibliotekfeltet. De reviderte indikatorene bygger på femten variable fra bibliotekstatistikken (liste) kombinert med to variable fra demografisk statistikk (folketall, antall personer 0-13 år). De femten bibliotekvariablene blir overført fra Nasjonalbiblioteket (tidligere ABM-utvikling) til KOSTRA og publisert som en del av KOSTRA-systemet.

Datamatrisene fra KOSTRA etter revisjonen omfatter nå femten variable fra godt over fire hundre bibliotek gjennom fem år. Til sammen dreier det seg nå, sommeren 2011, om godt over tredve tusen enkeltverdier. Selv om antall variable er begrenset, er dette et materiale som egner seg for mange typer empiriske undersøkelser. Det kan også, på et mer dagligdags plan. brukes som datagrunnlag for empirisk baserte argumenter i den norske fagdebatten om bibliotek.

Her skal jeg, som et eksempel, se på besøks- og utlånstallene.

Diagram 1

I det første diagrammet er folkebibliotekene plottet i et aksekors med besøk pr. innbygger på X-aksen og lån pr. innbygger på Y-aksen. Bibliotek uten tall for besøk er tatt ut. Dessuten er Utsira, som har eksepsjonelt høye utlånstall og mindre enn tre hundre innbyggere, fjernet. Vi har igjen tall fra 378 bibliotek.

Det er åpenbart en viss sammenheng mellom besøkstallene og utlånstallene. Bibliotek med høye besøkstall har generelt høyere utlånstall. Men sammenhengen er ikke særlig sterk. Punktene er spredd utover som en myggsverm. Korrelasjonskoeffisienten er 0,57. Det betyr at en tredjedel av variasjonen i utlånet kan tilskrives variasjoner i besøket.

Beregning: Koeffisienten kvadrert viser hvor mye av variasjonen i Y som forklares av varaisjonen i XC. Her er: 0,57 * 0,57 = 0,32, eller 32 prosent.

Virkeligheten er variabel. Empirisk forskning dreier seg svært ofte om å forklare variasjon ved å avdekke statistiske sammenhenger mellom kvantitative størrelser.

Folkebiblioteket er en ganske homogen institusjonstype. De er underlagt et felles lovverk, de har samme arbeidsoppgaver og de styres av en uvanlig homogen yrkesgruppe. Har du sett ett bibliotek, kjenner du deg igjen i det neste. Det store flertall av norske bibliotekarer sendes ut på arbeidsmarkedet med stempelet «made in Oslo». Landet har i alle år hatt en dominerende bibliotekutdanning. Alle som betyr noe kjenner alle som betyr noe. Likevel er bibliotekene forskjellige. Det er nok å se på statistikken.

Her undersøker vi sammenhengen mellom besøk og utlån i norske folkebibliotek. Da trenger vi metodiske verktøy.  De store statistiske tabellene drukner oss i data. Med to indikatorer og fire hundre bibliotek blir det åtte hundre tall å forholde seg til. Det blir for mye. Korrelasjonskoeffisienten angir sammenhengen som ett enkelt tall. Det er ofte nyttig. Men figuren gir et langt bedre bilde av mønsteret som ligger bak. Vi får et fastere og mer konkret bilde av bibliotekenes hverdag hvis vi studerer detaljene i slike grafiske bilder. Spredningsdiagrammene fungerer som mikroskoper inn i bibliotekets lokale virkelighet.

Den loddrette grønne linjen angir gjennomsnittsbesøket (4,02), mens den  vannrette blå linjen angir gjennomsnittsutlånet (5,22).

Det er verdt å merke seg at disse gjennomsnittene ikke er det samme som gjennomsnittsbesøket og gjennomsnittsutlånet for landet som helhet. De nasjonale verdiene er

  • summen av alle besøk i Norge delt på folketallet
  • summen av alle lån i Norge delt på folketallet

Våre verdier er

  • summen av (besøk pr. innbygger) i alle kommunene, delt på antall kommuner
  • summen av (lån pr. innbygger) i alle kommunene, delt på antall kommuner

Korrelasjon og regresjon

I diagrammet er det trukket en rett linje gjennom det «dobbelte» midtpunktet (4,02; 5,22). Dette er regresjonslinjen. I vårt tilfelle har linjen formen:

  • Y = 2,97 + 0,56X

Regresjonslinjen, forteller alle lærebøker i statistikk, er den rette linjen som på best mulig måte angir sammenhengen mellom X-variabelen og Y-variabelen. Konkret skulle dette bety at det beste lineære uttrykk for sammenhengen mellom utlån og besøk er:

  • Utlån = 2,97 + 0,56*Besøk

Visuelt ser dette greit ut. Linjen plasserer seg midt i myggsvermen. Men begrepsmessig får vi problemer. Når besøket synker, synker også utlånet, sier likningen. Men utlånet forsvinner ikke selv om besøket går mot null. Selv med null besøk lånes det ut tre medier pr. innbygger. Klasssisk regresjonsanalyse stiller altså ikke noe krav til at linjen skal krysse origo. Det er i og for seg mulig å tvinge linjen gjennom nullpunktet ved å sette a = null. Men da mister vi den tette koplingen mellom regresjon og korrelasjon.

Dette skyldes måten regresjonen beregnes på. Regresjonsanalyse starter med en vilkårlig rett linje (Y = a + bX). I vårt tilfelle får

  • Utlån = a + b*Besøk

Vi kjenner besøket og utlånet for hvert enkelt bibliotek. Dette er de observerte verdiene. Vi kan i tillegg estimere, eller prøve å anslå, utlånsnivået ved hjelp av besøksnivået:

  • Estimert Utlån (i) = a + b * Besøk (i)

Ved å variere a og b, kan vi justere denne linjen. Hver verdi av i angir et bibliotek:  i = 1, 2, …., 430

Regresjonslinjen er, per definisjon, linjen som minimaliserer summen av kvadratene av de loddrette avstandene mellom de observerte og de estimerte Y-verdier. Matematisk kan vi vise at denne «minimumslinjen» (best fit)  alltid vil gå gjennom det dobbelte midtpunktet.

Regresjon og korrelasjon henger nøye sammen. Både regresjonslinjen og den vanlige korrelasjonskoeffisienten (Pearsons R) uttrykker graden av lineær sammenheng mellom to variable. La oss ta prosedyren trinn for trinn med Besøk og Utlån som eksempel.

Utlånet pr. innbygger varierer en god del fra bibliotek til bibliotek. Det ser vi lett hvis vi tegner opp  fordelingen:

Diagram 2

De fleste bibliotekene befinner seg i området mellom tre og 6,5 utlån. Men noen få bibliotek ligger under 1,5, mens atskillig flere ligger over åtte utlån pr. innbygger.

Diagram 3

Fordelingen kan også tegnes som en sammenhengende kurve.

Gjennomsnittsverdien 5,22 er tegnet inn som en loddrett linje. Mange kommuner ligger åpenbart et godt stykke unna gjennomsnittet.

Her har jeg forøvrig jevnet ut kurven ved å benytte tre punkts glidende gjennomsnitt. Det betyr (for eksempel) at verdien som er angitt for intervallet 5,00-5,49 er gjennomsnittet av verdiene for de tre intervallene i området 4,50-5,99.

Det mest brukte mål for spredningen er standardavviket (SD, standard devation). SD er avledet av variansen. Variansen (VAR) er gjennomsnittet av enhetenes kvadrerte avstander til gjennomsnittet. Standardavviket er kvadratroten av variansen. Statistiske lærebøker gir detaljene.

I vårt eksempel har utlånet en varians på 5,26 og et standardavvik på 2,29.

Diagram 4

Diagram 4 er en videreføring av Diagram 1. I det første diagrammet er både gjennomsnittet og regresjonslinjen tegnet inn. I Diagram 4 har jeg også, for noen få kommuner,  tegnet inn avstandene til disse to linjene.

De gule linjene viser avstandene til gjennomsnittet (den blå linjen gjennom 5,22). De grønne linjene viser avstanden til regresjonslinjen (den skrå linjen gjennom (4,02; 5,22).

I det store og hele er avstandene til den horisontale linjen større enn avstanden til den skrå linjen. Regresjonslinjen føyer seg tettere til datapunktene. Det betyr at summen av kvadratene er mindre for de grønne avstandene enn for de gule.

  • Den grønne kvadratsummen er 1299
  • Den gule kvadratsummen er 3041
  • Summen er  er 1742

Jo mere samlet punktene ligger rundt regresjonslinjen, jo mindre blir den grønne kvadratsummen.

Diagram 5

Diagram 5 gir et eksempel på en sterk sammenheng mellom to variable. De to indikatorene er lønnsutgifter pr. innbygger (X-aksen) og antall årsverk pr. 10.000 innbyggere (Y-aksen).

Det ensomme biblioteket i øvre høyre hjørne er Utsira.

I dette tilfellet ligger korrelasjonen på hele  0,92. Den sterke sammenhengen mellom lønnsutgifter og årsverk er ikke forbausende. Lønn og arbeidstid er jo to sider av samme sak. Men samvariasjonen er ikke perfekt. For kommuner med lønnsutgifter rundt 500 kroner pr. innbygger varierer f.eks. antall årsverk pr. ti tusen innbyggere mellom sju og tolv:

  • Gamvik: 481 kroner pr. innbygger  / 12.11  årsverk
  • Valle:  490  /  7.79
  • Nore og Uvdal:  498  /  9.90
  • Tokke: 503  /  8.64
  • Gáivuotna Kåfjord 504  /  11.90
  • Tydal 516  /  11.52
  • Bokn 522  /  7.17

Korrelasjon og varians

Kvadratsummen i forhold til en linje er et mål for hvor tett eller spredt punktene ligger i forhold til linjen. Variansen er et vanlig mål for spredning. Variansen er gjennomsnittet av de kvadrerte avvikene, det vil si kvadratsummen delt på antall enheter:

  • VAR = kvadratsum/N

Når vi arbeider med regresjon, kan vi kalle variansen rundt gjennomsnittet for totalvariansen. Variansen rundt regresjonslinjen kaller vi restvariansen. Matematisk kan vi vise at

  • R^2 = 1 – (restvariansen/totalvariansen)

Dette er en matematisk identitet. Den kan også skrives som

  • Restvariansen = (1 – R^2)*Totalvariansen

Korrelasjonen kan aldri bli større en 1,00. Det skjer bare når alle punktene ligger på regresjonslinjen. I praksis er korrelasjonen alltid mindre enn dette. I vårt tilfelle er

  • RESTVAR= (1 – o,57*0,57) * TOTVAR = 0,68*TOTVAR

Besøkstallene forklarer 32 prosent av variasjonen i utlånet. De gjenstående variasjonene må forklares ut fra andre faktorer.

Når det gjelder forholdet mellom lønn og årsverk er restvariansen langt mindre:

  • RESTVAR=(1 – 0,92*0,92) * TOTVAR = 0,15*TOTVAR

Her er det bare femten prosent av variansen som skyldes andre faktorer enn lønnsutgiftene.

Diagram 6

Diagram 5 viser hvordan bibliotekene ligger fordelt rundt gjennomsnittet. Kurven har klokkeform, men strekker seg ganske langt til begge sider, spesielt i retning av høye utlånstall. Slike «høyreskjeve» fordelinger forekommer ofte i bibliotekstatistikken. Vi arbeider som oftest med størrelser som  aldri kan bli negative i aritmetisk forstand. Det finnes ingen bibliotek med stab, samlinger, besøkstall eller budsjetter som ligger under null. De store avvikene må derfor skje til høyre.

Vi kan lage et tilsvarende diagram som viser fordelingen rundt regresjonslinjen.

Vi ser at den nye fordelingen (fiolett) er noe mer samlet enn den opprinnelige (blå).  Den nye fordelingen er generert fra den gamle ved å sette

  • Ny verdi = (Gammel verdi – Estimert verdi) + Gjennomsnitt

eller

  • Ny verdi  = Utlån pr. innbygger – (2,97 + 0,56*Besøk pr. innbygger) + 5,22

for hver av kommunene.

Kognitiv nærhet

Ved å ta hensyn til besøket får vi forklart deler av variasjonen i utlånstall. Men det er mye som gjenstår. Også den nye fordelingen (rundt regresjonslinjen) viser store forskjeller mellom bibliotekene. I prinsippet kunne vi fortsatt regresjonsanalysen ved å bringe inn nye variable for å forklare restvariansen.  Denne tilnærmingen kalles trinnvis regresjonsanalyse og er en velkjent metode i større empiriske undersøkelser.

Jeg velger imidlertid en annen vei. I bibliotekfeltet vil regresjonsanalyse i sin alminnelighet, og trinnvis regresjonsanalyse i sin særdeleshet, skape avstand i forhold til de operative bibliotekarene. Metodene kan virke kraftfulle, men de oppnår sin tekniske tyngde ved å fjerne seg fra den intuitive forståelsen av hva som foregår i og rundt bibliotekene. I tillegg vil alle parametre som bygger på «minste kvadraters metode» støte på problemer når våre data ikke følger den tradisjonelle Gauss-kurven. En utstrakt misbruk av signifikanstesting i samfunnsfaglige miljøer forsterker de metodiske problemene. Jeg nøyer meg med å hevde dette som en tese.

Samfunnsfagene har i praksis overtatt en standardisert og ganske begrenset verktøykasse fra naturvitenskap og medisin. Parametre som gjennomsnitt, standardavvik, varians og produktmomentkorrelasjon (R), kombinert med regresjons-, varians- og faktoranalyser preger det statistiske repertoaret.

Jeg mener det er mulig å opprettholde den kognitive nærheten til praksisfeltet ved å satse mer på enkle prosenttabeller, på ordinale parametre som median og kvartiler og intuitivt tilgjengelige grafiske framstillinger. Jeg sier fortsatt ja til korrelasjoner, men de bør brukes med omhu.

Diagram 7

Spredningsdiagrammer gir et visuelt bilde av sammenhengen mellom to variable. Her går vi tilbake til det første spredningsdiagrammet.

Nå  tegner vi inn kvartilverdiene for utlånstallene.

  • Nedre kvartil: 3,71 (gul)
  • Medianen: 4,88 (grønn)
  • Øvre kvartil: 6,20 (blå)

Halvparten av alle bibliotek ligger altså mellom linjene

  • Y = 3,71
  • Y = 6,20

Kvartildifferansen

Avstanden mellom nedre og øvre kvartil (kvartildifferansen) er et enkelt og greit spredningsmål, lett å beregne og lett å tolke. Kvartildifferansen er lengden på et intervall som inneholder den midtre halvparten av de observerte verdiene – i vårt tilfelle utlån pr. innbygger. Intervallet fra 3,71 til 6,20 har en lengde på 2,49 og inkluderer den midtre halvdelen av kommunene.

Det mest brukte spredningsmålet i samfunnsfagene er standardavviket (SD). Skal vi sammenlikne standardavvik og kvartildifferansen må vi enten doble standardavviket eller halvere kvartildifferansen. I den tradisjonelle statistikken er det intervallet fra gjennomsnittet – SD til gjennomsnittet + SD som tilsvarer kvartilavstanden. Dette intervallet har åpenbart en lengde på 2*SD.

Alternativet er å sammenlikne SD med halve kvartildifferansen. Denne størrelsen kalles også kvartilavviket.

I vårt eksempel er standardavviket 2,32, mens kvartilavviket er 1,25.

Medianavstanden

Men vi kan også velge en annen tilnærming. Varians og standardavvik bygger på de kvadrerte avstandene til gjennomsnittet. Her ser jeg i stedet på avstandene til medianen – uten å foreta noen kvadrering.

La SAM stå for summen av avstandene til medianlinjen. For punkter over og under medianen blir avstandene henholdsvis

  • Y-verdien – Medianen
  • Medianen – Y-verdien

Per definisjon ligger halvparten av punktene over og halvparten under medianen. SAM har derfor to komponenter

  • Summen av verdiene over medianen – (Medianen * N/2)
  • (Medianen * N/2) – Summen av verdiene under medianen

Adderer vi de to, får vi

  • SAM = Summen av verdiene over medianen – Summen av verdiene under medianen

Denne størrelsen er det lett å forestille seg («sette på begrep»). Siden medianen deler bibliotekene i to jevnstore grupper, kan vi skrive SAM som summen av

  • Avstanden mellom de to bibliotekene med høyest og lavest utlån +
  • Avstanden mellom bibliotekene med nest høyest og nest lavest utlån
  • Avstanden mellom bibliotekene med tredje høyest og tredje lavest utlån
  • osv.

I vårt eksempel er SAM = 640. Siden vi har 387 observasjonsenheter, blir gjennomsnittsavstanden i disse parene lik 1,65. I likhet med kvartildifferansen er dette et tosidig spredningsmål.

Diagram 8

Diagram 2 viser hva som skjer når vi tar utgangspunkt i forholdstallet mellom antall utlån og antall besøk. De tre kvartilverdiene for utlån pr. besøk er

  • Nedre kvartil: 1,00
  • Medianen: 1,41
  • Øvre kvartil: 1,88

I 2010 hadde en fjerdedel av alle bibliotek altså mindre enn ett utlån pr. besøk. Den midterste halvdelen hadde mellom ett og 1,88 utlån pr. besøk. Den mest utlånsorienterte fjerdedelen hadde mer enn 1,88 utlån pr. besøk.

De tre linjene har likningene

  • Y = 1,00 * Besøk (gul)
  • Y = 1,41 * Besøk (grønn)
  • Y = 1,88 * Besøk (blå)

Ressurser

Kategorier:grafikk, KOSTRA
  1. Ingen kommentarer så langt.
  1. No trackbacks yet.

Legg igjen en kommentar

Fyll inn i feltene under, eller klikk på et ikon for å logge inn:

WordPress.com-logo

Du kommenterer med bruk av din WordPress.com konto. Logg ut / Endre )

Twitter picture

Du kommenterer med bruk av din Twitter konto. Logg ut / Endre )

Facebookbilde

Du kommenterer med bruk av din Facebook konto. Logg ut / Endre )

Google+ photo

Du kommenterer med bruk av din Google+ konto. Logg ut / Endre )

Kobler til %s

%d bloggers like this: