Misbruk av måledata

Jeg har noen kommentarer til: "Topper listen - Brukere mest fornøyd med Hewlett-Packard" Særtrykk fra Computerworld Nr. 19 Mai 1994 (lest i Computerworld nr 43, 1994, side 31-32)

Computerworld (CW) har i samarbeid med MMI undersøkt hvor tilfredse brukerne er med IBM, Sun og HP. Et i og for seg prisverdig tiltak. Dessverre skjemmes undersøkelsen vesentlig av graverende misbruk av måledata og påfølgende villedende konklusjoner.

Hovedinnvendingen er at artiklen gir uttrykk for svært mye større

utsagnskraft enn undersøkelsen gir bakgrunn for.

Måleteori

Måledataene som anvendes i artiklen tillater i prinsippet kun en kategoriskala (nominalskala), men behandles som om de tillot en intervallskala. Siden tillatt skala i prinsippet kun er en nominalskala er f eks en utregning av gjennomsnittverdier (aritmetisk middel) svært diskutabel.

Eksempel: Gitt at person 1 er lite fornøyd med HP sin oppfølging, person 2 er middels fornøyd med HP sin oppfølging og person 3 er fornøyd med HP sin oppfølging. I stil med utregningen i artiklen ville da kategoriene bli tilordnet tallverdier (lite fornøyd gis verdien 1, middels fornøyd verdien 2 og fornøyd verdien 3) og et gjennomsnitt av disse tallverdiene beregnet. MEN, for at en slik utregning av gjennomsnittsverdi skal være meningsfull må det bla forutsettes at: 1) forskjellen i fornøydhet mellom person 1 og person 2 er like stor som forskjellen i fornøydhet mellom person 2 og person 3. (Begge forskjeller er på to "enheter" fornøydhet. Utregning av aritmetisk middel forutsetter altså at enheter fornøydhet gir mening, noe som vel kan diskuteres.)

2) person 1, 2 og 3 legger det samme i de ulike kategoriene med "fornøydhet". (Siden fornøydhet eller de andre begrepene i undersøkelsen ikke synes å være særlig veldefinerte, kan det vel diskuteres om denne forutsetningen er oppfyllt.)

Et høyt antallet intervjuobjekter vil i seg selv ikke bøte på disse svakheten. Heller ikke at det er subjektive brukeroppfatninger som måles. Dette fordi systematiske skjevheter (bias) ikke kan utelukkes.

Det er til CW sitt forsvar dessverre nokså vanlig å (uten særlig refleksjoner) anta at typen måledata som presenteres i artiklen tillater en intervallskala - dvs at utregning av gjennomsnittverdier er meningsfult. Imidlertid, selv med denne diskutable antagelsen er tolkningene i artiklen ikke godt nok begrunnede.

Statistikk

For å kunne hevde at HP-brukere er mer fornøyde enn Sun eller IBM er det ikke tilstrekkelig å se på gjennomsnittsverdiene alene. Sålenge ikke alle HP, Sun og IBM-brukere er spurt (men et forhåpentligvis tilfeldig(?) utvalg) må man gjøre antagelser om fordelingene av fornøydheten hos de ulike kundegruppene og regne ut signifikansen i at et gjennomsnitt er høyere enn et annet.

Det å kun se på differansen mellom gjennomsnittene er nokså villedende. Det kan f eks godt hende at en stor differanse mellom to gjennomsnittsverdier ikke gir en signifikant forskjell, mens en mye mindre differanse mellom to gjennomsnittsverdier indikerer en signifikant forskjell- avhengig av variansen i svarene. Det er kun signifikante forskjeller som bør være av interesse!

Analysen av signifikansen i differansene kan bla medføre at: 1) en differanse i gjennomsnittsverdi mellom HP og Sun på 0.15 kan være en følge av ren tilfeldighet i utvalget av intervjuobjekter. Sålenge signifikansnivået ikke er utregnet har leseren ingen mulighet til å ta stilling til om denne forskjellen i gjennomsnittsverdi virkelig (med høy sannsynlighet) tilsier at "Brukere mest fornøyd med Hewlett-Packard" eller om den skyldes ren tilfeldighet.

2) en differanse som synes relativt stor, f eks mellom HPs oppfølging (4,50) og IBMs oppfølging (3,98) kan godt være en følge av ren tilfeldighet i utvalget av intervjuobjekter, mens en relativt liten forskjell, f eks mellom Hps pris/kvalitet (4,11) og Suns pris/kvalitet (3,91) godt kan være signifikant. Leseren har ingen mulighet til å vite noe om dette heller.

Siden man ikke kan anta at de fleste lesere til CW sitter inne med store kunnskaper om hvilke (diskutable) antagelser som er gjøres i undersøkelsen, er det svært viktig at slike artikler gir nødvendig og meningsfull informasjon om antagelser, svakheter og utsagnskraft til undersøkelsen. Faktisk tror jeg det burde kreves mer kunnskap til skribentens kompentansenivå innen måleteori og statistikk i en populærframstilling i CW enn i vitenskaplige tidsskrifter! Dessverre synes det motsatte å være regelen.

NB: Jeg hevder ikke at konklusjonene nødvendigvis er uriktige, eller at artiklen er uten verdi. Artiklen kan godt ha en verdi som "vaktbikkje" for leverandørene (som må vokte seg for å ikke bli uthengt pga dårlig kundefornøydhet). Valg av leverandør bør imidlertid ikke baseres på analysen artiklen!

Forslag: En mer meningsfull presentasjon/sammenligning av måledata av typen i artiklen ville være å presentere fordelingene for fornøydhet (andel av svarene i de ulike kategoriene) + nominalskala statistikk. Nominalskal statistikk er f eks modalverdi og chi-square statistikk.

Jeg er selv en tilhenger av empiri og har utført/utfører for tiden empiriske undersøkelser på effekten av systemutviklings og vedlikeholdsverktøy og metoder i Telenor AS (Televerket). Jeg håper CW vil fortsette med sine empiriske undersøkelser av leverandører, IT-løsninger etc. men at undersøkelsene og presentasjonen av resultatene i framtida vil være mer reflektert og basert på sunne måleteoretiske og statistiske prinsipper. Kanskje en ekstern "reviewer" på slike presentasjoner av måledata fra undersøkelser kan være en ide? Magne Jørgensen

Telenor Forskning

Misbruk av måledata

Jeg har noen kommentarer til: "Topper listen - Brukere mest fornøyd med Hewlett-Packard" Særtrykk fra Computerworld Nr. 19 Mai 1994 (lest i Computerworld nr 43, 1994, side 31-32)

Måleteori

Statistikk

Artikkel automatisk generert, 04/02-95, kl. 09.26 cw@oslonett.no