På gulljakt i egen kjeller

Det gjelder å være på offensiven. Med pressede marginer og stadig nye utfordrere er det nødvendig å endevende dataene for å finne gullkorn.

nn Jeg fant, jeg fant, blir stadig vesentligere for private og offentlige virksomheter. Grunnlaget for rikdom er å finne det uventede blant tilsynelatende trivielle data. Erfaring fra de første gulljegerne tilsier at det finnes gull i store data-arkiver, bare man er kreativ nok. Det er mindre interessant å spørre hva, hvem, hvor, hvordan og når. Svar på slike spørsmål avdekker ikke gull. Det gjelder å kunne spørre hvorfor. Oppdagelsen av trender kan bidra til økt omsetning. Hvorfor klarte vi oss med 50 prosent lavere takster i forfjor? Hvorfor har vi så varierende omsetning på dyre bleier? En relasjonsdatabase som benyttes for ordreopptak, er lite ideel for å finne svaret på slike spørsmål. Database-språket SQL, er ikke tiltenkt å skulle avdekke det uventede, kun det presise. SQL er laget for sammenstilling av enkle data, ikke for å finne de mange forholdene som forklarer hvorfor salget av de dyre bleiene er så variabelt.

nn Dra, dropp og drill, er stikkord for å kunne lete seg frem til hvorfor. Bare å søke i enkle tabeller gir lite. Å drille seg nedover i en database med store datamengder basert på bare en tabell, er som å lage en tynn sjakt. Å koble sammen to tabeller gir et større hull, men sannsynligheten for å avdekke noe er fremdeles liten. Ved stadig å kombinere nye datasammenstillinger vil det kunne avdekkes uventet informasjon, men det vil ta tid. Å lete etter gull på måfå er slitsomt både for datautvinneren og for drillredskapen. Utvinneren bør derfor sikre seg et eget skjerp for datautvinning. Kontinuerlig sprenging, bedre drillutstyr eller en spavenning av databasen skal sikre brukeren å finne skatten bare man tar tiden til hjelp.

nn Alle er enige. De som driver med bedriftsomlafting, IT-konsulentene, de som selger databaser, datamaskiner og analyseprogramvare. Bedre beslutninger er nødvendig. Beslutningsstøtteprogramvare og ledelsesinformasjonssystemer har bare delvis innfridd forventningene. En av grunnene er at systemene ofte forutsetter strukturer. Men gullet ligger ikke i faste strukturer, det blir til som følge av en foredlingsprosess basert på funn i databasen. Datavarehus, multidimensjonale databaser og grafiske analyseverktøy med drillegenskaper er noen av de teknologiene som skal bidra til å gjøre datautvinningen enklere. Virksomhetenes databaser er laget for å ta seg av det daglige. Analyse passer derfor dårlig sammen med en base som pulserer i takt med omgivelsene.

nn Skjerpet har fått betegnelsen datavarehus. Ideen er at dataene skal være tilrettelagt som varer i varehusets hyller. Varehuset inneholder historiske data. Fordelen er at de aldri skal endres. Å gjennom-analysere dataene i et varehus for å finne utviklingstrender, er derfor mindre ressurskrevende enn å måtte ta hensyn til at deler av dataene er levende. Å analysere på levende data krever ekstra ressurser fordi brukerne ikke skal lide når platelagrene er opptatt med å hente ut store datamengder for analyser. En bruker som forsøker å forstå hva som skjer med f.eks. salget, er heller ikke særlig innstilt på å vente i en evighet på søkingen, spesielt når analysen gir et dårlig resultat. Spørsmålsstillingen, hva om, kan medføre omfattende arbeid hvis datagrunnlaget passer dårlig til kombinasjonen av data som skal analyseres.

nn Tilhengere av avanserte skjerp fremhever at for å finne data må det bygges et kunnskapsarkiv hvor dataene settes sammen i mange dimensjoner, som f.eks. kunde, varegruppe, vare og distrikt. Dermed er dataene på forhånd forberedt på spørsmålet, hva om. Et kunnskapsarkiv basert på en multidimensjonal database er noe nytt. Det eksisterer ingen standarder, bare entusiastfirmaer som f.eks. Red Brick. De veletablerte databasefirmaene er derfor uenige i denne fremgangsmåten. At en rekke av de multidimensjonale aktørene har slått seg sammen for å skape et felles programvaregrensesnitt har irritert mer enn gledet. Også analytikere ser med skepsis på den nye kategorien med databaser. Et alternativ er derfor å lage et påbygg på en eksisterende relasjonsdatabase slik at multidimensjonaliteten håndteres effektivt. Kombinert med grafiske drill-verktøy som tillater at data kuttes opp og sammenstilles på nye måter, vil brukeren kunne finne frem til de forgjettede gullklumpene.

nn Mange dimensjoner gjør at datagrunnlaget blåses opp. Det er ikke uvanlig at datavarehus kommer opp i over 100 GB når grunndataene er på rundt 30 GB. En beslutningstaker er ikke interessert i normaliserte data, heller det motsatte, hvor data repeteres så ofte som det er behov. Repetisjon og summeringer er til hjelp under søket etter gullklumpene. Ved store datamengder er det et stort behov for parallellitet. Parallelle databaser og datamaskiner som kan bygges ut med mange prosessorer, f.eks. Sparccenter 2000, vil kunne bidra til å redusere beslutningstakerens ventetid. Alternativer er under utvikling. F.eks. har Sybase en funksjon som manipulerer på sifrene til alle indeksene, som kreves for å definere alle dimensjonene. Mens beslutningstakere tidligere ble dyttet på multidimensjonale statistikker i form av tallkollonner på "pyjamaspapir", drar de nå gullklumpene frem fra arkivet. Erfaring fra tidlige brukere av datavarehus er at de har oppdaget nye trender så raskt at alt som kreves av datamaskiner og programvare, har betalt seg i løpet av et år.

På gulljakt i egen kjeller

Det gjelder å være på offensiven. Med pressede marginer og stadig nye utfordrere er det nødvendig å endevende dataene for å finne gullkorn.

Artikkel automatisk generert, 14/09-95, kl. 18.26 cw@oslonett.no