[Forrige artikkel] [Indeks] [Neste artikkel] [CW hjemmeside]

Fra papir til tekst


Selv om det papirløse kontor bare er en drøm, øker etterspørselen for utstyr som kan omgjøre papir til elektronisk tekst. Stadig flere norske bedrifter innser behovet for å ivareta og tilgjengeliggjøre informasjon. Fordelene er klare - papir krever kopiering og fysisk distribusjon, mens elektronisk tekst tar liten plass og gir søkemuligheter. Vi har testet tre tekstgjenkjennings-programmer. De er ikke perfekte, men så langt det beste som tilbys.

I de senere år har programvare for optisk tegngjenkjenning (optical character recognition - OCR) tatt skrittet fra å være en dyr og i stor grad upålitelig teknologisk nyvinning til å bli et sett med forholdsvis rimelige produkter som faktisk virker. Enkelte av dagens OCR-pakker koster i underkant av 1000 kroner, og kan dessuten lese rene dokumenter bortimot perfekt. Dette kostet det tidobbelte for bare kort tid siden.

Og flere forbedringer er i kjømda. OCR-produkter kan nå behandle krevende forretningsdokumenter som fakser og fotokopier med ganske akseptabelt resultat. Dessuten er det blitt enklere å bruke OCR på grunn av forenklede grensesnitt og teknikker for kunstig intelligens.

Som krav for å delta i denne testen har vi satt at programmet inneholder grunnleggende OCR-funksjoner, herunder kapasitet til å lese av dokumenter med flere spalter, behandle degraderte originaler ( f.eks. fakser og fotokopier), og tilby et utvalg av inndata- og utdataformater.

På bakgrunn av en leserundersøkelse er følgende Windows-produkter valgt ut: Omnipage Professional 5.02 og Wordscan Plus 3.0 fra Caere og Textbridge 2.08 fra Xeroxs Desktop Document Systems-avdeling. Caere vil fortsatt selge Omnipage and Wordscan som to separate produkter. (Wordscan ble tidligere lansert av Calera Recognition Systems. Caere fusjonerte med Calera i desember 1994, slik at begge produkter nå hører under Caere-etiketten.)

Testplanen for OCR-programmene følger den vanlige fremgangsmåten for skanning, gjenkjenning, redigering og lagring av overførte dokumenter som tekstbehandlings-,

regneark- og databasefiler. Ved hvert av disse "stoppestedene" har vi utformet testene slik at de viktigste funksjonene i hver pakke blir prøvd ut.

Som vanlig baserer utprøvingen av funksjonene på hva som ble etterlyst av leserne i undersøkelsen. Dette innebærer at vi ikke nødvendigvis har sett på alle funksjonene i hver pakke, men vurdert de verktøyene som er viktigst for å utføre OCR-oppgaver.

Nirvana

OCR-programmer innehar en rekke forskjellige funksjoner. Utviklingen viser likevel to klare tendenser; en betydelig forbedret nøyaktig for et bredere spekter av dokumenter og større grad av automatisering.

Ideelt sett burde OCR-programvaren gjenkjent ethvert ord, på hver side og i enhver skrifttype, uavhengig av originalens kvalitet eller layout.

Det er altså et stykke igjen til vi har nådd OCR-nirvana, men undersøkelsen vår viser at leserne setter disse applikasjonene på noen nokså knallharde prøver.

De fleste av de spurte i undersøkelsen bruker OCR til å gjenkjenne laserskrevne dokumenter, maskinskrevne brev, fotokopier, fakser og sider med blandet tekst og grafikk. Blader, avisartikler og materiale fra punktmatriser figurerte også hyppig på svarlistene.

Testingen omfattet en blanding av de nevnte typene dokumenter, først enkle og greie laserskrevne eller trykte originaler med en klar font som Times Roman.

Deretter skannet vi dokumenter som hadde gjennomgått noen av kontorlivets vanlige prøver, f.eks. bretting og kopiering. Vi skannet også sider der teksten var blitt skjev etter å ha vært kjørt i en kopimaskin. Til slutt utsatte vi pakkene for selve lakmustesten - gjenkjenning av fakser som grunnet lav oppløsning produserer fordreide tegn.

Når det gjelder driften, kontrollerte vi først hvor godt programvaren kunne håndtere vanlig forretningskorrespondanse uten avbrytelser. Dernest tok vi for oss vanskeligere oppgaver som automatisk segmentering (å atskille tekstelementer fra grafiske elementer) av en komplisert layout. Automatisk gjenkjenning av tekst og grafikk samt automatisk spalte-gjenkjenning, var blant de oppgavene leserne prioriterte høyest.

Alle pakkene besto lett oppgavene med å kjenne igjen et forretningsbrev og en laserskrevet tekst med enkel eller dobbelt spalte. I slike tilfeller går det vanligvis greit å kjøre automatisk modus: klikk på et ikon eller en knapp, og programmet vil skanne siden eller filen , orientere siden og gjenkjenne teksten.

Vi prøvde også ut beslektede funksjoner som automatisk halvtone- (foto) identifisering. Produktets ytelse på dette området er av betydning, fordi en OCR-pakke som ikke identifiserer grafikk automatisk, vil senke tempoet betraktelig for å lete etter tegn i hvert eneste punkt. Både Omnipage, Wordscan og Textbridge kan automatisk finne og enten unngå eller fjerne bilder.

Grensesnitt

Utformingen av grensesnittet er en annen viktig faktor. For at programmet skal appellere også til mindre hyppige brukere, må det ha en intuitiv flyt slik det er mulig å utføre en jobb uten lengre opplæring eller for mye frustrasjon.

Hvert program takler denne utfordringen på forskjellig måte. Omnipages grensesnitt er for eksempel utstyrt med en knapp for en logisk "1-2-3"-sekvens.

Wordscan legger stor vekt på kompatibilitet. Grensenittet kan innstilles slik at det er tilpasset en av tre utbredte kontorpakker. Wordscan er det eneste av disse produktene med mulighet for å bruke OLE for å dra skannet tekst inn i en annen applikasjon, f.eks. et tekstbehandlingsprogram.

Men alle de tre programmene kan kjøres fra en annen applikasjon, og med samme resultat.

I skrivende stund kan ennå ikke en gang den beste programvare oppløse komplisert layout - eksempelvis artikler fra blader med tekst og grafikk blandet uvanlig måte - uten en viss menneskelig innblanding. I slike tilfeller vil det være nødvendig å tegne "soner" rundt den tekst som ønskes identifisert.

Alle produktene i denne testen inneholder "sone"-verktøy. I Textbridge er det for eksempel mulig å tegne som mange som 127 soner per side. Omnipage går et skritt videre, med kommandoer som gjør at du kan bedre presisjonen ved å definere nøyaktig hvilke tegn eller symboler du forventer at en sone inneholder. I Wordscan kan du oppgi sonenes generelle innhold, f.eks. om de inneholder ord eller tall.

Intelligens

Som ventet svarte leserne som deltok i vår undersøkelse at presisjon var det kravet som veide tyngst for valget av OCR-pakke. Ethvert dokument med en distinkt skrifttype, layout og stil utgjør en ny utfordring for OCR-programmet.

Internt benytter hvert program en proprietær blanding av neurale nettverk, ordbøker og beslektede "intelligente" agenter. I bunn og grunn forsøker alle disse pakkene å tilnærme seg den menneskelige gjenkjenningsprosessen.

Når du for eksempel leser et uklart faksdokument, vil hjernen i underbevisstheten forsøke å fylle ut de manglende delene av forskjellige tegn. Et OCR-program gjør i stor gad det samme, ved at det undersøker tegnene og ordene som ligger omkring det utydelige stedet for så å prøve å gjette seg fram til korrekt ord eller setning. Omnipages formgivere ser ut til å ha kommet lengst i utviklingen av denne kontekstprossessen, men ingen av pakkene er spesielt imponerende på dette området. Presisjonsmålingen er heller ikke utelukkende basert på hvilken prosentandel tegn som et program gjenkjenner på korrekt vis.

Leserne i undersøkelsen mente at det var viktig at en applikasjon kunne beholde så mye av formateringen fra originaldokumentet som mulig. Vi har derfor også analysert hvor godt produktenes formatgjengivelse fungerer samt hvilke anstrengelser som kreves for å ta for seg gjenkjente utdata og utføre den nødvendige manuelle opprenskingen.

Karaktergivning

I denne testen har vi gjort vi gjort enkelte mindre endringer av testplanen vi brukte i en tilsvarende test i april 1993. Alle kategoriene er beholdt, mens veiingen er noe justert etter hva leserne nå anser som viktigst.

Vi har endret plattformen slik at ble tilpasset de nåværende systemene som kjører Windows. V brukte en Gateway 2000 4DX2-66V utstyrt med 16 MB RAM, en 340 MB harddisk samt Microsoft Windows 3.1 og MS-DOS 6.2. Vi skannet dokumenter ved 300 tpt (dpi) med en Hewlett-Packard ScanJet 3P skanner med en automatisk dokumentmater.

Vi brukte det samme settet med 10 dokumenter (67 sider i alt) for både hastighets- og presisjonstestene. Dokumentene ble laget med forskjellige trykkteknologier - skrivemaskin, laser- og punktmatriseskrivere, fotokopier og faks.

I tillegg brukte vi utklipp fra glansede magasiner, aviser og halvglansede nyhetsmagasiner, som ikke bare bød på forskjellige utfordringer m.h.t. tegngjenkjenning, men som også hadde noe av den vanskeligste layouten.

Ytelse

Noe av formålet med OCR-produkter er at de skal bidra til å gjøre det enkelt å gjenkjenne enkle dokumenter - slike uten fancy layout eller skrifttyper.

Vi ga karakteren Tilfredsstillende til produkter med et grensesnitt som gjør automatisk gjenkjenning intuitivt. Vi har i tillegg gitt pluss for produkter med tidsbesparende funksjoner som automatisk siderotering, , utsattt prosessering, enkel side-soning (muligheten til å tegne blokker rundt tekst i kompliserte dokumenter) samt kapasitet for lesing av forskjellige typer inndata (f.eks. faksfiler eller side-bilder lagret på disk). Likeledes er det gitt ekstrapoeng til produkter som kan integreres glatt med annen programvare, ved hjelp av OLE eller beslektet teknologi.

Å håndtere sider med utflytende tekst eller komplisert layout, er den virkelige brekkstangen for OCR-pakkenes gjenkjenningskapasitet.

For å kvalifisere til bedømmelsen Tilfredsstillende måtte produktet inneholde manuelle soneverktøy som på en enkel måte muliggjør atskillelse av tekst og grafikk. (Hvis ikke programmet er i stand til å gjenkjenne grafikk som sådan automatisk, forsinkes prosessen betraktelig mens det forsøker å forstå formatet. Produktet har fått høyere karakter dersom det er utstyrt med valgfrie funksjoner som gjør det mulig å angi innholdet i soner, lagre forskjellige deler av siden som separate tekst- og grafikkfiler samt utføre avansert kontroll med skanningen med innstillinger for parametere, som gråtoneskala og oppløsning.

I enkelte tilfeller, for eksempel når du bygger en database, er det ikke nødvendig å kjøre en gjenkjent tekst gjennom et tekstbehandlingsprogram. Det går raskere å bruke teksten direkte fra OCR-programmet. I slike situasjoner er det avgjørende at OCR-programmet inneholder grunnleggende kontroll- og redigeringsfunksjoner.

For å oppnå karakteren Tilfredsstillende måtte programmet la oss kontrollere gjenkjent tekst mot den originale skanningen (via "side-ved-side"-vinduer eller en "pop-up" bekreftelsesboks) og minst utføre grunnleggende redigering. Mer avanserte redigeringskommandoer, som søk og erstatt, har selvsagt gitt ekstrapoeng. Det samme gjelder dersom pakken inneholdt omfattende formateringsfunksjoner som stilattributter, tabulatorer og avsnittsinnstillinger.

Jo flere filformater og skannere en OCR-pakke kan arbeide med desto mindre grunn er det til å bekymre seg over manglende kompatibilitet med de applikasjonene og det utstyret du allerede har.

For å oppnå karakteren Tilfredsstillende i denne kategorien måtte programmet være i stand til å eksportere tekst i disse formatene: Microsoft Word for Windows, Word Perfekt for DOS og Lotus Amipro; Microsoft Excel; og begrenset ASCII (for database-import). OCR -pakken måtte dessuten kunne jobbe med HP Scanjet skannere og minst gjenkjenne TIF bildefiler. Ekstra belønning er gitt dersom produktet også støtter ytterligere fil- eller bildeformater eller annen maskinvare.

Den tiden programmet bruker på å skanne og gjenkjenne en side virker inn på den dets den generelle produktiviteten. Vi evaluerte hastigheten ved å måle hvor lang tid hvert produkt trengte for å gjenkjenne et sett med sider. Vi skannet ti dokumenter i alt, til sammen 67 sider. Blant de vanskeligste av disse var en annengenerasjons fotokopi, en faks på vanlig papir med tekst av trykket kvalitet og et 9-pins dokument fra en punktmatrise-skriver.

For å skille ut det raskeste produktet målte vi antallet tegn per minutt (characters per minute- CPM) samlet for hvert av de dokumentene og regnet ut et gjennomsnitt for å utlede et endelig tall. Deretter tildelte vi tallet et prosenttall ut fra hvor det plasserte seg mellom utgangstallet (et CPM-tall utledet fra forrige OCR-test, utført med en tregere maskin) og et idealtall (utregnet på grunnlag av de beste tidene for hvert dokument i denne testen), og fant karakteren som passet.

Presisjonen ble prøvd ut med de samme 10 dokumentene som i hastighetstesten. Feil i pakkene rangerte fra manglende (eller ekstra) mellomrom og manglende tegn eller ord til feil med små/store bokstaver og ukorrekt tegnsetting.

Som med hastigheten utarbeidet vi rater for høy og lav feilfrekvens, med en eller færre feil per tusen som det beste og 20 feil eller mer per tusen som uakseptabelt. Basert på produktets ytelse beregnet vi raten etter denne skalaen. Dersom produktets rating samlet resulterte i 10 feil per tusen (gjennomsnittlig), ble poengsummen 50 % veiingstallet. Karakterene igjen er basert på prosenttallet.

I denne kategorien har vi tatt for oss anerkjente funksjoner som ikke faller inn under noen annen kategori. Vi har basert poengsummen på hvor godt eventuelle ekstraverktøy er til hjelp for OCR-prosessen generelt, mer enn selve antallet ekstrafunksjoner som er inkludert.

Testtabell

Programvare for optisk tegngjenkjenning

Omnipage Professional 5.02

Caere

Ytelse:

Enkel dokumentskanning (100) Perfekt 100

Omnipages automatiske optiske tegngjenkjenning (OCR) er prikkfri. Vellykket oppsplitting av sider unntatt de med den mest kompliserte layouten. Den lett forståelige verktøylinjen gjør det enkelt å utføre selv manuelle operasjoner. Programmet leser også faksbilder og kan utsette prosesseringen.

Komplisert sidegjenkjenning (125) Veldig bra 94

Det er en smal sak å endre OCR- innstillingene, selv med forskjellige sider i samme dokument. Soneverktøyene er veldig fleksible, og ingen av produktene beholder sideformateringen på bedre måte (alternativt kan du beholde tekst- og/eller avsnittsattributtene). Omnipage får likevel problemer med sider der linjene er forskjøvet mer enn 5 prosent.

Redigering (75) Perfekt 75

Omnipages tekstvindu fungerer som et tekstbehandlingsprogram i miniatyr, og har det beste redigeringsverktøyet av alle programmene. Teksten fargekodes etter hvordan den ble prosessert, det følger med en stavekontroll og brukeren får meget bra kontroll over formatendringer i gjenkjent tekst.

Kompatibilitet (100) Perfekt 100

Omnipage støtter alle større DOS, Windows, og Macintosh tekstsbehandlingsprogrammer, databaser og regneark. Det kan arbeide med 75 forskjellige skannere og motta tre typer faksbildeformater.

Hastighet (75) Veldig bra 56

I gjennomsnitt er Omnipages tekstgjenkjenning er anelse saktere Wordscans. Omnipage slår Wordscan i halvparten av testdokumentene. Omnipage er imidlertid betydelig tregere på gjenkjenning av faks, punktmatrise og landskapsdokumenter.

Presisjon (175) Veldig bra 131

Omnipage er kun dårligere enn Wordscan når det gjelder kumulative feil. Programmet gjør det bra i testen med laserskrevne dokumenter og med avisartikler. Den får problemer med faks, punktmatrisedokumenter og numerisk tekst.

Andre funksjoner (75) Veldig bra 56

Omnipage har en rekke fine ekstrafunksjoner, for eksempel kapasitet til gå gjenkjenne 13 fremmedspråk og sende dokumenter over E-posten. Omnipage tilby et eget opplæringsverktøy, og er dessuten utstyrt med en separat bilderedigeringsmodul.

Støtte og pris:

Dokumentasjon (75) Veldig bra 56

En omfattende håndbok med tre opplæringskapitler, meget bra referansedel og ekstra teknisk informasjon i tilleggene. Opplærings - og referansedelene følger et klart "skritt-for-skritt"- opplegg og er utfylt med gode eksempler. Det finnes også online-hjelp.

Støtte (50) Perfekt 50

Teknisk støtte (75) Veldig bra 56

Pris (75) Bra 46.87

X$695X

Omnipage er den dyreste pakken av disse tre, men for pengene får du de beste redigerings- og formateringsverktøyene.

Poengsum 8.2

Textbridge 2.08

Xerox

Ytelse:

Enkel dokumentskanning (100) Bra 63

Enkel dokumentskanning er Textbridges sterke side. Ved hjelp av en dialogboks kan du skanne og lese bildefiler. Grunnleggende preferanser som forhåndsvisning er tilgjengelig, og du kan kjøre OCR fra andre programmer. Men Textbridge er noe begrenset i all sin enkelhet. Det var ikke mulig å justere parametrene mens du jobber eller å utsette prosesseringen.

Komplisert sidegjenkjenning (125) Tilfredsstillende 63

Textbridge differensierer tekst og grafikk, og inneholder grunnleggende soneverktøy. Programmet forsøker å matche originaldokumentenes tekstattributter, men får det ikke alltid helt til. En annen ulempe er at du må gjenkjenne en side på ny hvis du ønsker å lagre den med en annen filtype.

Redigering (75) Tilfredsstillende 38

Textbridge har ingen egentlig redigerer, kun et vindu ("bekreftelses-") der du kan rette opp OCR-feil under gjenkjenningsfasen (Du bør alltid bruke dette om du ønsker brukbare OCR-resultater.)

Kompatibilitet (100) Bra 63

Textbridge støtter merkenavn-applikasjoner, men i enkelte tilfeller bare eldre versjoner. Med programmet følger spesialdrivere for 30 skannere av god kvalitet, som TWAIN-modellene. Det håndterer imidlertid bare et minimalt antall grafikkfiltyper.

Hastighet (75) Bra 47

Textbridges gjenkjenningshastighet varierte fra gjennomsnittlig til under gjennomsnittlig for de fleste dokumenter. Det var faktisk raskere enn selv Wordscan til å gjenkjenne en artikkel fra et glanset magasin, men var tregest når det gjaldt laserskrevne dokumenter og punktmatrise-dokumenter.

Presisjon (175) Tilfredsstillende 88

Textbridge gjorde det største antallet fullstendige feil. Det gikk tålelig bra med et par av dokumentene (herunder en tresiders faks), men det oppsto en masse feil i forbindelse med punktmatrise-dokumentet, og dette gikk utover bedømmelsen av presisjon totalt.

Andre funksjoner (75) Tilfredsstillende 38

Programmet fungerer sammen med E-post-systemer, og kan sende bildefiler ved hjelp av et tredjeparts faksprogram. Textbridge kan trene opp seg selv, men blir ikke så mye mer presist av den grunn, og programmet beholder ikke engang denne kunnskapen til neste omgang.

Støtte og pris:

Dokumentasjon (75) Bra 47

En 100-siders håndbok dekker alle de viktige områdene. I innføringsdelen og den for videregående, flyter materialet logisk fra enkel skanning til avanserte sonebegreper. Et tillegg er til hjelp for problemsøk. Textbridge er imidlertid det eneste av disse programmene som ikke er utstyrt med problemsøk.

Støtte (50) Veldig bra 38

Teknisk støtte (75) Bra 47

Pris (75) Perfekt 75

Et av de rimeligste OCR-programmene på markedet. Textbridge er et godt kjøp for X$99X.

Textbridge fungerer greit når det arbeider med enkle eller rene dokumenter.

Poengsum 6.0

Wordscan Plus 3.0

Caere

Ytelse:

Enkel dokumentskanning (100) Veldig bra 75

Ikke bare har Wordscan en knapps OCR og enkel side-oppløsning. I tillegg kan verktøylinjen imitere andre applikasjoner for at brukeren skal føle seg mer hjemme. Ettersom programmet støtter OLE 2.0 er det også mulig å dra og slippe korte dokumenter inn i et tekstbehandlingsprogram. Wordscan har dessuten den beste faks-integreringen.

Komplisert sidegjenkjenning (125) Bra 78

Ingen problemer med å tegne manuelle soner, lagre maler eller endre måten Wordscan behandler grafikk på. Soneverktøyene er noe dårligere enn Omnipage sine, men det er mulig å oppgi enkelte sone-karakteristika. Programmet er flinkere til å beholde tekststil enn tekststørrelse og avsnittsformatering.

Redigering (75) Bra 47

Selv om Wordscans redigeringsverktøy ikke er fullt så sofistikerte som Omnipages, er det mulig å hoppe til tvilsomme ord og foreta enkle rettinger. Du kan dessuten gå visse snarveier i redigeringen ved hjelp av tastaturet. Som i Omnipage finnes en "pop-up" bilde-bekrefter, selv om denne viser bildet.

Kompatibilitet (100) Veldig bra 75

Wordscan tilbyr utdata til de fleste tekstformater, og fungerer sammen med alle utbredte skannermodeller. Programmet godtar de viktigste faksbildeformatene (.PCX, .DCX og .TIF), men ingen andre grafikkformater.

Hastighet (75) Veldig bra 56.25

Wordscan er spesielt rask til å gjenkjenne tekst som forårsaker treghet i de andre programmene, f.eks. faks- og punktmatrisedokumenter. Den eneste dokumenttypen der Wordscan gjorde dårligst inntrykk, var en annengenerasjons fotokopi.

Presisjon (175) Veldig bra 131

Wordscan er fortsatt det mest presise programmet vi noen gang har testet. Det gjorde null feil i gjenkjenningen av et Microsoft Excel regneark. I andre de testene hadde programmet aldri lavere enn 99.1 prosent presisjon.

Andre funksjoner (75) Bra 47

Wordscans støtte til 13 forskjellige språk er strøken: vinduer, hjelp og dialogbokser kommer fram på skjermen i det språket som er valgt. Støtten til E-post falt også i god jord. Det er dessuten mulig å skrive ut skannede sider med et fakskort.

Støtte og pris:

Dokumentasjon (75) Veldig bra 56

Hovedhåndboka på 175 sider begynner med en innføring og har ellers en grundig dekning av avanserte emner som soning og utsatt prosessesering. En tilleggsbok er til hjelp for konfigurering av skannere. Programmet inneholder også online-hjelp.

Støtte (50) Bra 31

Teknisk støtte (75) Bra 47

Pris (75) Bra 47

Wordscan er forholdsvis høyt priset (X$595X), men kan til gjengjeld imitere andre produkters grensesnitt. Et program i toppklassen med bra redigeringsverktøy.

Poengsum 6.9

------------------------------Poengene-------------------------------

Omnipage Professional 5.02 8.2

Wordscan Plus 3.0 6.9

Textbridge 2.08 6.0

[Forrige artikkel] [Indeks] [Neste artikkel]


[Image map not available]
Artikkel automatisk generert, 17/03-95, kl. 10.21 cw@oslonett.no