Kan du ikke tale

"Sesam sesam, lukk deg opp", sa Ali Baba for å åpne døren inn til røverenes hule. Like enkelt har det ikke vært å få selv moderne datasystemer til å forstå menneskelig tale. Avanserte systemer har bare vært i stand til å tolke noen få ord, og har stilt store krav til omgivelsene for å fungere tilfredsstillende.

Mange analytikere har spådd at 1995 blir et viktig år for utvikling av talegjenkjenningssystemer. Med Pentium begynner maskinene å få den nødvendige kraften. I tillegg vil Windows'95 innholde APIer for talegjenkjenning. Det er ingen hemmelighet at Bill Gates tror nettopp talegjenkjenning er en kritisk suksessfaktor for å nå det store hjemmemarkedet. Også mange andre amerikanske selskaper har også varslet at de vil lage talegjenkjenningsystemer.

Amerikanske talegjenkjenningssystemer er imidlertid til liten hjelp for oss i det lille landet langt mot nord der flesteparten snakker norsk. Heldigvis er Telenor Forskning i gang med et prosjekt. (Omtalt i Computerworld nummer 2 1995). I Bergen er de også kommet godt i gang.

SE NESTE SIDE

Kommersiell prat

Avansert system for talegjenkjenning utvikles i Norge

Et avansert system for automatisk talegjenkjenning er under utvikling i Bergen. - Bør absolutt ha store kommersielle muligheter, mener universitetsstipendiat Arild Noven. Han overfører kunnskap om den menneskelige hjernen til et computersystem som kan gi 100 prosent korrekt gjenkjenning av tale.

ASBJØRN LEIRVÅG

-- Jeg har forsøkt å bruke kunnskap om de prosessene som foregår i det menneskelige øret, særlig i det indre øret og i deler av nervesystemet innenfor. Nyere forskning slår fast at det skjer betydelige modifikasjoner av det akustiske signalet i dette området. I samarbeid med Massachusetts Institute of Technology (MIT) har jeg tatt i bruk en modell som simulerer disse prosessene. Prosessering av data er svært ressurskrevende, men er avgjørende for gode resultater, sier Noven.

Foreløpig vet man lite om hva som skjer fra lydbølgene treffer membranen i det indre øret, dekodes og forplantes i nervesystemet til hjernen oppfatter dette som ord. Han har derfor vært nødt til å trekke veksler på ulike vitenskaper som nevrofysiologi, psykologi og informatikk. Selv har han bakgrunn i fonetikk- og realfagsstudier ved Universitetet i Bergen.

Bredt bruksområde

I USA har flyvåpenet brukt talegjenkjenning som verktøy for jagerpiloter. For å sikre gjennomføring av riktig prosedyre under nødsituasjoner, har tale blitt et viktig supplement til vanlige kontrolloperasjoner.

Talegjenkjenning kan også ha en viktig funksjon innen mikrokirurgi der det brukes laserkniv. Dersom kirurgen har begge hendene opptatt i operasjonsfeltet, kan tale styre laserkniven til ønsket posisjon. Det finnes også biler som er spesialinnredet for funksjonshemmede, og har installert talekontroll for funksjoner som blinklys, vindusvisker, vifte og liknende.

Noven håper at hans system vil bringe talegjenkjenning steget videre fra enkel kommandobruk. Han ser for seg en automatisert diktafon der fortløpende ord blir omdannet til tekst.

Systemet for talegjenkjenning er utviklet på en UNIX arbeidsstasjon med spesialtilpasset programvare og teknisk utstyr. Det ferdig utviklede systemet skal la seg konvertere til C, og det er også mulig å hardware-implementere deler av systemet.

-- Jeg tror absolutt dette har kommersielt potensiale. Det hadde vært interessant å samarbeidet med norske teknologibedrifter og forskningsinstitusjoner for å tilpasse systemet til ulike bruksområder i realistiske omgivelser. Mye er fortsatt ugjort på området, sier Noven, som håper å være ferdig med doktorgradsavhandlingen i mai.

Problematisk felt

Lenge trodde man at dersom talegjenkjenningssystemet lærte å kjenne igjen språkets minste bestanddeler, de såkalte fonene, ville systemet bli stabilt og effektivt. Dette viste seg å være svært komplisert ettersom en fon påvirker uttalen av en annen fon. Sammenhengen fonen ble brukt i, hadde derfor avgjørende betydning. Et annet problem var at ett og samme ord kan uttales på mange måter av en og samme person. Dette ble forsøkt løst gjennom bruk av statistiske metoder for å trene opp systemet på et stort antall ord med forskjellig uttale fra gang til gang.

Midt på 80-tallet greide forskere ved IBMs forskningssenter i Yorktown Heights i USA å lage et system som hadde et vokabular på 10.000 ord. Ulempen var at systemet måtte tilpasses den enkelte brukers uttale, noe som var svært komplisert og tidkrevende.

Dilemmaet har vært at taleruavhengige systemer hittil har vært nødt til å gå på akkord med vokabularets størrelse. De fleste taleruavhengige systemene heller ikke vært i stand til å takle sammenhengende tale.

-- Det er en formidabel utfordring å konstruere et system som takler kontinuerlig tale, er personuavhengig og har vokabular på mellom 5.000 - 10.000 ord. For en kommersiell applikasjon kreves det minimum 98 prosent korrekt gjenkjenning, sier Arild Noven.

For at systemet skal arbeide effektivt krever det store maskinressurser. For at responstiden skal ligge under ett sekund, er Noven avhengig av ti ganger større regnekraft enn det han har i dag.

-- Opptil 100 prosent korrekt gjenkjenning er mulig med dette systemet, mener Noven. Selv om systemet ikke er ferdig utviklet, er testresultatene svært gode.

Genial hjerne

Mange forskere har lenge vært klar over at hjernen hos dyr og mennesker fungerer på en helt annen måte enn en klassisk datamaskin. Selv en fluehjerne er i stand til å prosessere visuell informasjon i sann tid og med en presisjon som langt overgår det de raskeste datamaskinene kan prestere.

Hjernen har også en unik evne til å sortere ut viktig informasjon i støyende omgivelser. De færreste har problemer med å oppfatte samtaler selv om disse ofte foregår parallelt med andre, eller om enkelte ord uttales uklart eller mangelfullt. En datamaskin som baserer seg på mønstergjenkjenning vil få store problemer i en slik situasjon.

-- Målet er at systemet skal fungere i tilnærmet normale omgivelser, sier Noven, vel vitende om at lastebiler som passerer kontorvinduet noen ganger forvirrer systemet slik at feil oppstår. Han mener imidlertid at støy ikke trenger å bli et problem dersom systemet tilpasses det lokale støynivået under opptreningsfasen. Typisk støy fra kontorlandskap skal derfor la seg håndtere av systemet.

Kunstig intelligens

Arild Noven har hatt særlig nytte av moderne metoder innenfor forskning omkring kunstig intelligens for å utvikle systemet for talegjenkjenning. Ved å ta utgangspunkt i måten hjernen er bygget opp på, har man klart å lage kunstige systemer som er i stand til å løse mange problemer innenfor eksempelvis mønstergjenkjenning.

Dette kalles konneksjonistnett, og tilegner seg kunnskap gjennom prøving og feiling på samme måte som mennesker og dyr. Systemet er også i stand til å takle variasjoner, støy og mangelfull informasjon på en bedre måte enn tidligere metoder har vært i stand til.

-- Foreløpig er systemet i stand til å gjenkjenne rundt 300 vanlige norske ord, men for å praktisk fungere som automatisk diktafon bør systemet beherske et vokabular på 5.000 til 10.000 ord. Blir det derimot brukt som kommandostyring kan en klare seg med et lite vokabular, understreker Noven.

Prototype

Talegjenkjenningen foregår ved at brukeren snakker inn i en mikrofon, og systemet viser etter kort tid ordet på skjermen. Systemet kan trenes opp on-line, og kan derfor tilpasses en ny bruker i selve brukssituasjonen på relativt kort tid. Dette har ikke vært mulig med de typer konneksjonistnett som har vært i bruk til nå.

-- Datamaskinen tar opp lyd i to sekunder med en båndbredde på 6,5 kilohertz. Etter at starttidspunktet er lokalisert, analyseres det første halve sekundet av talen i fem millisekunds intervaller. Systemet prøver så ut og revurderer sine egne hypoteser i en dynamisk prosess. Dette gjør det mulig å foreta en raskere finjustere for å skille ord som akustisk er vanskelig å skille. Ord som "gidder" og "gitter" er ikke like enkle å håndtere for maskinen som for oss andre, avslutter Noven.

TALE: Norske teknologibedrifter inviteres til samarbeid om kommersiell utnytting av Arild Novens avanserte norske system for automatisk talegjenkjenning. (Foto: Asbjørn Leirvåg)