Mange analytikere har spådd at 1995 blir et viktig år for utvikling av talegjenkjenningssystemer. Med Pentium begynner maskinene å få den nødvendige kraften. I tillegg vil Windows'95 innholde APIer for talegjenkjenning. Det er ingen hemmelighet at Bill Gates tror nettopp talegjenkjenning er en kritisk suksessfaktor for å nå det store hjemmemarkedet. Også mange andre amerikanske selskaper har også varslet at de vil lage talegjenkjenningsystemer.
"Sesam sesam, lukk deg opp", sa Ali Baba for å åpne døren inn til røverenes hule. Like enkelt har det ikke vært å få selv moderne datasystemer til å forstå menneskelig tale. Avanserte systemer har bare vært i stand til å tolke noen få ord, og har stilt store krav til omgivelsene for å fungere tilfredsstillende.
Amerikanske talegjenkjenningssystemer er imidlertid til liten hjelp for oss i det lille landet langt mot nord der flesteparten snakker norsk. Heldigvis er Telenor Forskning i gang med et prosjekt. (Omtalt i Computerworld nummer 2 1995). I Bergen er de også kommet godt i gang.
SE NESTE SIDE
ASBJØRN LEIRVÅG
Et avansert system for automatisk talegjenkjenning er under utvikling i Bergen. - Bør absolutt ha store kommersielle muligheter, mener universitetsstipendiat Arild Noven. Han overfører kunnskap om den menneskelige hjernen til et computersystem som kan gi 100 prosent korrekt gjenkjenning av tale.
-- Jeg har forsøkt å bruke kunnskap om de prosessene som foregår i det menneskelige øret, særlig i det indre øret og i deler av nervesystemet innenfor. Nyere forskning slår fast at det skjer betydelige modifikasjoner av det akustiske signalet i dette området. I samarbeid med Massachusetts Institute of Technology (MIT) har jeg tatt i bruk en modell som simulerer disse prosessene. Prosessering av data er svært ressurskrevende, men er avgjørende for gode resultater, sier Noven.
Foreløpig vet man lite om hva som skjer fra lydbølgene treffer membranen i det indre øret, dekodes og forplantes i nervesystemet til hjernen oppfatter dette som ord. Han har derfor vært nødt til å trekke veksler på ulike vitenskaper som nevrofysiologi, psykologi og informatikk. Selv har han bakgrunn i fonetikk- og realfagsstudier ved Universitetet i Bergen.
Talegjenkjenning kan også ha en viktig funksjon innen mikrokirurgi der det brukes laserkniv. Dersom kirurgen har begge hendene opptatt i operasjonsfeltet, kan tale styre laserkniven til ønsket posisjon. Det finnes også biler som er spesialinnredet for funksjonshemmede, og har installert talekontroll for funksjoner som blinklys, vindusvisker, vifte og liknende.
Noven håper at hans system vil bringe talegjenkjenning steget videre fra enkel kommandobruk. Han ser for seg en automatisert diktafon der fortløpende ord blir omdannet til tekst.
Systemet for talegjenkjenning er utviklet på en UNIX arbeidsstasjon med spesialtilpasset programvare og teknisk utstyr. Det ferdig utviklede systemet skal la seg konvertere til C, og det er også mulig å hardware-implementere deler av systemet.
-- Jeg tror absolutt dette har kommersielt potensiale. Det hadde vært interessant å samarbeidet med norske teknologibedrifter og forskningsinstitusjoner for å tilpasse systemet til ulike bruksområder i realistiske omgivelser. Mye er fortsatt ugjort på området, sier Noven, som håper å være ferdig med doktorgradsavhandlingen i mai.
Midt på 80-tallet greide forskere ved IBMs forskningssenter i Yorktown Heights i USA å lage et system som hadde et vokabular på 10.000 ord. Ulempen var at systemet måtte tilpasses den enkelte brukers uttale, noe som var svært komplisert og tidkrevende.
Dilemmaet har vært at taleruavhengige systemer hittil har vært nødt til å gå på akkord med vokabularets størrelse. De fleste taleruavhengige systemene heller ikke vært i stand til å takle sammenhengende tale.
-- Det er en formidabel utfordring å konstruere et system som takler kontinuerlig tale, er personuavhengig og har vokabular på mellom 5.000 - 10.000 ord. For en kommersiell applikasjon kreves det minimum 98 prosent korrekt gjenkjenning, sier Arild Noven.
For at systemet skal arbeide effektivt krever det store maskinressurser. For at responstiden skal ligge under ett sekund, er Noven avhengig av ti ganger større regnekraft enn det han har i dag.
-- Opptil 100 prosent korrekt gjenkjenning er mulig med dette systemet, mener Noven. Selv om systemet ikke er ferdig utviklet, er testresultatene svært gode.
Hjernen har også en unik evne til å sortere ut viktig informasjon i støyende omgivelser. De færreste har problemer med å oppfatte samtaler selv om disse ofte foregår parallelt med andre, eller om enkelte ord uttales uklart eller mangelfullt. En datamaskin som baserer seg på mønstergjenkjenning vil få store problemer i en slik situasjon.
-- Målet er at systemet skal fungere i tilnærmet normale omgivelser, sier Noven, vel vitende om at lastebiler som passerer kontorvinduet noen ganger forvirrer systemet slik at feil oppstår. Han mener imidlertid at støy ikke trenger å bli et problem dersom systemet tilpasses det lokale støynivået under opptreningsfasen. Typisk støy fra kontorlandskap skal derfor la seg håndtere av systemet.
Dette kalles konneksjonistnett, og tilegner seg kunnskap gjennom prøving og feiling på samme måte som mennesker og dyr. Systemet er også i stand til å takle variasjoner, støy og mangelfull informasjon på en bedre måte enn tidligere metoder har vært i stand til.
-- Foreløpig er systemet i stand til å gjenkjenne rundt 300 vanlige norske ord, men for å praktisk fungere som automatisk diktafon bør systemet beherske et vokabular på 5.000 til 10.000 ord. Blir det derimot brukt som kommandostyring kan en klare seg med et lite vokabular, understreker Noven.
-- Datamaskinen tar opp lyd i to sekunder med en båndbredde på 6,5 kilohertz. Etter at starttidspunktet er lokalisert, analyseres det første halve sekundet av talen i fem millisekunds intervaller. Systemet prøver så ut og revurderer sine egne hypoteser i en dynamisk prosess. Dette gjør det mulig å foreta en raskere finjustere for å skille ord som akustisk er vanskelig å skille. Ord som "gidder" og "gitter" er ikke like enkle å håndtere for maskinen som for oss andre, avslutter Noven.
TALE: Norske teknologibedrifter inviteres til samarbeid om kommersiell utnytting av Arild Novens avanserte norske system for automatisk talegjenkjenning. (Foto: Asbjørn Leirvåg)