[CW hjemmeside]

Tale er sølv -- gjenkjennelse er gull


Dansk forsker har søkt patent på en ny oppdagelse om hvordan mennesket oppfatter lyd. Målet er en bedre talegjenkjennelse i datamaskiner.

JENS NIELSEN

Mange av den moderne vitenskap teorier er basert på tro. Dette har igjen ført til en manglende forståelse av lydens "fingeravtrykk". Og blant annet derfor er dagens standard for talegjenkjennelse på datamaskiner ikke nådd særlig langt.

Den tradisjonelle oppfatningen av hvordan mennesket oppfatter lyder har nemlig oversett helt fundamentale fakta. Øret bruker ikke -- som hittil antatt -- kun frekvenser og lydnivå når for eksempel tale skal oppfattes og forstås. Faktisk er tidsoppfattelsen en viktigere dimensjon i hørselen.

Revolusjon

Dette mener Frank Leonhard som er en dansk ingeniør og forsker. Han har oppdaget nye mønstre i ørets måte å analysere lyder på og har nå søkt patent på en oppdagelse han mener vil revolusjonere anvendelse av talegjenkjennelse i PCer.

Kjernen i Leonhards teori er betydningen av transienter: Gjentatte, ultrakorte energiimpulser fra overtoner i lyden. Frank Leonhard har på sin hjemme-PC påvist at transienterne har et lett gjenkjennelig mønster fra lyd til lyd, uansett hvem som snakker. Mønsteret vil kunne gjenkjennes av et analyseprogram og menneskelig tale vil dermed kunne gjenkjennes av en personlig computer.

Det er en rekke "sidegevinster" ved denne teorien som gjør Leonhards modell ekstra attraktiv. Blant annet vil bakgrunnstøy og uvedkommende lyder spille en langt mindre forstyrrende rolle enn i dag.

Forklaringen ligger i de nerveimpulser som sender signalene fra øret til hjernen via hørselsnerven. Nerveimpulsene sender synkront med frekvenser (svingningstallet) i den lyden man hører.

Lavt toneområde

Frekvenssynkronisering finner allikevel kun sted i et forholdsvis lavt toneområde, opp til 1400-1600 hertz. Over dette svingningstallet kan nerveimpulsene ikke lenger "følge med". I stedet synkroniseres de med energifluktasjoner i det innkommende signal: Avsendelsen av nervesignaler styres ifølge Frank Leonhard i hovedsak av de energibevegelser som dette millisekund korte transient medfører. Denne oppdagelsen kan igjen brukes til å oppnå andre fordeler. For eksempel fordelene ved at man kan legge flere talekanaler inn i telefonselskapenes pressede frekvensbånd.

-- Jeg mener at teorien gir forklaring på flere fenomener som det tidligere ikke har vært noe svar på. Det dreier seg for eksempel om høytalere og forsterkere som på papiret skulle spille rent og perfekt, men som allikevel ikke låter særlig bra. Teorien gir også forklaring på hvorfor en undulat som har lydsignaler som ser helt annerledes ut enn menneske kan snakke så det høres ut som et menneske. I følge den tradisjonelle teorien skulle ikke en undulats lyder være forståelig. Nå vet jeg hvorfor den allikevel er det, sier Frank Leonhard.

Neste skritt

Etter å ha arbeidet med oppdagelsen i noen år har han nylig fullført arbeidet med å formulere matematiske formeler som forklarer ørets funksjon. Nå er han i gang med det neste store skritt: Å få oppfinnelsen omsatt til et produkt som kan selges. Han er allerede i forhandlinger med flere store innen IT-bransjen angående en kommersiell utnyttelse i stor stil.

Hvis dette lykkes vil Frank Leonhard bli en holden mann. For den danske oppfinner har det vist seg at tale er sølv -- men gjenkjennelse er gull.


[Image map not available]
Artikkel automatisk generert, 7/2-95 cw@oslonett.no