Hvad er robust talegenkendelse?

Robust talegenkendelse kan tilstrækkeligt detektere tale under ugunstige forhold som støjende miljøer eller i ridsige optagelser. Dette kan have vigtige applikationer på en række områder, såsom f.eks. Retshåndhævelse eller design af høreapparater. Forskning og udvikling inden for dette emne forekommer ved akademiske institutioner, private virksomheder og velgørenhedsorganisationer med interesse for dette felt overalt i verden. Karrierer på dette område er åbne for mennesker som lydteknikere, computerprogrammører og audiologer.

Konventionel talegenkendelse lider under problemet med at være designet til ideelle miljøer. En algoritme kan genkende tale, hvis den forekommer i et stille miljø uden lidt eller ingen baggrundsstøj, og hvis højttaleren tydeligt formulerer ordene. Sådanne programmer kan kæmpe med accenter, som de ikke har lært, og de har også en tendens til at bryde sammen i miljøer med masser af baggrundsstøj. Verden er ofte støjende, og således kan sådant udstyr være begrænset til brug i nogle indstillinger uden robust talegenkendelse.

I diktering for eksempel er de fleste systemer afhængige af en mikrofon, der bæres tæt på munden, for at lade højttalerens stemme dominere, så programmet kan behandle talen nøjagtigt. Talegenkendelse, der bruges i applikationer som fjernlyttning til retshåndhævelse, høreapparatdesign og gendannelse af historiske optagelser, kan også have svært ved baggrundsstøj. Robust talegenkendelse involverer udvikling af algoritmer, der kan behandle og kassere denne støj for kun at lade talen være.

Dette kræver komplekse computeregenskaber. Støjende miljøer kan indeholde en bred vifte af lyde, hvilket gør det svært at blot oprette et passfilter, der vil skære en række støj ud. Filtret fanger måske ikke alle problemlyde og kan muligvis også forstyrre talen. I robust talegenkendelse arbejder programmerere med at udvikle programmer, der kan identificere tale og adskille den fra andre lydspor. Når den er adskilt, kan den underkastes et andet pas til at rydde op i signalet, så programmet kan køre en normal talegenkendelsesalgoritme for at bestemme, hvad der bliver sagt.

Præcis genkendelse af tale kan være vigtig for automatiserede menuer, diktater og andre applikationer i realtid. Udviklingen af robust talegenkendelse kan også hjælpe med oprettelsen af høreapparater og software, der og fastlægger menneskelige stemmer i en brum af anden støj, og overfører netop disse til lytteren. Dette gør talegenkendelse mere anvendelig i miljøer som overfyldte fester og begivenheder, hvor flere lyde kan konkurrere, hvilket potentielt kan drukne stemmer for lyttere, der er afhængige af talegenkendelse.

Hvad er robust talegenkendelse?

Hjalp denne artikel dig?