Skip to main content

Hvad er robust talegenkendelse?

Robust talegenkendelse kan tilstrækkeligt opdage tale under ugunstige forhold som støjende miljøer eller i ridseroptagelser.Dette kan have vigtige anvendelser på en række områder, såsom retshåndhævelse eller design af høreapparater, for eksempel.Forskning og udvikling af dette emne forekommer på akademiske institutioner, private virksomheder og velgørende organisationer med interesse for dette felt over hele verden.Karrierer på dette område er åbne for mennesker som lydingeniører, computerprogrammører og audiologer.

Konventionel talegenkendelse lider af problemet med at være designet til ideelle miljøer.En algoritme kan genkende tale, hvis den forekommer i et roligt miljø med lidt til ingen baggrundsstøj, og hvis taleren tydeligt artikulerer ordene.Sådanne programmer kan kæmpe med accenter, som de ikke har lært, og de har også en tendens til at bryde sammen i miljøer med masser af baggrundsstøj.Verden er ofte støjende, og dermed kan sådan udstyr være til begrænset brug i nogle omgivelser uden robust talegenkendelse.

I diktat er for eksempel de fleste systemer afhængige af en mikrofon,Så programmet kan nøjagtigt behandle talen.Talegenkendelse, der bruges i applikationer som fjernlyttelse til retshåndhævelse, design af høreapparat og restaurering af historiske optagelser, kan også have svært ved baggrundsstøj.Robust talegenkendelse involverer udviklingen af algoritmer, der kan behandle og kassere denne støj for at forlade bare talen.

Dette kræver komplekse computerfærdigheder.Støjende miljøer kan indeholde en lang række lyde, hvilket gør det svært at blot oprette et pasfilter, der ville skære en række støj ud.Filteret fanger muligvis ikke alle de problemlyde og kan potentielt også forstyrre talen.I robust talegenkendelse arbejder programmerere med at udvikle programmer, der kan identificere tale og adskille den fra andre lydspor.Når det er adskilt, kan det blive udsat for en anden pasning for at rydde op i signalet, hvilket gør det muligt for programmet at køre en normal talegenkendelsesalgoritme for at bestemme, hvad der bliver sagt.

Præcis talegenkendelse kan være vigtigt for automatiserede menuer, diktat og anden reel-Time -applikationer.Udviklingen af robust talegenkendelse kan også hjælpe med oprettelsen af høreapparater og software, der og præciserer menneskelige stemmer i en brum af anden støj og overfører bare disse til lytteren.Dette gør talegenkendelse mere nyttig i miljøer som overfyldte fester og begivenheder, hvor flere lyde kan konkurrere, potentielt drukne stemmer for lyttere, der er afhængige af talegenkendelse.