Vad är robust taligenkänning?

Robust taligenkänning kan tillräckligt detektera tal under ogynnsamma förhållanden som bullriga miljöer eller i repiga inspelningar. Detta kan ha viktiga tillämpningar inom ett antal områden, till exempel brottsbekämpning eller utformning av hörapparater, till exempel. Forskning och utveckling av detta ämne sker vid akademiska institutioner, privata företag och välgörenhetsorganisationer som är intresserade av detta område över hela världen. Karriärer inom detta område är öppna för människor som ljudingenjörer, dataprogrammerare och audiologer.

Konventionellt taligenkänning lider av problemet med att ha utformats för idealiska miljöer. En algoritm kan känna igen tal om det inträffar i en lugn miljö med lite eller inget bakgrundsbrus, och om högtalaren tydligt formulerar orden. Sådana program kan kämpa med accenter som de inte har lärt sig, och de tenderar också att bryta ner i miljöer med mycket bakgrundsbrus. Världen är ofta högljudd och därför kan sådan utrustning vara begränsad i vissa inställningar utan robust taligenkänning.

I diktering till exempel litar de flesta system på en mikrofon som bärs nära munnen för att låta högtalarens röst dominera så att programmet kan behandla talet exakt. Taligenkänning som används i applikationer som fjärrlysning för brottsbekämpning, design av hörapparater och återställning av historiska inspelningar kan också ha svårigheter med bakgrundsljud. Robust taligenkänning innebär utveckling av algoritmer som kan bearbeta och kassera detta brus för att bara lämna talet.

Detta kräver komplexa datoregenskaper. Bullriga miljöer kan innehålla ett brett utbud av ljud, vilket gör det svårt att helt enkelt skapa ett passfilter som skulle skära ut ett brusområde. Filtret kanske inte fångar upp alla problemljud och kan också interferera med talet. I robust taligenkänning arbetar programmerare för att utveckla program som kan identifiera tal och separera det från andra spår av ljud. När den har separerats kan den utsättas för ytterligare ett pass för att rensa upp signalen, vilket gör att programmet kan köra en normal taligenkänningsalgoritm för att bestämma vad som sägs.

Exakt taligenkänning kan vara viktigt för automatiserade menyer, diktationer och andra realtidsapplikationer. Utvecklingen av robust taligenkänning kan också hjälpa till med att skapa hörapparater och programvara som och pekar ut mänskliga röster i ett brum av annat brus och överför just dessa till lyssnaren. Detta gör taligenkänning mer användbar i miljöer som trångt fester och händelser där flera ljud kan tävla, vilket kan drunkna röster för lyssnare som förlitar sig på taligenkänning.

Vad är robust taligenkänning?

Hjälpte den här artikeln dig?