Skip to main content

Vad är robust taligenkänning?

Robust taligenkänning kan på ett adekvat sätt upptäcka tal under negativa förhållanden som bullriga miljöer eller i skrapande inspelningar.Detta kan ha viktiga tillämpningar inom ett antal områden, till exempel brottsbekämpning eller utformning av hörapparater, till exempel.Forskning och utveckling i detta ämne sker på akademiska institutioner, privata företag och välgörenhetsorganisationer med intresse för detta område över hela världen.Karriärer inom detta område är öppna för människor som ljudingenjörer, datorprogrammerare och audiologer.

Konventionellt taligenkänning lider av problemet med att ha utformats för idealiska miljöer.En algoritm kan känna igen tal om det förekommer i en lugn miljö med lite till inget bakgrundsbrus, och om högtalaren tydligt formulerar orden.Sådana program kan kämpa med accenter som de inte har lärt sig, och de tenderar också att bryta ner i miljöer med massor av bakgrundsbrus.Världen är ofta bullriga, och därför kan sådan utrustning vara av begränsad användning i vissa inställningar utan robust taligenkänning.

I diktat, till exempel, förlitar sig de flesta system på en mikrofon som bärs nära munnen för att låta högtalarnas röst domineraSå programmet kan exakt bearbeta talet.Taligenkänning som används i applikationer som fjärrlyssning för brottsbekämpning, design av hörapparater och återställande av historiska inspelningar kan också ha svårigheter med bakgrundsbrus.Robust taligenkänning innebär utveckling av algoritmer som kan bearbeta och kasta detta brus för att bara lämna talet.

Detta kräver komplexa datorförmågor.Bullriga miljöer kan innehålla ett brett utbud av ljud, vilket gör det svårt att helt enkelt skapa ett passfilter som skulle skära ut ett antal ljud.Filtret kanske inte fångar alla problem och kan också störa talet.I robust taligenkänning arbetar programmerare för att utveckla program som kan identifiera tal och separera det från andra ljudspår.När den har separerats kan det utsättas för en annan pass för att rensa upp signalen, vilket gör att programmet kan köra en normal taligenkänningsalgoritm för att avgöra vad som sägs.

Kontrollera korrekt taligenkänning kan vara viktigt för automatiserade menyer, diktering och andra verkliga-Tidsapplikationer.Utvecklingen av robust taligenkänning kan också hjälpa till att skapa hörapparater och programvara som och fastställa mänskliga röster i en brumma av annat brus och överföra just dessa till lyssnaren.Detta gör taligenkänning mer användbart i miljöer som trånga fester och evenemang där flera ljud kan tävla och potentiellt drunkna röster för lyssnare som förlitar sig på taligenkänning.