Skip to main content

Ano ang iba't ibang mga diskarte sa pagkilala sa pagsasalita?

Maraming mga diskarte sa pagkilala sa pagsasalita ang ginagamit upang makuha ang mga sinasalita na salita at i -convert ang mga ito sa data na maaaring magamit ng isang programa ng software.Mayroong tatlong malawak na paraan upang pag -aralan ang pagsasalita sa isang pagsisikap upang matukoy kung ano ang sinasabi.Ang una ay tinatawag na discrete speech, nangangahulugang isang solong salita lamang ang sinasalita nang paisa -isa.Ang pangalawa ay kilala bilang konektadong pagsasalita, at ang mga salita ay dapat na sinasalita sa isang tiyak na paraan upang maunawaan.Sa wakas, may patuloy na pagsasalita, na kung paano ang karamihan sa mga tao ay karaniwang nagsasalita.

Ang pinakakaraniwang algorithm na ginamit para sa lahat ng mga uri ng mga diskarte sa pagkilala sa pagsasalita ay ang nakatagong modelo ng Markov (HMM).Ang sistemang ito ay nagsasangkot ng malalaking mga puno ng data ng mga ponema, o mga pangunahing tunog at pantig, na nahahati sa posibilidad ng istatistika ng isang tunog kasunod ng isa pa.Sa pamamagitan ng paghahambing ng bawat ponema sa isang node sa puno ng data ng mga tunog, ang aktwal na nakumpletong salita ay maaaring matukoy na may isang mataas na rate ng kawastuhan sa isang medyo maikling panahon.

Isang problema na mahirap pagtagumpayan sa ilang mga diskarte sa pagkilala sa pagsasalita ayPaghiwalayin kung saan nagsisimula at magtatapos ang isang salita.Ang gawaing ito ay kumplikado sa pamamagitan ng ingay sa background sa silid at ang katotohanan na ang ilang mga pantig ay may isang lagda ng audio na kahawig ng isang pahinga sa pagitan ng mga salita.Para sa kadahilanang ito, ang mga diskarte sa pagkilala sa pagsasalita at konektado sa pagsasalita ay ang pinaka tumpak.

Ang isa pang kadahilanan na naghihiwalay sa iba't ibang mga diskarte sa pagkilala sa pagsasalita ay ang isyu ng bokabularyo ng software.Ang software na nagbibigay -kahulugan sa pagsasalita ay maaaring magkaroon ng isang limitadong bokabularyo na may mataas na katumpakan, o isang malaking bokabularyo na dapat na maitugma sa mga indibidwal na pattern ng pagsasalita ng isang gumagamit.Kapag ang isang programa ay gumagamit ng paraan ng HMM ng pag -iipon ng mga salita, mas kaunti ang bilang ng mga salita na nauunawaan, mas tumpak ang programa.Ito ang pamamaraan na ginagamit ng karamihan sa mga awtomatikong sistema ng telepono upang matukoy ang mga numero o tugon sa mga katanungan.Ito ay dahil ang programa ay dapat sanayin upang maunawaan ang mga pattern ng pagsasalita ng taong nagsasalita.Ang pagsasanay ay nagsasangkot ng pagbabasa ng mga pre-made na talata ng teksto sa software.Ang mga salitang binabasa ay kilala, kaya ang programa ay maaaring bumuo ng isang istatistika na modelo ng mga ponema na tiyak sa gumagamit.Nagbibigay ito sa programa ng isang mas mahusay na pagkakataon ng pag -unawa sa gumagamit, ngunit maaari rin nitong hadlangan ang mga programa na pag -unawa sa mga taong hindi ito sinanay.

Ang pinakamahirap sa mga diskarte sa pagkilala sa pagsasalita ay ang pagbibigay kahulugan sa tuluy -tuloy o natural na pagsasalita.Maraming mga tao ang may posibilidad na magpatakbo ng mga salita nang magkasama at magsalita sa iba't ibang bilis, kaya ang kawastuhan ng mga programa na isinasalin ang patuloy na pagsasalita ay mas mababa kaysa sa iba pang mga pamamaraan.Gayunpaman, umiiral ang mga programa na maaaring isalin ang ganitong uri ng pagsasalita, ang ilan sa mga ito ay gumagamit ng malabo na lohika at neural network upang makatulong na makilala ang mga pattern at ibukod ang mga salita.