Skip to main content

Τι είναι η αναγνώριση φωνής;

Η αναγνώριση φωνής μπορεί να αναφέρεται σε έναν από τους δύο τύπους επιστήμης των υπολογιστών: ιατροδικαστική ταυτοποίηση φωνής ή δυνατότητα ομιλίας σε κείμενο.Αυτό το άρθρο απευθύνεται στον τελευταίο ορισμό.

Αναγνώριση φωνής ή αναγνώριση ομιλίας σε αυτή την περίπτωση, είναι μια τεχνολογία υπολογιστών που χρησιμοποιεί την είσοδο ήχου για την εισαγωγή δεδομένων και όχι για ένα πληκτρολόγιο.Μιλώντας σε ένα μικρόφωνο, για παράδειγμα, παράγει το ίδιο αποτέλεσμα με την πληκτρολόγηση των λέξεων με το χέρι με ένα πληκτρολόγιο.Με απλά λόγια, το λογισμικό αναγνώρισης φωνής έχει σχεδιαστεί με μια εσωτερική βάση δεδομένων αναγνωρίσιμων λέξεων ή φράσεων.Το πρόγραμμα ταιριάζει με την υπογραφή ήχου της ομιλίας με τις αντίστοιχες καταχωρήσεις στη βάση δεδομένων.

Αν και η μετατροπή της ομιλίας σε κείμενο μπορεί να ακούγεται εύκολη, είναι ένα εξαιρετικά δύσκολο έργο.Το πρόβλημα έγκειται στην σχεδόν άπειρη σειρά των μεμονωμένων προτύπων ομιλίας και των τόνων, που συνδυάζονται από τη φυσική ανθρώπινη τάση να τρέχουν μαζί τα λόγια.Το πουκάμισο διαβάζει, βοήθησα την Apple να καταστρέψει μια ωραία παραλία.Όταν μιλάμε δυνατά, ακούγεται σαν, βοήθησα την Apple να αναγνωρίσει την ομιλία.

Διάφορα μοντέλα λογισμικού αναγνώρισης φωνής χρησιμοποιούνται για μια σειρά εφαρμογών, από προσωπική υπαγόρευση έως εμπορική αυτοματοποιημένη δρομολόγηση κλήσεων, από την ενίσχυση των ατόμων με ειδικές ανάγκες σε αθλητισμό και ειδήσειςυπότιτλος.Κάθε μοντέλο συμπεριφέρεται διαφορετικά και έχει τις δικές του δυνατότητες και όρια.

Προγράμματα αναγνώρισης φωνής που απαιτούν από το χρήστη να εκπαιδεύσει το λογισμικό για να αναγνωρίσει τα συγκεκριμένα στυλιζαρισμένα πρότυπα ομιλίας ονομάζονται

Εξαρτάται από τα ηχεία

Systems.Τα άτομα χρησιμοποιούν συνήθως αυτούς τους τύπους προγραμμάτων στο σπίτι ή στο γραφείο.Το ηλεκτρονικό ταχυδρομείο, τα σημειώματα, τα γράμματα, τα δεδομένα και το κείμενο μπορούν να εισαχθούν μιλώντας σε μικρόφωνο.

Ορισμένα συστήματα αναγνώρισης φωνής, που ονομάζονται διακριτά λόγια

Systems, απαιτούν από τον χρήστη να μιλάει καθαρά και αργά και να διαχωρίζει τις λέξεις.

Συνεχής Ομιλία Τα συστήματα έχουν σχεδιαστεί για να κατανοούν έναν πιο φυσικό τρόπο ομιλίας. Τα διακριτά συστήματα αναγνώρισης φωνής ομιλίας χρησιμοποιούνται ευρέως για τη δρομολόγηση εξυπηρέτησης πελατών.Το σύστημα είναι ανεξάρτητο ηχείο

, αλλά κατανοεί μόνο μια μικρή δεξαμενή λέξεων ή φράσεων.Ο καλών έχει την επιλογή να απαντήσει σε μια ερώτηση, συνήθως με ναι ή όχι.Αφού έλαβε μια απάντηση, το σύστημα κλιμακώνει τον καλούντα στο επόμενο επίπεδο.Εάν ο καλών απαντά με μια μοναδική απάντηση, η αυτοματοποιημένη απάντηση είναι συνήθως, λυπάμαι, δεν σας κατάλαβα.Δοκιμάστε ξανά, με μια επανάληψη της ερώτησης και τις διαθέσιμες απαντήσεις.Αυτός ο τύπος αναγνώρισης φωνής αναφέρεται επίσης ως αναγνώριση Grammar που είναι περιορισμένη από τη γραμματική.

Η συνεχής ομιλία είναι μια πιο εξελιγμένη μορφή λογισμικού αναγνώρισης φωνής, όπου ο καλών μπορεί να μιλήσει φυσικά για να εξηγήσει ένα πρόβλημα ή να ζητήσει μια υπηρεσία.Αυτό το πρόγραμμα έχει σχεδιαστεί για να διαλέξει λέξεις ή φράσεις-κλειδιά και να κάνει μια στατιστική καλύτερη μαντήρα ως προς το τι θέλει ο πελάτης.Μιλώντας απλά βοηθά την αναγνώριση φωνής στον εντοπισμό της ανάγκης.Αυτός ο τύπος συστήματος έχει μια πολύ πιο εντατική βάση δεδομένων από τα διακριτικά συστήματα ομιλίας και αναφέρεται επίσης ως αναγνώριση φυσικής γλώσσας. Η αυτόματη αναγνώριση ομιλίας (ASR) είναι ένα μοντέλο αναγνώρισης φωνής που έχει σχεδιαστεί για υπαγόρευση.Αυτό το λογισμικό διαφέρει από τα προηγούμενα μοντέλα στο ότι δεν προσπαθεί να καταλάβει τι λέγεται, μόνο για να εντοπίσει τις λέξεις που ομιλούνται.Δεδομένου ότι πολλές λέξεις στην αγγλική γλώσσα ακούγονται, τα λάθη γίνονται εύκολα.Ωστόσο, οι μεγάλες εταιρείες όπως η Microsoft επενδύουν στην αναγνώριση φωνής και η Bill Gates Own Prediction έχει την κατανόηση της συνεχιζόμενης ομιλίας μέχρι το έτος 2011. Το λογισμικό ASR βρίσκεται συχνά σε ψηφιακούς φωνητικούς καταγραφείς. Οι κυρίαρχοι παίκτες στο λογισμικό αναγνώρισης φωνής ήταν Scansoft και Nuance, με την πρώην εταιρεία να αποκτήσει την τελευταία.Οι μικρότεροι παίκτες περιλαμβάνουν ομιλία Fonix, Aculab και Verbio, μεταξύ άλλων, με μεγάλες εταιρείεςΌπως η IBM και η προαναφερθείσα Microsoft επενδύουν επίσης στην τεχνολογία.Αν και πολλοί εξακολουθούν να αισθάνονται ότι είναι περισσότερο πρόβλημα να εκπαιδεύσουν λογισμικό και να διορθώσουν τα λάθη παρά να χρησιμοποιούν απλά ένα πληκτρολόγιο, έρχεται ένας χρόνος όταν το λογισμικό αναγνώρισης φωνής πιθανότατα θα κλείσει αυτό το κενό.Η αύξηση των πληκτρολογίων με τη διακριτική ικανότητα χρήσης της ομιλίας θα γίνει πιθανώς συνηθισμένη.Το λογισμικό αναγνώρισης φωνής κερδίζει δημοτικότητα καθώς γίνεται πιο εξελιγμένη.Είναι ιδιαίτερα χρήσιμο στις επιχειρήσεις όπου μπορεί να αντικαταστήσει έναν ζωντανό χειριστή για να διοχετεύει κλήσεις, να διαδώσει πληροφορίες, να λάβει παραγγελίες και να εκτελέσει άλλες εξαιρετικά χρήσιμες λειτουργίες.Ωστόσο, κερδίζει επίσης την εύνοια ως εφαρμογή επιφάνειας εργασίας, που βοήθησε μαζί με διάσημο λογισμικό όπως το Scansofts,

dragonnaturallyspeaking

και ibms viavoice .