Skip to main content

Ποια είναι η σύνδεση μεταξύ της σύνθεσης ομιλίας και της αναγνώρισης;

Η σύνθεση και η αναγνώριση ομιλίας είναι οι δύο πλευρές της ηλεκτρονικής ανάλυσης ομιλίας.Η σύνθεση ομιλίας είναι η δημιουργία ανθρώπινου λόγου από έναν υπολογιστή.Για παράδειγμα, ένα γραπτό κείμενο που διαβάζει υπολογιστή.Η αναγνώριση ομιλίας είναι η δημιουργία πληροφοριών υπολογιστή από προφορικές λέξεις, όπως υπαγορεύοντας ένα χαρτί σε έναν υπολογιστή.Ενώ οι δύο διαδικασίες δεν σχετίζονται άμεσα, η σύνθεση ομιλίας και η αναγνώριση βασίζονται στην ικανότητα ενός υπολογιστή να κατανοεί την ανθρώπινη ομιλία και την κλίση.Μία μέθοδος είναι έξοδος και η άλλη είναι είσοδος.

Οι διαδικασίες που χρησιμοποιούνται από τη σύνθεση και την αναγνώριση ομιλίας είναι πολύ παρόμοιες, ακόμη και αν το τελικό προϊόν είναι διαφορετικό.Η διαδικασία αποτελείται από δύο μέρη, ένα μέρος με ανθρώπινη αλληλεπίδραση και ένα χωρίς.Το ανθρώπινο τμήμα είναι όταν οι ανθρώπινες λέξεις εισέρχονται στο πρόγραμμα.Το μη ανθρώπινο μέρος είναι όταν το πρόγραμμα αλληλοσυνδέει την είσοδο.

Ένα πρόγραμμα σύνθεσης ομιλίας θα λάβει σε ανθρώπινη εισροή με τη μορφή ή πληκτρολογημένη ή γραπτή ανθρώπινη γλώσσα.Το πρόγραμμα θα διαβάσει τη γλώσσα και θα καθορίσει τι είναι κάθε λέξη, χρησιμοποιώντας την τοποθέτηση και τη στίξη για τον προσδιορισμό της κλίσης.Όταν μια λέξη θα μπορούσε να προφέρεται πολλαπλούς τρόπους, όπως στην περίπτωση του «ζωντανού», το πρόγραμμα θα αναζητήσει κοντινές λέξεις και ενδείξεις περιβάλλοντος για να καθορίσει ποια λέξη χρησιμοποιείται στην πραγματικότητα.Οι λέξεις θα πάνε στη συνέχεια στο δεύτερο μέρος του προγράμματος, όπου μιλούν δυνατά.

Σε ένα πρόγραμμα αναγνώρισης ομιλίας, η διαδικασία είναι αντίθετη.Η είσοδος προέρχεται από έναν ανθρώπινο ηχείο που λέει λέξεις σε έναν υπολογιστή.Ο υπολογιστής θα ακούσει κάθε λέξη και θα συγκρίνει το μοτίβο που παράγεται από τη φωνή του ομιλητή σε μια βιβλιοθήκη πιθανών ήχων και λέξεων.Στη συνέχεια, κάνει τον προσδιορισμό της πιο πιθανής λέξης και την στέλνει στο δεύτερο μέρος του συστήματος.Αυτό το τμήμα εκτυπώνει πραγματικά τις λέξεις στην οθόνη, παρόμοιο με το πώς το πρόγραμμα σύνθεσης λέει τα λόγια

Δεδομένου ότι κάθε ομιλητής ακούγεται ελαφρώς διαφορετικός, η σύνθεση ομιλίας και τα προγράμματα αναγνώρισης συχνά έχουν ένα ευρύ περιθώριο σφάλματος.Ένας από τους τρόπους με τους οποίους οι άνθρωποι καταπολεμούν αυτά τα σφάλματα είναι μέσω εξατομικευμένων προφίλ ομιλίας.Ένας μεμονωμένος ομιλητής θα έχει την ομιλία του που αναλύθηκε από το πρόγραμμα για να βρει τα συγκεκριμένα φωνητικά του πρότυπα.Όταν βρίσκει σφάλματα στη μετάφραση του υπολογιστή, μπορεί να τα διορθώσει ειδικά.Οι διορθώσεις αναλύονται και αποθηκεύονται από το πρόγραμμα, οπότε όταν η ενοχλητική λέξη εμφανίζεται και πάλι, το πρόγραμμα θα το μεταφράσει σωστά.

Υπάρχει ευρεία εφαρμογή για προγράμματα σύνθεσης ομιλίας και αναγνώρισης.Στον ιατρικό τομέα, αυτά τα προγράμματα επιτρέπουν στους ανθρώπους να επικοινωνούν οι οποίοι διαφορετικά μπορεί να μην είναι σε θέση να.Αυτά τα προγράμματα έχουν μια ευρεία εφαρμογή στην επιχείρηση ως ταχύτερο μέσο μετάφρασης αναφορών και εγγράφων.Η αναγνώριση ομιλίας είναι επίσης μια κοινή μέθοδος για τη δημιουργία συσκευών χωρίς χέρια στα αυτοκίνητα, επιτρέποντας στους ανθρώπους να μιλούν στο τηλέφωνο με μεγαλύτερη ασφάλεια κατά την οδήγηση.