Skip to main content

Ποιες είναι οι διαφορετικές τεχνικές αναγνώρισης ομιλίας;

Αρκετές τεχνικές αναγνώρισης ομιλίας χρησιμοποιούνται για τη λήψη προφορικών λέξεων και τη μετατροπή τους σε δεδομένα που μπορούν να χρησιμοποιηθούν από ένα πρόγραμμα λογισμικού.Υπάρχουν τρεις ευρείς τρόποι για να αναλύσετε την ομιλία σε μια προσπάθεια να προσδιοριστεί τι λέγεται.Το πρώτο ονομάζεται διακριτή ομιλία, που σημαίνει ότι μόνο μια λέξη μιλάει κάθε φορά.Το δεύτερο είναι γνωστό ως συνδεδεμένη ομιλία και οι λέξεις πρέπει να μιλούν με κάποιο τρόπο για να γίνουν κατανοητές.Τέλος, υπάρχει συνεχής ομιλία, που συνήθως μιλούν οι περισσότεροι άνθρωποι.

Ο πιο συνηθισμένος αλγόριθμος που χρησιμοποιείται για όλους τους τύπους τεχνικών αναγνώρισης ομιλίας είναι το κρυμμένο μοντέλο Markov (HMM).Αυτό το σύστημα περιλαμβάνει μεγάλα δέντρα δεδομένων από φωνήματα ή βασικούς ήχους και συλλαβές, οι οποίες διαιρούνται από τη στατιστική πιθανότητα ενός ήχου μετά από άλλο.Συγκρίνοντας κάθε φωνή με έναν κόμβο στο δέντρο δεδομένων των ήχων, η πραγματική ολοκληρωμένη λέξη μπορεί να προσδιοριστεί με υψηλό ποσοστό ακρίβειας σε σχετικά σύντομο χρονικό διάστημα.

Ένα πρόβλημα που είναι δύσκολο να ξεπεραστεί με ορισμένες τεχνικές αναγνώρισης ομιλίας είναιΑπομόνωση όπου ξεκινά μια λέξη και τελειώνει.Αυτή η εργασία περιπλέκεται από τον θόρυβο του φόντου στο δωμάτιο και το γεγονός ότι ορισμένες συλλαβές έχουν μια υπογραφή ήχου που μοιάζει με ένα διάλειμμα μεταξύ των λέξεων.Για το λόγο αυτό, οι διακριτές και συνδεδεμένες τεχνικές αναγνώρισης ομιλίας είναι οι πιο ακριβείς.

Ένας άλλος παράγοντας που χωρίζει διαφορετικές τεχνικές αναγνώρισης ομιλίας είναι το ζήτημα του λεξιλογίου λογισμικού.Το λογισμικό που ερμηνεύει την ομιλία μπορεί είτε να έχει ένα πολύ περιορισμένο λεξιλόγιο με υψηλή ακρίβεια, είτε ένα μεγάλο λεξιλόγιο που πρέπει να ταιριάζει με τα συγκεκριμένα πρότυπα ομιλίας ενός χρήστη.Όταν ένα πρόγραμμα χρησιμοποιεί τη μέθοδο HMM για τη συναρμολόγηση των λέξεων, τόσο λιγότερες είναι ο αριθμός των λέξεων που κατανοούνται, τόσο πιο ακριβές μπορεί να είναι το πρόγραμμα.Αυτή είναι η μέθοδος που χρησιμοποιούν τα πιο αυτοματοποιημένα τηλεφωνικά συστήματα για να αποκρυπτογραφήσουν τους αριθμούς ή τις απαντήσεις σε ερωτήσεις.

Τεχνικές αναγνώρισης ομιλίας που κατανοούν ένα μεγάλο λεξιλόγιο έχουν συνήθως σχεδιαστεί για να αλληλεπιδρούν με πολύ λίγους ή μόνο έναν χρήστη.Αυτό οφείλεται στο γεγονός ότι το πρόγραμμα πρέπει να εκπαιδεύεται για να κατανοήσει τα πρότυπα ομιλίας του ατόμου που μιλάει.Η εκπαίδευση περιλαμβάνει την ανάγνωση προκαθορισμένων παραγράφων κειμένου στο λογισμικό.Οι λέξεις που διαβάζονται είναι γνωστές, οπότε το πρόγραμμα είναι σε θέση να δημιουργήσει ένα στατιστικό μοντέλο φωνημάτων ειδικά για τον χρήστη.Αυτό δίνει στο πρόγραμμα πολύ περισσότερες πιθανότητες κατανόησης του χρήστη, αλλά μπορεί επίσης να εμποδίσει την κατανόηση των προγραμμάτων των ανθρώπων με τους οποίους δεν έχει εκπαιδεύσει. "Το πιο δύσκολο από τις τεχνικές αναγνώρισης ομιλίας είναι η ερμηνεία συνεχούς ή φυσικής ομιλίας.Πολλοί άνθρωποι τείνουν να τρέχουν λέξεις μαζί και να μιλούν με διαφορετικές ταχύτητες, οπότε η ακρίβεια των προγραμμάτων που μεταφράζουν τη συνεχή ομιλία είναι χαμηλότερη από αυτή των άλλων μεθόδων.Ακόμα, υπάρχουν προγράμματα που μπορούν να μεταφράσουν αυτό το είδος ομιλίας, μερικοί από αυτούς χρησιμοποιούν ασαφή λογική και νευρωνικά δίκτυα για να βοηθήσουν στην αναγνώριση των μοτίβων και στην απομόνωση των λέξεων.