Skip to main content

Τι είναι η λεξική ανάλυση;

Η λεξική ανάλυση είναι η διαδικασία λήψης μιας σειράς χαρακτήρων mdash;ή, πιο απλά, κείμενο mdash;και τη μετατροπή σε σημαντικές ομάδες που ονομάζονται μάρκες.Αυτή η μεθοδολογία έχει χρήσεις σε μια μεγάλη ποικιλία εφαρμογών, από την ερμηνεία των γλωσσών υπολογιστών έως την ανάλυση των βιβλίων.Η λεξική ανάλυση δεν είναι συνώνυμη με την ανάλυση.Αντίθετα, είναι το πρώτο βήμα της συνολικής διαδικασίας ανάλυσης και δημιουργεί πρώτη ύλη για μεταγενέστερη χρήση.

Τα δομικά στοιχεία των μαρκών, που ονομάζονται επίσης Lexemes, μπορούν να δημιουργηθούν με πολλούς τρόπους, ανάλογα με τη γραμματική που απαιτείται για τη λεξική ανάλυση.Ένα κοινό παράδειγμα αυτού είναι η διάσπαση των προτάσεων με λέξεις.Αυτό γίνεται συχνά με τη διάσπαση των προτάσεων γύρω από τους χώρους.Κάθε συνεχής σειρά χαρακτήρων που παράγονται χωρίς κενά είναι ένα lexeme.Οι συμβολοσειρές κειμένου μπορούν να χωριστούν σε έναν ή πολλούς τύπους χαρακτήρων, δημιουργώντας πολλαπλές εκδόσεις Lexemes με διαφορετική πολυπλοκότητα.Τα μάρκες δημιουργούνται μετά την αξιολόγηση κάθε lexeme και συνδυάζεται με την αντίστοιχη τιμή του.Εξ ορισμού, οι μάρκες αναφέρονται σε αυτό το ζευγάρωμα, όχι μόνο το lexeme.

Lexical Analysis, κάπως αντι-διαισθητικά, λωθεί μια σειρά κειμένου του πλαισίου της.Σκοπός του είναι μόνο να δημιουργήσει δομικά στοιχεία για περαιτέρω μελέτη, να μην διαπιστωθεί εάν αυτά τα κομμάτια είναι έγκυρα ή άκρα.Στην περίπτωση της ερμηνείας της γλώσσας του υπολογιστή, η επικύρωση γίνεται με ανάλυση σύνταξης και η επικύρωση του κειμένου μπορεί να γίνει όσον αφορά το πλαίσιο ή το περιεχόμενο.Εάν μια συμβολοσειρά εισόδου διαιρείται πλήρως σε κατάλληλα λεξήματα και κάθε ένα από αυτά τα λεξικά έχει την κατάλληλη τιμή, η ανάλυση θεωρείται επιτυχής..Μια λεξική γραμματική μπορεί να έχει τιμές σφάλματος που έχουν αντιστοιχιστεί σε συγκεκριμένα λεξικά και αυτή η ανάλυση μπορεί επίσης να ανιχνεύσει παράνομα ή κακοποιημένα μάρκες.Παρόλο που η εύρεση ενός παράνομου ή κακοδιατηρημένου διακριτικού σηματοδοτεί μη έγκυρη εισροή, δεν έχει καμία σχέση με το αν τα άλλα μάρκες είναι έγκυρα και έτσι δεν είναι αυστηρά ένας τύπος επικύρωσης.συχνά χρησιμοποιούνται σε συνδυασμό με άλλες μεθοδολογίες για τη δημιουργία σημαντικών αποτελεσμάτων.Για παράδειγμα, η διάσπαση μιας συμβολοσειράς κειμένου σε λέξεις για τον προσδιορισμό των συχνοτήτων χρησιμοποιεί τη δημιουργία lexeme, αλλά η δημιουργία lexeme από μόνη της δεν μπορεί να παρακολουθεί τον αριθμό των φορών που εμφανίζεται ένα συγκεκριμένο lexeme στην είσοδο.Η λεξική ανάλυση μπορεί να είναι χρήσιμη από μόνη της εάν τα ίδια τα λεξικά είναι σημειωμένα, αλλά οι μεγάλες ποσότητες εισροών μπορεί να δυσκολεύουν την ανάλυση των ακατέργαστων λεξμάτων δύσκολη λόγω του όγκου των δεδομένων.