Skip to main content

Cos'è l'analisi lessicale?

L'analisi lessicale è il processo di assunzione di una stringa di caratteri mdash;o, più semplicemente, text mdash;e convertirlo in gruppi significativi chiamati token.Questa metodologia ha usi in un'ampia varietà di applicazioni, dall'interpretazione dei linguaggi informatici all'analisi dei libri.L'analisi lessicale non è sinonimo di analisi;Piuttosto, è il primo passo del processo di analisi totale e crea materie prime per un uso successivo.

I blocchi di costruzione di token, chiamati anche lexemi, possono essere generati in molti modi, a seconda della grammatica richiesta per l'analisi lessicale.Un esempio comune di ciò è dividere le frasi di parole;Questo viene spesso fatto dividendo frasi negli spazi.Ogni stringa continua di caratteri generati senza spazi è un lesseme.Le stringhe di testo possono essere divise su uno o molti tipi di caratteri, creando più versioni di lexemi con varia complessità.I token vengono generati dopo che ogni lesseme è stato valutato e abbinato al suo valore corrispondente;Per definizione, i token si riferiscono a questo accoppiamento, non solo all'analisi lessicale.Il suo scopo è solo quello di generare blocchi per ulteriori studi, non determinare se tali pezzi sono validi o non validi.Nel caso dell'interpretazione del linguaggio del computer, la convalida viene effettuata mediante analisi di sintassi e la convalida del testo può essere eseguita in termini di contesto o contenuto.Se una stringa di input è completamente divisa in lexemi appropriati e ciascuno di questi lexemi ha un valore adeguato, l'analisi è considerata efficace.

senza contesto o la capacità di eseguire la convalida, l'analisi lessicale non può essere utilizzata in modo affidabile per trovare errori nell'input.Una grammatica lessicale potrebbe avere valori di errore assegnati a lexemi specifici e tale analisi può anche rilevare token illegali o malformati.Sebbene trovare un token illegale o malformato segna un input non valido, non ha alcuna influenza sul fatto che gli altri token siano validi, e quindi non è strettamente un tipo di validazione.

Sebbene l'analisi lessicale sia parte integrante di molti algoritmi, deveSpesso essere usato insieme ad altre metodologie per creare risultati significativi.Ad esempio, dividere una stringa di testo in parole per determinare le frequenze utilizza la creazione del lesseme, ma la creazione lesseme da sola non può monitorare il numero di volte in cui un particolare lesseme appare in input.L'analisi lessicale potrebbe essere utile da sola se i lexemi stessi sono degni di nota, ma grandi quantità di input potrebbero rendere difficile l'analisi dei lexemi grezzi a causa del volume dei dati.