Skip to main content

語彙分析とは何ですか?

rexical字句分析は、一連のキャラクターを取得するプロセスです—または、より簡単に、テキスト—トークンと呼ばれる意味のあるグループに変換します。この方法論には、コンピューター言語の解釈から書籍の分析まで、さまざまなアプリケーションで使用されています。語彙分析は、解析と同義ではありません。むしろ、それは総解析プロセスの最初のステップであり、後で使用するための原材料を作成します。この一般的な例は、言葉で文章を分割することです。これは、スペースの周りに文を分割することによって頻繁に行われます。スペースなしで生成された各連続的な文字列は語彙用です。テキスト文字列は、1つまたは多くの種類の文字で分割でき、複雑さが異なるレクセムの複数のバージョンを作成できます。トークンは、各語彙体が評価され、対応する値とペアになった後に生成されます。定義上、トークンは語彙用だけでなく、このペアリングを指します。その目的は、それらのピースが有効か無効かを判断するのではなく、さらなる研究のためにビルディングブロックを生成することだけです。コンピューター言語の解釈の場合、検証は構文分析によって行われ、テキストの検証はコンテキストまたはコンテンツの観点から実行できます。入力文字列が適切なlexemesに完全に分割され、それらのそれぞれの語レクセムが適切な値を持っている場合、分析は成功すると見なされます。。語彙文法には、特定の語彙素に割り当てられたエラー値がある場合があり、そのような分析は違法または不正なトークンを検出することもできます。違法または奇形のトークンを見つけると無効な入力を信号することは、他のトークンが有効であるかどうかには関係がないため、厳密には検証の一種ではありません。多くの場合、他の方法論と併用して意味のある結果を作成します。たとえば、テキスト文字列を単語に分割して周波数を決定すると、語レクサムの作成が使用されますが、語レクサメの作成だけでは、特定の語彙素が入力に表示される回数を監視できません。語彙分析は、語彙体自体が注目すべき場合、それ自体が有用かもしれませんが、データの量のために生の語彙素の分析を大量に入力する可能性があります。