Skip to main content

การวิเคราะห์คำศัพท์คืออะไร?

การวิเคราะห์คำศัพท์เป็นกระบวนการของการใช้สตริงของตัวละคร mdash;หรือมากกว่านั้นคือข้อความ mdash;และแปลงเป็นกลุ่มที่มีความหมายเรียกว่าโทเค็นวิธีการนี้ใช้ในแอพพลิเคชั่นที่หลากหลายตั้งแต่การตีความภาษาคอมพิวเตอร์ไปจนถึงการวิเคราะห์หนังสือการวิเคราะห์คำศัพท์ไม่ได้มีความหมายเหมือนกันกับการแยกวิเคราะห์แต่เป็นขั้นตอนแรกของกระบวนการแยกวิเคราะห์ทั้งหมดและสร้างวัตถุดิบสำหรับการใช้งานในภายหลัง

การสร้างบล็อกของโทเค็นหรือที่เรียกว่า lexemes สามารถสร้างได้หลายวิธีขึ้นอยู่กับไวยากรณ์ที่จำเป็นสำหรับการวิเคราะห์คำศัพท์ตัวอย่างทั่วไปของเรื่องนี้คือการแยกประโยคด้วยคำพูด;สิ่งนี้เกิดขึ้นบ่อยครั้งโดยการแยกประโยครอบ ๆ ช่องว่างแต่ละสตริงของอักขระต่อเนื่องที่สร้างขึ้นโดยไม่มีช่องว่างคือ lexemeสตริงข้อความสามารถแยกเป็นอักขระหนึ่งหรือหลายประเภทสร้าง lexemes หลายรุ่นที่มีความซับซ้อนที่แตกต่างกันโทเค็นถูกสร้างขึ้นหลังจากการประเมินและจับคู่กับค่า lexeme แต่ละครั้งกับค่าที่สอดคล้องกันตามคำนิยามโทเค็นอ้างถึงการจับคู่นี้ไม่ใช่แค่ Lexeme

การวิเคราะห์คำศัพท์ค่อนข้างจะตอบโต้โดยใช้สายข้อความของบริบทวัตถุประสงค์ของมันคือการสร้างหน่วยการสร้างสำหรับการศึกษาเพิ่มเติมเพื่อไม่ให้ระบุว่าชิ้นส่วนเหล่านั้นถูกต้องหรือไม่ถูกต้องในกรณีของการตีความภาษาคอมพิวเตอร์การตรวจสอบความถูกต้องจะทำโดยการวิเคราะห์ทางไวยากรณ์และการตรวจสอบความถูกต้องของข้อความสามารถทำได้ในแง่ของบริบทหรือเนื้อหาหากสตริงอินพุตถูกแบ่งออกเป็น Lexemes ที่เหมาะสมอย่างสมบูรณ์และแต่ละ lexemes เหล่านั้นมีค่าที่เหมาะสมการวิเคราะห์จะถือว่าประสบความสำเร็จ

โดยไม่มีบริบทหรือความสามารถในการตรวจสอบความถูกต้องการวิเคราะห์คำศัพท์ไม่สามารถใช้อย่างน่าเชื่อถือเพื่อค้นหาข้อผิดพลาดในอินพุต.ไวยากรณ์คำศัพท์อาจมีค่าข้อผิดพลาดที่กำหนดให้กับคำศัพท์เฉพาะและการวิเคราะห์ดังกล่าวยังสามารถตรวจจับโทเค็นที่ผิดกฎหมายหรือผิดปกติแม้ว่าการค้นหาโทเค็นที่ผิดกฎหมายหรือผิดรูปแบบจะส่งสัญญาณอินพุตที่ไม่ถูกต้อง แต่ก็ไม่มีผลต่อโทเค็นอื่น ๆ ที่ถูกต้องหรือไม่ดังนั้นจึงไม่ได้เป็นการตรวจสอบความถูกต้องอย่างเคร่งครัด

แม้ว่าการวิเคราะห์คำศัพท์เป็นส่วนสำคัญของอัลกอริทึมจำนวนมากมักจะใช้ร่วมกับวิธีการอื่น ๆ เพื่อสร้างผลลัพธ์ที่มีความหมายตัวอย่างเช่นการแยกสตริงข้อความออกเป็นคำเพื่อกำหนดความถี่ที่ใช้ประโยชน์จากการสร้าง lexeme แต่การสร้าง Lexeme เพียงอย่างเดียวไม่สามารถตรวจสอบจำนวนครั้งที่ lexeme เฉพาะปรากฏในอินพุตการวิเคราะห์คำศัพท์อาจมีประโยชน์ด้วยตัวเองหากมีการสังเกตตัวเอง แต่อินพุตจำนวนมากอาจทำให้การวิเคราะห์คำศัพท์ดิบเป็นเรื่องยากเนื่องจากปริมาณข้อมูล