Skip to main content

คลังข้อความคืออะไร?

corpus ข้อความคือคอลเลกชันของข้อความที่พูดหรือเขียนซึ่งเป็นพื้นฐานสำหรับการวิจัยภาษาศาสตร์คลังข้อมูลการจัดเก็บธนาคารขนาดใหญ่เหล่านี้ช่วยให้นักวิจัยสามารถวิเคราะห์แง่มุมต่าง ๆ ของภาษาใดก็ได้คลังข้อความเป็นวิธีที่มีประสิทธิภาพในการดำเนินการวิจัยเพราะเมื่อรวบรวมวัสดุแล้วสามารถใช้ในการตรวจสอบปัญหาที่เกี่ยวข้องกับภาษาที่หลากหลายรวมถึงสัณฐานวิทยาไวยากรณ์คำศัพท์และการปฏิบัติซึ่งแตกต่างจากวิธีการที่เก่ากว่าในการดำเนินการวิจัยทางภาษาศาสตร์ข้อความ Corpus ช่วยให้นักวิจัยมองภาษาตามวิธีการใช้จริงในบริบทมากกว่าวิธีการใช้สมมุติฐานโดยทั่วไปแล้วนักภาษาศาสตร์สามารถเข้าถึงตัวอย่างข้อมูลที่มีขนาดใหญ่กว่าได้มากกว่าเมื่อพวกเขาต้อง จำกัด ตัวเองไว้ในข้อมูลที่พวกเขาสามารถรวบรวมได้ในระยะเวลาที่ จำกัด ด้วยทรัพยากรทางการเงินที่ จำกัด

โดยทั่วไป Corpora จะถูกเก็บไว้ในคอมพิวเตอร์ดังนั้นโปรแกรมซอฟต์แวร์คอมพิวเตอร์สามารถสร้างขึ้นเพื่ออำนวยความสะดวกในการวิจัยวิธีหนึ่งทั่วไปในการใช้คลังข้อความคือการนับจำนวนคำทั้งหมดในข้อความจากนั้นนับและจัดอันดับจำนวนครั้งที่บางคำปรากฏขึ้นอัตราส่วนที่สร้างขึ้นระหว่างจำนวนคำทั้งหมดและคำเฉพาะนั้นเรียกว่ากฎของ ZIPFอัตราส่วนนี้ช่วยอธิบายความถี่ของคำในภาษาการทำความเข้าใจกฎหมายของ ZIPF ช่วยให้โปรแกรมเมอร์คอมพิวเตอร์ออกแบบซอฟต์แวร์คอมพิวเตอร์ที่ตรงกับความต้องการของภาษาที่กำหนดพวกเขาสามารถนับและทำนายว่าคำและวลีบางอย่างจะถูกใช้เป็นอินพุตบ่อยแค่ไหน

อีกวิธีหนึ่งในการใช้คลังข้อความคือการติดแท็กองค์ประกอบเฉพาะในนั้นที่นักวิจัยต้องการศึกษาตัวอย่างของวิธีการใช้สิ่งนี้คือการนับจำนวนครั้งที่เสียงพาสซีฟปรากฏขึ้นในประเภทข้อความที่แตกต่างกันการติดแท็กยังมีประโยชน์ในการสร้างโปรแกรมคอมพิวเตอร์ที่ช่วยเหลือผู้คนในชีวิตประจำวันการติดแท็กส่วนหนึ่งมีความสำคัญต่อการพัฒนาซอฟต์แวร์การจดจำเสียงตัวอย่างเช่นในภาษาอังกฤษคำเดียวกันอาจมีมากกว่าหนึ่งส่วนของการพูดคำหลายคำมักจะเน้นแตกต่างกันเพื่อส่งสัญญาณว่าส่วนใดของการพูดถูกใช้คำนาม "วัตถุ" มีความเครียดในพยางค์แรก แต่คำกริยา "วัตถุ" นั้นเน้นที่พยางค์ที่สองการติดแท็กรูปแบบคำนามของ "วัตถุ" ช่วยให้โปรแกรมคอมพิวเตอร์ทั้งคู่อ่านออกเสียงได้อย่างถูกต้องและรับรู้เมื่อมนุษย์ "วัตถุ" พูด

ข้อความ Corpora มีประโยชน์ต่อทั้งภาษาศาสตร์มนุษย์และภาษาศาสตร์เชิงคำนวณพวกเขาอนุญาตให้ทำการวิจัยที่ช่วยให้ผู้คนเข้าใจภาษาที่มนุษย์ใช้ซึ่งจะช่วยพัฒนาคอมพิวเตอร์ภาษาที่ใช้Great Leaps ได้รับการสร้างขึ้นในเทคโนโลยีการจดจำเสียงทำให้ผู้บริโภคสามารถควบคุมคอมพิวเตอร์ด้วยวาจาในสำนักงานบ้านและยานพาหนะความก้าวหน้าอย่างต่อเนื่องจะช่วยให้มนุษย์สามารถสื่อสารกับคอมพิวเตอร์ได้ตามธรรมชาติเช่นเดียวกับที่พวกเขาทำซึ่งกันและกัน