Skip to main content

Τι είναι το Corpus κειμένου;

Ένα corpus κειμένου είναι μια συλλογή από κείμενα, ομιλούμενα ή γραπτά, δηλαδή η βάση για την έρευνα της γλωσσολογίας του corpus.Η αποθήκευση αυτών των μεγάλων τραπεζών κειμένων επιτρέπει στους ερευνητές να αναλύουν διάφορες πτυχές οποιασδήποτε γλώσσας.Ένα σώμα κειμένου είναι ένας αποτελεσματικός τρόπος διεξαγωγής έρευνας, διότι μόλις συγκεντρωθεί το υλικό, μπορεί να χρησιμοποιηθεί για τη διερεύνηση ποικίλων θεμάτων που σχετίζονται με τη γλώσσα, όπως η μορφολογία, η σύνταξη, το λεξιλόγιο και η ρεαλιστική.Σε αντίθεση με τις παλαιότερες μεθόδους διεξαγωγής γλωσσικής έρευνας, ένα corpus κειμένου επιτρέπει στους ερευνητές να εξετάσουν τη γλώσσα ανάλογα με τον τρόπο με τον οποίο χρησιμοποιείται πραγματικά στο πλαίσιο, παρά πώς θα μπορούσε να χρησιμοποιηθεί υποθετικά.Οι γλωσσολόγοι έχουν συνήθως πρόσβαση σε πολύ μεγαλύτερα δείγματα δεδομένων από ό, τι όταν έπρεπε να περιοριστούν στα δεδομένα που θα μπορούσαν να συγκεντρωθούν σε περιορισμένο χρονικό διάστημα με περιορισμένους οικονομικούς πόρους.

Τα σωματίδια είναι συνήθως αποθηκευμένα σε έναν υπολογιστή, έτσι ώστε να μπορούν να δημιουργηθούν προγράμματα λογισμικού υπολογιστών για να διευκολυνθούν η έρευνα.Ένας κοινός τρόπος για να χρησιμοποιήσετε ένα σώμα κειμένου είναι να μετρήσετε τον συνολικό αριθμό λέξεων στα κείμενα, στη συνέχεια να μετράτε και να ταξινομήσετε τον αριθμό των φορών που εμφανίστηκαν ορισμένες λέξεις.Ο λόγος που δημιουργείται μεταξύ του αριθμού των συνολικών λέξεων και των συγκεκριμένων λέξεων είναι γνωστός ως νόμος του ZIPF.Αυτή η αναλογία βοηθά στην εξήγηση της συχνότητας λέξεων σε μια γλώσσα.Η κατανόηση του νόμου του ZIPF βοηθά τους προγραμματιστές υπολογιστών να σχεδιάσουν λογισμικό υπολογιστών που να ανταποκρίνεται στις απαιτήσεις μιας δεδομένης γλώσσας.Μπορούν να μετρήσουν και να προβλέψουν πόσο συχνά θα χρησιμοποιηθούν ορισμένες λέξεις και φράσεις ως εισροή.

Ένας άλλος τρόπος για να χρησιμοποιήσετε ένα corpus κειμένου είναι να επισημάνετε συγκεκριμένα στοιχεία σε αυτό που ο ερευνητής θέλει να μελετήσει.Ένα παράδειγμα για το πώς θα χρησιμοποιηθεί αυτό είναι να μετρήσουμε πόσες φορές εμφανίζεται η παθητική φωνή σε διαφορετικά είδη κειμένου.Η ετικέτα ήταν επίσης χρήσιμη για τη δημιουργία προγραμμάτων υπολογιστών που βοηθούν τους ανθρώπους στην καθημερινή τους ζωή.Η ετικέτα μερρούμενο λόγο ήταν κρίσιμη για την ανάπτυξη λογισμικού αναγνώρισης φωνής.Στα αγγλικά, για παράδειγμα, η ίδια λέξη μπορεί να έχει περισσότερα από ένα μέρος της ομιλίας.Οι πολλαπλές λέξεις συχνά τονίζουν διαφορετικά για να σηματοδοτήσουν ποιο μέρος της ομιλίας χρησιμοποιείται.Το ουσιαστικό "αντικείμενο" φέρει το άγχος του στην πρώτη συλλαβή, αλλά το ρήμα "αντικείμενο" τονίζεται στη δεύτερη συλλαβή.Η επισήμανση της ουσιαστικής μορφής του "αντικειμένου" βοηθά το πρόγραμμα του υπολογιστή να το διαβάσει σωστά σωστά και να το αναγνωρίσει όταν λέγεται "αντικείμενο" από έναν άνθρωπο.

Τα σωματίδια κειμένου είναι χρήσιμα τόσο για την ανθρώπινη γλωσσολογία όσο και για την υπολογιστική γλωσσολογία.Επιτρέπουν την διεξαγωγή έρευνας που βοηθά τους ανθρώπους να κατανοήσουν καλύτερα τη γλώσσα που χρησιμοποιούν οι άνθρωποι που με τη σειρά τους βοηθούν στην ανάπτυξη των γλωσσικών υπολογιστών που χρησιμοποιούν.Μεγάλα άλματα έχουν γίνει στην τεχνολογία αναγνώρισης φωνής, επιτρέποντας στους καταναλωτές να ελέγχουν προφορικά υπολογιστές στα γραφεία, τα σπίτια και τα οχήματά τους.Οι συνεχείς πρόοδοι θα επιτρέψουν στους ανθρώπους να επικοινωνούν με τους υπολογιστές τόσο φυσικά όσο κάνουν μεταξύ τους.