Skip to main content

Cos'è un corpus di testo?

Un corpus di testo è una raccolta di testi, parlati o scritti, che è la base per la ricerca linguistica del corpus.La memorizzazione di queste grandi banche di testi consente ai ricercatori di analizzare vari aspetti di qualsiasi lingua.Un corpus di testo è un modo efficiente per condurre ricerche perché una volta raccolto il materiale, può essere utilizzato per studiare una varietà di questioni relative al linguaggio tra cui morfologia, sintassi, vocabolario e pragmatica.A differenza dei vecchi metodi di conduzione di ricerche linguistiche, un corpus di testo consente ai ricercatori di guardare il linguaggio in base a come viene effettivamente utilizzato nel contesto, piuttosto che come può essere utilizzato ipoteticamente.I linguisti in genere hanno accesso a campioni di dati molto più grandi rispetto a quando hanno dovuto limitarsi ai dati che potevano raccogliersi in un periodo di tempo limitato con risorse finanziarie limitate.

I corpora sono in genere archiviati in un computer, quindi è possibile creare programmi di software per facilitare la ricerca.Un modo comune di usare un corpus di testo è contare il numero totale di parole nei testi, quindi contare e classificare il numero di volte che sono comparse alcune parole.Il rapporto creato tra il numero di parole totali e parole specifiche è noto come legge di Zipf.Questo rapporto aiuta a spiegare la frequenza delle parole in una lingua.Comprendere la legge di ZiPF aiuta i programmatori di computer a progettare software per computer che soddisfi le esigenze di una determinata lingua.Possono contare e prevedere la frequenza con cui certe parole e frasi verranno usate come input.

Un altro modo per utilizzare un corpus di testo è quello di taggare elementi specifici in esso che il ricercatore vuole studiare.Un esempio di come questo sarebbe usato è per contare quante volte la voce passiva appare in diversi generi di testo.L'etichettatura è stata anche utile nella creazione di programmi per computer che aiutino le persone nella loro vita quotidiana.L'etichettatura del discorso in parte è stata fondamentale per lo sviluppo del software di riconoscimento vocale.In inglese, ad esempio, la stessa parola potrebbe avere più di una parte del discorso.Le parole multisillabiche sono spesso sottolineate in modo diverso per segnalare quale parte del linguaggio viene utilizzata.Il nome "oggetto" porta il suo stress sulla prima sillaba, ma il verbo "oggetto" è stressato sulla seconda sillaba.L'etichettatura della forma del nome di "oggetto" aiuta il programma per computer a leggerlo ad alta voce e a riconoscerlo quando "oggetto" viene detto da un essere umano.

I corpora di testo sono utili sia alla linguistica umana che alla linguistica computazionale.Consentono di condurre ricerche che aiutano le persone a comprendere meglio la lingua che gli umani usano che a loro volta aiutano a sviluppare i computer di linguaggio.Sono stati fatti grandi salti nella tecnologia di riconoscimento vocale, consentendo ai consumatori di controllare verbalmente i computer nei loro uffici, case e veicoli.I progressi continui consentiranno agli umani di comunicare con i computer nel modo naturale come fanno l'uno con l'altro.