Che cos’è la linguistica dei corpora e di cosa si occupa?

I dati linguistici sono essenziali per l'analisi del linguaggio. La linguistica dei corpora studia collezioni di testi organizzati mediante criteri rigorosi per rappresentare una lingua o una sua varietà.
Per analizzare il linguaggio, un o una linguista ha bisogno di dati su cui lavorare. Questi dati possono essere ecologici, ossia prodotti naturalmente dai parlanti, oppure controllati, ottenuti in specifiche condizioni sperimentali tramite test o questionari. Per spiegare la differenza tra questi due tipi di dati linguistici, Lenci et al. (2016) tracciano un interessante parallelismo con il lavoro dello scienziato naturalista che studia il comportamento degli animali. Un naturalista può osservare gli animali nel loro habitat naturale, limitando al minimo l'influenza della propria presenza e registrando come si muovono, si nutrono e si riproducono. In alternativa, può creare in laboratorio un contesto sperimentale ad hoc in cui collocare gli animali per verificare la validità di una certa ipotesi di ricerca. Nel primo caso, i dati raccolti sono i più naturali possibili. I dati linguistici ecologici sono raccolti in corpora (sing. corpus), grandi collezioni di testi selezionati e organizzati secondo specifici criteri che li rendono funzionali per le analisi linguistiche. Per testo possiamo intendere “qualunque prodotto dell’attività linguistica dei parlanti elaborato o trascritto come sequenza di caratteri”*.
La linguistica dei corpora è quella branca della linguistica che si occupa della raccolta e dell'analisi di queste collezioni di testi. Non si deve pensare ad un corpus come ad una semplice “scatola” contenente testi: ogni corpus deve essere selezionato e organizzato in modo tale da soddisfare specifici criteri quantitativi, relativi alle dimensioni del corpus, e qualitativi, relativi al modo in cui i testi sono selezionati. L’aspetto più importante è la rappresentatività: un corpus deve configurarsi “come un campione di una lingua o di una sua varietà, nel senso statistico di sottoinsieme di unità di una popolazione oggetto di studio, opportunamente selezionate come fonte di dati per formulare generalizzazioni corrette e affidabili sull’intera popolazione di riferimento”*.
Oggi, i corpora sono principalmente in formato elettronico, ma non sono un’invenzione recente. Prima dell’avvento del computer, le analisi linguistiche si basavano su collezioni di testi cartacei, spesso di dimensioni limitate. Più grande è un corpus, maggiore è la probabilità di osservare i fenomeni che ci interessano e di poter compiere delle generalizzazioni. Il primo corpus di formato elettronico costruito per essere un riferimento per lo studio di una lingua è stato il Brown Corpus: pubblicato nel 1964, esso è costituito da circa un milione di parole e contiene testi di lingua americana scritta prodotti nel 1961. Se un milione di parole sembrano molte, basti pensare che oggi un corpus di riferimento per una data lingua raccoglie, in media, circa un centinaio di milioni di parole.
Esistono molti tipi di corpora, progettati per scopi diversi: possono essere generali, ossia rappresentativi di una lingua nel suo complesso, oppure specialistici/verticali, quando includono testi appartenenti a una specifica varietà linguistica o dominio tematico, come ad esempio il linguaggio medico, o il linguaggio infantile. I corpora poi possono essere di lingua scritta, parlata o misti; ve ne sono di sincronici, che contengono una “fotografia” della lingua come appare in un certo momento, o diacronici, che permettono di studiare come la lingua cambia nel corso del tempo; ancora, esistono corpora monolingui o multilingui.
I corpora trovano applicazione in diversi ambiti. Per esempio, sono strumenti importanti per la lessicografia contemporanea, che può analizzarli per individuare i contesti in cui una parola viene utilizzata più frequentemente. A tal proposito, come mostrato qui, un software (AntConc) viene utilizzato per individuare le concordanze della parola hand in un certo corpus. I corpora sono poi utilizzati anche nell’insegnamento delle lingue, oltre che negli ambiti della traduzione automatica e del riconoscimento automatico del parlato (Baroni, 2010) - ebbene sì, anche l’intelligenza artificiale è stata “addestrata” su corpora!
( * ) Lenci et al. (2016)

Tags
Citation
This content is licensed under a Creative Commons Attribution 4.0 International license except for third-party materials or where otherwise noted.