ScienceBlogs

Home

Che cos’è la linguistica dei corpora e di cosa si occupa?

1’

Elena Ferrato

15 January 2025

1’

Che cos’è la linguistica dei corpora e di cosa si occupa?

I dati linguistici sono essenziali per l'analisi del linguaggio. La linguistica dei corpora studia collezioni di testi organizzati mediante criteri rigorosi per rappresentare una lingua o una sua varietà.

Per analizzare il linguaggio, un o una linguista ha bisogno di dati su cui lavorare. Questi dati possono essere ecologici, ossia prodotti naturalmente dai parlanti, oppure controllati, ottenuti in specifiche condizioni sperimentali tramite test o questionari. Per spiegare la differenza tra questi due tipi di dati linguistici, Lenci et al. (2016) tracciano un interessante parallelismo con il lavoro dello scienziato naturalista che studia il comportamento degli animali. Un naturalista può osservare gli animali nel loro habitat naturale, limitando al minimo l'influenza della propria presenza e registrando come si muovono, si nutrono e si riproducono. In alternativa, può creare in laboratorio un contesto sperimentale ad hoc in cui collocare gli animali per verificare la validità di una certa ipotesi di ricerca. Nel primo caso, i dati raccolti sono i più naturali possibili. I dati linguistici ecologici sono raccolti in corpora (sing. corpus), grandi collezioni di testi selezionati e organizzati secondo specifici criteri che li rendono funzionali per le analisi linguistiche. Per testo possiamo intendere “qualunque prodotto dell’attività linguistica dei parlanti elaborato o trascritto come sequenza di caratteri”*.

La linguistica dei corpora è quella branca della linguistica che si occupa della raccolta e dell'analisi di queste collezioni di testi. Non si deve pensare ad un corpus come ad una semplice “scatola” contenente testi: ogni corpus deve essere selezionato e organizzato in modo tale da soddisfare specifici criteri quantitativi, relativi alle dimensioni del corpus, e qualitativi, relativi al modo in cui i testi sono selezionati. L’aspetto più importante è la rappresentatività: un corpus deve configurarsi “come un campione di una lingua o di una sua varietà, nel senso statistico di sottoinsieme di unità di una popolazione oggetto di studio, opportunamente selezionate come fonte di dati per formulare generalizzazioni corrette e affidabili sull’intera popolazione di riferimento”*.

Oggi, i corpora sono principalmente in formato elettronico, ma non sono un’invenzione recente. Prima dell’avvento del computer, le analisi linguistiche si basavano su collezioni di testi cartacei, spesso di dimensioni limitate. Più grande è un corpus, maggiore è la probabilità di osservare i fenomeni che ci interessano e di poter compiere delle generalizzazioni. Il primo corpus di formato elettronico costruito per essere un riferimento per lo studio di una lingua è stato il Brown Corpus: pubblicato nel 1964, esso è costituito da circa un milione di parole e contiene testi di lingua americana scritta prodotti nel 1961. Se un milione di parole sembrano molte, basti pensare che oggi un corpus di riferimento per una data lingua raccoglie, in media, circa un centinaio di milioni di parole.

Esistono molti tipi di corpora, progettati per scopi diversi: possono essere generali, ossia rappresentativi di una lingua nel suo complesso, oppure specialistici/verticali, quando includono testi appartenenti a una specifica varietà linguistica o dominio tematico, come ad esempio il linguaggio medico, o il linguaggio infantile. I corpora poi possono essere di lingua scritta, parlata o misti; ve ne sono di sincronici, che contengono una “fotografia” della lingua come appare in un certo momento, o diacronici, che permettono di studiare come la lingua cambia nel corso del tempo; ancora, esistono corpora monolingui o multilingui.

I corpora trovano applicazione in diversi ambiti. Per esempio, sono strumenti importanti per la lessicografia contemporanea, che può analizzarli per individuare i contesti in cui una parola viene utilizzata più frequentemente. A tal proposito, come mostrato qui, un software (AntConc) viene utilizzato per individuare le concordanze della parola hand in un certo corpus. I corpora sono poi utilizzati anche nell’insegnamento delle lingue, oltre che negli ambiti della traduzione automatica e del riconoscimento automatico del parlato (Baroni, 2010) - ebbene sì, anche l’intelligenza artificiale è stata “addestrata” su corpora!

( * ) Lenci et al. (2016)

Elena Ferrato

Elena è, secondo la pagina web istituzionale, dottorando presso l’Università di Verona e questo titolo al maschile anziché al femminile non le va proprio giù. Si occupa di acquisizione del linguaggio da parte dei bambini e di sintassi dell’italiano, ma è da sempre appassionata alle questioni linguistiche legate al genere, tanto che il femminile dei nomi di professione è stato l’argomento della sua tesi triennale. Con i suoi contributi vuole fare corretta divulgazione e spera anche di abbattere qualche pregiudizio!

Ask a Linguist

Citation

https://doi.org/10.57708/bjxky5uhkq1aydfkpal-eow

Ferrato, E. Che cos’è la linguistica dei corpora e di cosa si occupa? . https://doi.org/10.57708/BJXKY5UHKQ1AYDFKPAL-EOW

This content is licensed under a Creative Commons Attribution 4.0 International license except for third-party materials or where otherwise noted.

03 December 2023connecting-the-dots

Come posso condividere i risultati della mia ricerca con i partecipanti?

Andrea Renee Leone Pizzighella

17 November 2023connecting-the-dots

Kann man im Dialekt schreiben, wie man will?

Aivars Glaznieks

10 November 2023connecting-the-dots

Figlio legittimo, figlio naturale o semplicemente figlio?

Isabella Stanizzi

Magazine Blogs

Service	Decline/Accept	Terms Link
Youtube		https://support.google.com/youtube/answer/7671399?...
Vimeo		https://vimeo.com/terms
Flourish		https://flourish.studio/terms/
Datawrapper		https://www.datawrapper.de/terms
Power BI		https://www.microsoft.com/en/servicesagreement/
Facebook		https://www.facebook.com/policies/cookies/
Instagram		https://help.instagram.com/1896641480634370?ref=ig
X		https://help.twitter.com/en/rules-and-policies/twi...
Google Maps		https://maps.google.com/help/terms_maps/
LinkedIn		https://www.linkedin.com/legal/cookie-policy

Che cos’è la linguistica dei corpora e di cosa si occupa?

Elena Ferrato

Tags

Citation

Come posso condividere i risultati della mia ricerca con i partecipanti?

Kann man im Dialekt schreiben, wie man will?

Figlio legittimo, figlio naturale o semplicemente figlio?

Science Shots Eurac Research Newsletter

What we do

Institutes & Centers

Follow us

My cookie preferences

External content

Technical
These cookies are necessary for the website to function and cannot be switched off.