Eurach Research
ScienceBlogs
Home

Che cos’è la linguistica dei corpora e di cosa si occupa?

1
1
Che cos’è la linguistica dei corpora e di cosa si occupa?
Oggi l'analisi dei dati si effettua tramite computerCredit: pexels.com | Erik Mclean | All rights reserved

I dati linguistici sono essenziali per l'analisi del linguaggio. La linguistica dei corpora studia collezioni di testi organizzati mediante criteri rigorosi per rappresentare una lingua o una sua varietà.

Per analizzare il linguaggio, un o una linguista ha bisogno di dati su cui lavorare. Questi dati possono essere ecologici, ossia prodotti naturalmente dai parlanti, oppure controllati, ottenuti in specifiche condizioni sperimentali tramite test o questionari. Per spiegare la differenza tra questi due tipi di dati linguistici, Lenci et al. (2016) tracciano un interessante parallelismo con il lavoro dello scienziato naturalista che studia il comportamento degli animali. Un naturalista può osservare gli animali nel loro habitat naturale, limitando al minimo l'influenza della propria presenza e registrando come si muovono, si nutrono e si riproducono. In alternativa, può creare in laboratorio un contesto sperimentale ad hoc in cui collocare gli animali per verificare la validità di una certa ipotesi di ricerca. Nel primo caso, i dati raccolti sono i più naturali possibili. I dati linguistici ecologici sono raccolti in corpora (sing. corpus), grandi collezioni di testi selezionati e organizzati secondo specifici criteri che li rendono funzionali per le analisi linguistiche. Per testo possiamo intendere “qualunque prodotto dell’attività linguistica dei parlanti elaborato o trascritto come sequenza di caratteri”*.

La linguistica dei corpora è quella branca della linguistica che si occupa della raccolta e dell'analisi di queste collezioni di testi. Non si deve pensare ad un corpus come ad una semplice “scatola” contenente testi: ogni corpus deve essere selezionato e organizzato in modo tale da soddisfare specifici criteri quantitativi, relativi alle dimensioni del corpus, e qualitativi, relativi al modo in cui i testi sono selezionati. L’aspetto più importante è la rappresentatività: un corpus deve configurarsi “come un campione di una lingua o di una sua varietà, nel senso statistico di sottoinsieme di unità di una popolazione oggetto di studio, opportunamente selezionate come fonte di dati per formulare generalizzazioni corrette e affidabili sull’intera popolazione di riferimento”*.

Oggi, i corpora sono principalmente in formato elettronico, ma non sono un’invenzione recente. Prima dell’avvento del computer, le analisi linguistiche si basavano su collezioni di testi cartacei, spesso di dimensioni limitate. Più grande è un corpus, maggiore è la probabilità di osservare i fenomeni che ci interessano e di poter compiere delle generalizzazioni. Il primo corpus di formato elettronico costruito per essere un riferimento per lo studio di una lingua è stato il Brown Corpus: pubblicato nel 1964, esso è costituito da circa un milione di parole e contiene testi di lingua americana scritta prodotti nel 1961. Se un milione di parole sembrano molte, basti pensare che oggi un corpus di riferimento per una data lingua raccoglie, in media, circa un centinaio di milioni di parole.

Esistono molti tipi di corpora, progettati per scopi diversi: possono essere generali, ossia rappresentativi di una lingua nel suo complesso, oppure specialistici/verticali, quando includono testi appartenenti a una specifica varietà linguistica o dominio tematico, come ad esempio il linguaggio medico, o il linguaggio infantile. I corpora poi possono essere di lingua scritta, parlata o misti; ve ne sono di sincronici, che contengono una “fotografia” della lingua come appare in un certo momento, o diacronici, che permettono di studiare come la lingua cambia nel corso del tempo; ancora, esistono corpora monolingui o multilingui.

I corpora trovano applicazione in diversi ambiti. Per esempio, sono strumenti importanti per la lessicografia contemporanea, che può analizzarli per individuare i contesti in cui una parola viene utilizzata più frequentemente. A tal proposito, come mostrato qui, un software (AntConc) viene utilizzato per individuare le concordanze della parola hand in un certo corpus. I corpora sono poi utilizzati anche nell’insegnamento delle lingue, oltre che negli ambiti della traduzione automatica e del riconoscimento automatico del parlato (Baroni, 2010) - ebbene sì, anche l’intelligenza artificiale è stata “addestrata” su corpora!

( * ) Lenci et al. (2016)

Elena Ferrato

Elena Ferrato

Elena è, secondo la pagina web istituzionale, dottorando presso l’Università di Verona e questo titolo al maschile anziché al femminile non le va proprio giù. Si occupa di acquisizione del linguaggio da parte dei bambini e di sintassi dell’italiano, ma è da sempre appassionata alle questioni linguistiche legate al genere, tanto che il femminile dei nomi di professione è stato l’argomento della sua tesi triennale. Con i suoi contributi vuole fare corretta divulgazione e spera anche di abbattere qualche pregiudizio!

Tags

  • Ask a Linguist

Citation

https://doi.org/10.57708/bjxky5uhkq1aydfkpal-eow
Ferrato, E. Che cos’è la linguistica dei corpora e di cosa si occupa? . https://doi.org/10.57708/BJXKY5UHKQ1AYDFKPAL-EOW
Related Post
Come posso condividere i risultati della mia ricerca con i partecipanti?
connecting-the-dots

Come posso condividere i risultati della mia ricerca con i partecipanti?

Andrea Renee Leone PizzighellaAndrea Renee Leone Pizzighella
Kann man im Dialekt schreiben, wie man will?
connecting-the-dots

Kann man im Dialekt schreiben, wie man will?

Aivars Glaznieks Aivars Glaznieks
Figlio legittimo, figlio naturale o semplicemente figlio?
connecting-the-dots

Figlio legittimo, figlio naturale o semplicemente figlio?

Isabella StanizziIsabella Stanizzi

Science Shots Eurac Research Newsletter

Get your monthly dose of our best science stories and upcoming events.

Choose language
Eurac Research logo

Eurac Research is a private research center based in Bolzano (South Tyrol) with researchers from a wide variety of scientific fields who come from all over the globe. Together, through scientific knowledge and research, they share the goal of shaping the future.

No Woman No Panel

What we do

Our research addresses the greatest challenges facing us in the future: people need health, energy, well-functioning political and social systems and an intact environment. These are complex questions, and we are seeking the answers in the interaction between many different disciplines. [About us](/en/about-us-eurac-research)

WORK WITH US

Except where otherwise noted, content on this site is licensed under a Creative Commons Attribution 4.0 International license.