Meno contatti tra popolazioni, più differenze tra lingue

© NCCR Evolving Language

Uno studio pubblicato su PNAS confronta diversità genetica di popolazione e strutture linguistiche su scala globale: nelle aree con segnali di maggiore isolamento genetico, le lingue tendono a essere più diverse nel modo in cui organizzano suoni, significati e frasi.

Nel mondo si parlano oltre 7000 lingue. Non sono distribuite in modo uniforme: ci sono regioni in cui se ne concentrano molte più che altrove, e spesso è questo che intendiamo quando diciamo che un’area ha una grande diversità linguistica. Ma il numero di lingue è solo una parte della storia. Due lingue possono essere diverse eppure somigliarsi molto nel modo in cui funzionano; al contrario, lingue parlate in una stessa regione possono essere lontane tra loro nella struttura.

La struttura è il modo in cui una lingua organizza suoni, parolesignificati e frasi. L’italiano dice “io mangio una mela”: soggetto, verbo, oggetto. Altre lingue mettono normalmente il verbo alla fine, secondo un ordine diverso dal nostro ma del tutto naturale per chi le parla. In alcune lingue il tono non serve solo a dare enfasi o a trasformare una frase in domanda: l’andamento della voce dentro una sillaba può distinguere parole diverse. In altre, relazioni grammaticali e sfumature di significato si costruiscono aggiungendo particelle o suffissi; oppure una stessa parola può indicare concetti che l’italiano distingue, come “mano” e “dito”.

Un nuovo studio su PNAS

È a questo secondo livello, la diversità strutturale delle lingue, che è stato dedicato un recente studio pubblicato su PNAS da Anna Graff e colleghi, nell’ambito del programma svizzero NCCR Evolving Language, dedicato allo studio interdisciplinare dell’evoluzione del linguaggio.

«La domanda era spiegare gli hotspot di diversità linguistica» spiega Chiara Barbieri, genetista dell’Università di Cagliari e tra le coordinatrici dello studio. Non «il numero totale delle lingue» o «il numero totale delle famiglie linguistiche», ma la varietà dei caratteri linguistici presenti in una stessa area.

Alcuni tratti strutturali, infatti, possono estendersi su aree molto ampie. In Asia, per esempio, l’ordine delle parole tende a essere simile in molte lingue appartenenti anche a famiglie diverse, come quelle indoeuropee, turche, mongoliche e tunguse. In altri casi accade il contrario: su aree relativamente circoscritte si concentrano lingue molto diverse nel modo in cui sono fatte. Sono questi gli hotspot di diversità strutturale, noti da tempo ai linguisti: il Caucaso, l’Himalaya, la Nuova Guinea, la costa occidentale del Nord America.

Che cosa può contribuire a spiegare questa distribuzione? Una possibilità riguarda la storia demografica delle popolazioni: isolamento, migrazioni, contatti e mescolamenti tra gruppi umani. Ma non era chiaro quale effetto aspettarsi sulle lingue. Come spiega Barbieri, non c’era «una versione unica»: alcuni studi suggerivano che il contatto prolungato tra gruppi diversi favorisse la diffusione di tratti linguistici e rendesse le lingue più simili; altri ipotizzavano invece che il contatto potesse introdurre nuovi elementi e aumentare la diversificazione.

La genetica al servizio della linguistica

Molto prima della genetica moderna, Charles Darwin aveva suggerito che dallo studio delle parentele linguistiche si potessero ricostruire anche le relazioni tra popolazioni. Nel Novecento, gli studi di Luigi Luca Cavalli-Sforza hanno dato basi quantitative a questa intuizione: a grande scala, soprattutto a livello continentale, geni e lingue tendono spesso a seguire traiettorie simili. Ma per capire dove geni e lingue procedono insieme, e dove invece divergono, bisogna aumentare la risoluzione: passare dalla scala dei continenti a quella delle singole popolazioni.

Per questo il gruppo di Chiara Barbieri e colleghi ha costruito GeLaToGEnes and LAnguages TOgether, un database che mette in relazione dati geneticicoordinate geografiche e informazioni linguistiche. Nel primo studio globale basato su GeLaTo, pubblicato su PNAS nel 2022, i ricercatori hanno mostrato che popolazioni geneticamente vicine tendono spesso a parlare lingue imparentate, ma questa corrispondenza non è automatica. In circa un quinto dei casi analizzati emergeva un mismatch: relazioni genetiche e relazioni linguistiche non andavano nella stessa direzione, un possibile segnale di migrazioni, cambi di lingua o contatti che avevano separato almeno in parte la parentela dei gruppi da quella delle lingue parlate.

Il passaggio successivo è stato usare la genetica per riconoscere casi di mescolanza tra due popolazioni che non sempre le fonti storiche documentano, e poi chiedersi se quel contatto avesse lasciato tracce anche nelle lingue. In uno studio pubblicato nel 2025 su Science Advances, i ricercatori hanno usato GeLaTo per individuare 126 casi di mescolanza genetica tra una popolazione “sorgente” e una popolazione “target”. In quei casi, le lingue tendevano spesso a convergere, anche se non sempre allo stesso modo: alcune caratteristiche restavano neutre, molte contribuivano alla convergenza, altre andavano nella direzione opposta.

Il nuovo lavoro è «cugino» del precedente, spiega Barbieri. Anche qui la genetica viene usata per sondare l’evoluzione delle lingue, ma la domanda cambia: non più che cosa succede quando due popolazioni entrano in contatto, bensì come si distribuiscono, su scala globale, la diversità genetica locale e la diversità strutturale delle lingue.

Una griglia sul mondo

Per confrontare questi due livelli, gli autori hanno diviso le terre emerse in una griglia geografica. La griglia principale usa celle con un diametro mediano di circa 500 chilometri: una scala scelta per rappresentare una distanza plausibile di contatto tra popolazioni vicine, mantenendo però abbastanza dati in ogni area. Una seconda griglia, più fine, con celle di circa 300 chilometri, serve a verificare se il risultato resta visibile anche osservando regioni più ristrette.

In ogni cella vengono stimate due forme di diversità. La prima è genetica: quanto sono geneticamente varie le popolazioni campionate in quell’area. La seconda è linguistica: quanto sono diverse, nella struttura, le lingue presenti nella stessa area. Il confronto non avviene quindi tra un individuo e la lingua che parla, ma tra regioni: da una parte la diversità genetica locale, dall’altra la varietà delle strutture linguistiche.

La parte genetica viene ancora da GeLaTo, che in questo studio comprende dati genomici di 5737 individui non imparentati, appartenenti a 650 popolazioni. I campioni sono associati a coordinate geografiche, così da poter essere collocati nelle celle della griglia. La diversità genetica viene stimata attraverso l’eccesso di omozigosi: valori più alti indicano popolazioni geneticamente meno varie, spesso compatibili con isolamento, piccoli gruppi o ridotto flusso genico.

Per misurare le strutture delle lingue, gli autori hanno usato un grande insieme di dati che raccoglie 333 caratteristiche in 4257 lingue: tratti che riguardano, per esempio, l’ordine delle parole, i sistemi sonori, la grammatica e il modo in cui vengono organizzati alcuni significati. Le informazioni provengono da database esistenti, poi armonizzati in un unico dataset.

Per evitare di sovrastimare la varietà, gli autori hanno selezionato le caratteristiche linguistiche da considerare in modo che fossero il più possibile indipendenti tra loro. Alcuni tratti, infatti, tendono a presentarsi insieme: se una lingua ha una certa caratteristica, è probabile che ne abbia anche altre. La diversità strutturale nelle celle è stata poi misurata con l’entropia di Shannon, un indice usato anche negli studi sulla biodiversità. Per esempio, se in una cella geografica tutte le lingue mettono il verbo alla fine della frase, la diversità per quel tratto è bassa; se invece alcune seguono l’ordine soggetto-oggetto-verbo, altre soggetto-verbo-oggetto e altre ancora ordini diversi, l’entropia è più alta.

Prima di interpretare la relazione tra genetica e lingue, gli autori hanno cercato di escludere spiegazioni alternative. Nell’analisi, hanno quindi considerato altri fattori che avrebbero potuto produrre lo stesso effetto. Una regione può apparire più varia dal punto di vista linguistico perché contiene molte lingue, oppure perché quelle lingue appartengono a famiglie linguistiche diverse tra loro. Due lingue possono somigliarsi perché hanno ereditato tratti da un antenato comune, non perché i loro parlanti siano stati in contatto recente. Anche ambiente, clima, caratteristiche del territorio, densità di popolazione e vicinanza geografica possono influenzare la distribuzione delle popolazioni e delle lingue.

Questi fattori sono stati inclusi nei modelli per verificare se, a parità di questi fattori, la relazione tra diversità genetica locale e diversità strutturale restasse visibile.

Meno diversità genetica, più diversità linguistica

La relazione trovata è inversa. Nelle aree in cui la diversità genetica locale è più bassa, quindi dove i dati genetici sono compatibili con storie di maggiore isolamento, le lingue tendono a essere strutturalmente più diverse. Nelle aree con maggiore diversità genetica, più compatibile con storie di contatto, migrazione e mescolamento, le strutture linguistiche tendono invece a essere più omogenee.

In altre parole, negli hotspot di diversità linguistica una storia di maggiore isolamento può aver limitato il mescolamento genetico e, allo stesso tempo, ridotto le occasioni di omogeneizzazione linguistica. Le popolazioni restano più separate; le lingue, seguendo traiettorie più indipendenti, possono accumulare differenze nella grammatica, nei suoni o nell’ordine delle parole. Nelle aree più attraversate da migrazioni e scambi, invece, la diversità genetica locale può aumentare, mentre le lingue tendono più facilmente a condividere tratti strutturali.

Lo studio mostra una tendenza generale: non spiega perché una lingua abbia sviluppato un certo ordine delle parole, né ricostruisce la storia specifica di una popolazione. Inoltre il segnale non riguarda allo stesso modo tutti i tratti linguistici: alcune caratteristiche contribuiscono più di altre, molte non mostrano un effetto chiaro e in alcuni casi il rapporto può andare nella direzione opposta.

L’evoluzione particolare delle lingue

Nelle parole di Barbieri, studi come questo servono a capire «come mai parliamo 7000 lingue e non due o dieci o dieci milioni».

L’evoluzione linguistica ha qualcosa in comune con quella biologica: le lingue hanno parentele, genealogie, tratti ereditati e innovazioni. Ha anche molto in comune con l’evoluzione culturale, perché passa attraverso l’apprendimento, l’uso sociale e il contatto tra gruppi. Ma segue dinamiche proprie. La tecnologia, osserva Barbieri, tende spesso a costruirsi per accumulo: un’innovazione si aggiunge a ciò che esiste già. Le lingue possono invece muoversi in più direzioni.

«Le lingue oscillano» dice Barbieri. Possono diventare più semplici o più complesse. A volte usano più parole dove sembrerebbe possibile usarne meno; altre volte comprimono in una forma ciò che altrove richiede una costruzione più lunga. Viene spontaneo chiedersi perché non “ottimizzino”, perché non eliminino ciò che appare superfluo per diventare più efficienti. Ma non c’è una spinta generale verso l’efficienza, la semplicità o la complessità. Una lingua può avere poche complessità morfologiche e un sistema fonologico intricato; un’altra può avere più categorie grammaticali ma un’organizzazione dei suoni più semplice.

Queste trasformazioni avvengono dentro le comunità: parlanti si spostano, si isolano, entrano in contatto, si mescolano o restano separati per molte generazioni. La genetica offre uno strumento potente, anche se imperfetto, per seguire una parte di questa storia: conserva tracce dei rapporti tra popolazioni e permette di chiedersi se aree con storie demografiche diverse abbiano prodotto anche paesaggi linguistici diversi.

In questo lavoro, il confronto tra genetica e lingue fa emergere un principio intuitivo, anche se in apparenza paradossale. Siamo abituati a pensare che contatto e mescolamento aumentino la diversità; qui, invece, la diversità linguistica cresce soprattutto dove le popolazioni sono rimaste più separate. Come ha spiegato Anna Graff, gli stessi processi che tengono separate le popolazioni permettono anche alle lingue di divergere.

Immagine in apertura: © NCCR Evolving Language

Questo articolo è stato pubblicato originariamente su SapereScienza il 27 maggio 2026 con il titolo “Meno contatti tra popolazioni, più differenze tra lingue”. Viene ripubblicato su Pikaia per gentile concessione della redazione di SapereScienza.