I modelli linguistici di grandi dimensioni (LLM) hanno mostrato potenzialità notevoli, superando la mera previsione dei token successivi e dimostrando abilità di composizione poetica. Tuttavia, queste “abilità” sono in realtà il risultato di processi algoritmici senza comprensione reale. Ci sono, dunque, domande sulla loro affidabilità e sulla capacità di generalizzare le conoscenze.

Recenti ricerche hanno evidenziato che le prestazioni degli LLM in compiti cognitivi e linguistici sono influenzate in modo significativo da variazioni minori negli input. Ad esempio, la formulazione di una query o la composizione di una lista influiscono sull’accuratezza nelle operazioni di conteggio. Anche il compito di trovare la mediana o il massimo in una lista mostra sensibilità a questi cambiamenti, evidenziando che gli LLM non replicano le astrazioni umane, poiché mancano di comprensione contestuale.

Un altro aspetto critico è la loro capacità di rilevare fallacie logiche, come dimostrato nell’analisi di SmartyPat-Bench, dove sono state create affermazioni fallaci raffinate dagli LLM. Questi modelli tendono a sovra-analizzare, causando alti tassi di falsi positivi nel rilevamento di fallacie, mentre modelli più semplici hanno ottenuto risultati superiori in alcuni compiti.

Inoltre, con l’aumento della disinformazione, è cruciale distinguere fatti da finzione nei discorsi online. Progetti come SLURG hanno utilizzato LLM per generare commenti sintetici fallaci, dimostrando che, sebbene capaci di imitare stili sintattici, i contenuti risultano spesso più coerenti e distintivi rispetto ai post umani.

Allo stesso modo, nella rilevazione di propaganda, gli LLM non hanno superato i modelli di riferimento, evidenziando bassi tassi di precisione e il rischio di fraintendimenti. Pertanto, è essenziale un monitoraggio costante e un’accurata verifica dei risultati generati dagli LLM per garantire la loro correttezza e congruenza con i valori democratici.