Uno studio, condotto dal team di ricerca del “Center of Data Science and Complexity for Society“ del Dipartimento di Informatica dell’Università La Sapienza di Roma e guidato dal Prof. Walter Quattrociocchi, ha confrontato i Large Language Models (Llm) – i modelli linguistici di grandi dimensioni, programmi di IA addestrati su una grande mole di dati – di Google, Meta e OpenAI e i team di esperti umani strutturati come NewsGuard e Media Bias Fact Check (Mbfc).
I ricercatori della Sapienza hanno dedotto che l’intelligenza artificiale può valutare l’affidabilità delle notizie al pari di esperti umani e ricostruisce concetti in base ai dati con cui è allenata. Questi modelli classificano le teorie del complotto, il sensazionalismo e i pregiudizi in maniera speculare ai criteri chiave usati dagli esperti nelle loro valutazioni. Sono meno coerenti quando il contesto è limitato.
Lo studio,nasce dalla volontà di approfondire come questi grandi modelli di linguaggio giungono a delle conclusioni.
Edoardo Loru, dottorando dell’Università La Sapienza di Roma e parte integrante del team, in esclusiva ci ha raccontato meglio le modalità di ricerca: “nella nostra ricerca di approfondire come questi modelli giungono alle loro conclusioni, in particolare cercando di capire il loro processo di decision-making, e comparandolo a quello di esperti umani nel giudicare l’affidabilità di news outlet, abbiamo notato dalla ricerca è che spesso ci si ferma un po’ alla conclusione finale. Per valutare se questi modelli, dato un certo compito, riescono a portarlo a termine e soprattutto quanto la loro classificazione è accurata o meno, noi volevamo andare un po’ oltre per capire come questi modelli riescono ad arrivare a quella conclusione”.
Continua a spiegarci Edoardo Loru: “Volevamo capire cosa succede tra il contenuto che diamo noi al modello nel processo di richiesta e quello che infine il modello produce. In particolare lo abbiamo applicato al tema dell’affidabilità dei media, quindi cercare di capire se gli chiediamo di valutare l’affidabilità sulla base di quanto riesce a leggere dall’home page, riusciamo a capire come è arrivato a quel giudizio di affidabilità”.
In linea di massima, gli studiosi osservano che per i modelli di linguaggio grandi dimensioni (LLM), le parole chiave legate a notizie locali, resoconti sui fatti o linguaggio neutro siano solitamente associate a un concetto di affidabilità. Al contrario, l’inaffidabilità è spesso caratterizzata da termini che richiamano sensazionalismo, polemiche o pregiudizi, segnali che gli esperti umani usano comunemente per identificare fonti poco credibili. Inoltre, la “trasparenza” e la “bias” si rivelano i criteri più frequentemente considerati nel valutare l’affidabilità o l’inaffidabilità delle informazioni.
“Il punto interessante è che mentre questi esperti umani giungono alle loro conclusioni, con un processo sostanzialmente strutturato, hanno una serie di criteri da valutare: assegnano dei punteggi specifici a questi criteri e sulla base dei punteggi traggono una conclusione finale e così via. – Ci spiega in dettaglio il Dottorando Edoardo Loru: “Noi prendiamo semplicemente tre LLM (Gemini1.5 di Google, GPT-4o mini di OpenAI e Llama 3.1 di Meta) e gli forniamo l’homepage di un news outlet. Senza dargli alcuna nozione di affidabilità o esempi gli chiediamo di dirci se il news outlet è affidabile o non affidabile. Il punto interessante è che al contrario degli esperti umani, gli LLM non stanno seguendo una procedura ben strutturata in cui valutano specifici criteri di affidabilità”.
Conclude così Loru: “Analizzando i risultati, possiamo capire che ci sono elementi che li hanno portati a queste conclusioni, come e se questi differiscono da quelli degli umani esperti”.