Skip to main content

In questo articolo:

  1. Perché i modelli GenAI non bastano da soli
  2. Cos’è la RAG: definizione e architettura
  3. Dalla RAG originale alla RAG 2.0: cosa cambia
  4. Come Aptus.AI risolve il problema delle allucinazioni nel dominio legale
  5. FAQ sulla RAG e l’affidabilità della GenAI

Nel mondo della GenAI, garantire risposte accurate e aggiornate rappresenta una sfida aperta sin dalle origini. La RAG (Retrieval-Augmented Generation) è la metodologia che ha cambiato le regole del gioco — e la sua evoluzione verso la RAG 2.0 sta spingendo ulteriormente il confine dell’affidabilità.

Perché i modelli GenAI non bastano da soli

I Large Language Models (LLM) sono straordinariamente abili nel generare testi coerenti e linguisticamente corretti. Ma non possono garantirne l’affidabilità fattuale.

Il motivo è strutturale: gli LLM sono modelli probabilistici che prevedono la parola successiva in base a calcoli di probabilità applicati ai dati di addestramento. Questa sofisticazione produce risposte di qualità apparentemente elevata — ma non necessariamente corrette. È da qui che nascono le cosiddette allucinazioni: risposte plausibili, spesso molto probabili, ma errate o semplicemente non aggiornate.

Il problema si amplifica in ambiti ad alta specializzazione come quello legale e normativo. Nel giugno 2024, un paper pubblicato dall’Università di Stanford ha valutato l’efficacia delle soluzioni GenAI in ambito legale, riscontrando un tasso di allucinazioni inaccettabile rispetto alle aspettative del mercato. Episodi come lo scivolone di Google Bard — che ha causato perdite in borsa nell’ordine delle nove cifre — o la scarsa accuratezza di Bing AI al momento del lancio hanno reso evidente quanto il problema sia concreto e costoso.

Cos’è la RAG: definizione e architettura

La Retrieval-Augmented Generation è una metodologia che integra un meccanismo di recupero delle informazioni all’interno del processo generativo dei modelli AI. In termini semplici: invece di rispondere solo sulla base dei dati di addestramento statici, il modello interroga in tempo reale una fonte di dati esterna per recuperare le informazioni rilevanti alla query dell’utente.

L’architettura RAG introduce un passaggio aggiuntivo rispetto ai modelli standard: l’input dell’utente viene passato contemporaneamente al generatore di testo e a un sistema di recupero documentale. Le due fonti si integrano, consentendo di produrre risposte corrette anche quando le informazioni cercate non sono presenti testualmente in nessuno dei documenti indicizzati.

Il vantaggio operativo è immediato: con la RAG non è necessario riaddestrare il modello per aggiornarne le conoscenze — è sufficiente aggiornare la base documentale da cui recupera le informazioni.

RAG applicata all’analisi normativa: un esempio concreto

Il potenziale della RAG si esprime con particolare chiarezza nel dominio legale, dove ogni informazione deve essere certa, verificabile e aggiornata. Un esempio pratico: un utente consulta il GDPR (Regolamento UE 2016/679) e pone la domanda “cos’è il diritto all’oblio?”. Un sistema basato su RAG non genera una risposta probabilistica su quel concetto — la ancora direttamente all’Articolo 17 del Regolamento, recuperando la definizione normativa dalla fonte primaria. Questo elimina il rischio di allucinazione e garantisce che la risposta rifletta sempre la versione vigente del testo.

Active Retrieval Augmented Generation: il passo successivo

Un’ulteriore evoluzione dell’architettura RAG è la cosiddetta Active Retrieval Augmented Generation: una metodologia in cui il modello è in grado di determinare autonomamente quando recuperare informazioni e quali fonti interrogare durante la generazione del testo stesso. Questo approccio consente di operare su testi più lunghi e scenari più complessi, aumentando ulteriormente la precisione delle risposte. I risultati preliminari sono promettenti, anche se la validazione su casi d’uso reali su larga scala è ancora in corso.

Dalla RAG originale alla RAG 2.0: cosa cambia

La RAG originale ha rappresentato un salto qualitativo enorme, ma le sue implementazioni iniziali presentavano un limite architetturale: i sistemi univano componenti preesistenti — modelli, database vettoriali, integrazioni — in modo modulare ma non sempre coeso, generando inefficienze nella pipeline di recupero e generazione.

La RAG 2.0, sviluppata da Contextual AI sotto la guida di Douwe Kiela — che aveva co-sviluppato la metodologia originale nel 2020 durante il suo periodo presso Facebook AI Research — affronta queste sfide con un approccio olistico. Il principio cardine è l’ottimizzazione end-to-end: retriever e LLM vengono pre-addestrati, affinati e allineati come sistema unificato, non come moduli separati.

DimensioneRAG originaleRAG 2.0
ArchitetturaModulare (componenti separati)Olistica (sistema unificato)
OttimizzazionePer componenteEnd-to-end
Coerenza internaVariabileAlta
Aggiornamento datiSostituzione documentiSostituzione documenti
Costi di implementazionePiù contenutiPiù elevati (training congiunto)
Affidabilità dei risultatiBuonaMolto alta in benchmark

Impatto dimostrato e limiti attuali della RAG 2.0

I Contextual Language Models (CLM) basati su RAG 2.0 hanno stabilito nuovi benchmark nel settore, superando nelle valutazioni empiriche i sistemi basati su RAG standard e su modelli come GPT-4, oltre alle principali alternative open source.

Nonostante questi risultati, la RAG 2.0 non ha ancora raggiunto un’adozione di massa. I motivi principali sono due: da un lato, Contextual AI ha condiviso solo parzialmente i dettagli tecnici sull’integrazione tra LLM e modulo di recupero; dall’altro, il training congiunto tra retriever e LLM — necessario per contestualizzare il modello — comporta costi significativamente più elevati rispetto alla RAG standard. Per molte organizzazioni, questo ha reso preferibile accettare un tasso di allucinazioni leggermente superiore piuttosto che allocare le risorse necessarie.

Come Aptus.AI risolve il problema delle allucinazioni nel dominio legale

Il tema dell’affidabilità della GenAI è al centro delle attività di ricerca e sviluppo di Aptus.AI da diversi anni — ben prima che diventasse un argomento di discussione mainstream. Le sfide legate alle allucinazioni non sono un problema teorico: in ambito legale e normativo, una risposta errata può avere conseguenze concrete su decisioni di compliance, interpretazione contrattuale o adeguamento regolamentare.

L’approccio di Aptus.AI si fonda su un formato proprietario machine-readable che trasforma i documenti legali in strutture dati accessibili e interrogabili dalla GenAI con piena consapevolezza del contesto normativo. Le informazioni così strutturate includono tutti i dati e il metadato necessario per rispondere a una domanda, generare un documento o un’analisi a tutti i livelli della gerarchia normativa — dalla norma primaria alla circolare interpretativa.

Questo consente all’AI Assistant di Aptus.AI di operare esclusivamente sul database normativo proprietario, senza ricorrere a ricerche contestuali esterne, garantendo risposte verificabili ancorate a fonti certe. Il risultato: un sistema che supporta il professionista legale nel ragionamento giuridico strutturato, senza sostituirne il giudizio.


FAQ sulla RAG e l’affidabilità della GenAI

Cosa significa RAG?

RAG sta per Retrieval-Augmented Generation, letteralmente “generazione aumentata dal recupero”. È una metodologia che integra un meccanismo di ricerca documentale nel processo generativo degli LLM, consentendo al modello di basare le proprie risposte su fonti aggiornate e verificabili anziché solo sui dati di addestramento statici.

Qual è la differenza tra RAG e un modello GenAI tradizionale?

Un modello GenAI tradizionale risponde esclusivamente in base ai dati su cui è stato addestrato, con un limite temporale fisso (il cosiddetto “knowledge cutoff”). Un modello RAG interroga in tempo reale una fonte documentale esterna, recuperando le informazioni più rilevanti per la query specifica. Questo riduce significativamente il rischio di allucinazioni e consente di mantenere le risposte aggiornate senza riaddestrare il modello.

La RAG elimina completamente le allucinazioni?

No — riduce significativamente la propensione alle allucinazioni, ma non le elimina del tutto. L’efficacia dipende dalla qualità e completezza della base documentale interrogata, dall’architettura di recupero e dalla capacità del sistema di identificare le informazioni più pertinenti. Per questo motivo, in ambiti ad alto rischio come quello legale, la qualità della fonte primaria e la struttura dei dati sono determinanti.

Cos’è la RAG 2.0 e perché è diversa dalla RAG originale?

La RAG 2.0 è un’evoluzione sviluppata da Contextual AI che ottimizza l’intero sistema — retriever e LLM — come unità integrata anziché come moduli separati. Questo approccio end-to-end produce risultati più coerenti e affidabili, ma richiede risorse computazionali e costi di training più elevati rispetto alla RAG standard.

Come viene applicata la RAG nell’analisi normativa?

Nel dominio legale, la RAG consente di ancorare le risposte dell’AI direttamente alle fonti normative primarie — articoli di legge, regolamenti, circolari — recuperate in tempo reale dalla base documentale. Questo garantisce sia l’accuratezza fattuale che l’aggiornamento automatico quando le norme vengono modificate.