Circa un anno fa Contextual AI ha lanciato la RAG 2.0 - un'evoluzione della metodologia Retrieval-Augmented Generation - per migliorare l'affidabilità dei contenuti generati dall'AI: ecco come funziona e perché ha avuto un grande seguito (finora)
Incertezza sull’accuratezza delle risposte e difficoltà nell’aggiornare i dati: i limiti della GenAI
Nel mondo della GenAI, garantire risposte accurate e aggiornate rappresenta una sfida sin dalle origini. I limiti in termini di accuratezza fattuale e di aggiornamento dei dataset sono infatti temi cruciali in questo campo, poiché i Large Language Models (LLMs) sono molto abili nel generare testi coerenti, linguisticamente corretti e pertinenti rispetto al contesto, ma non possono garantirne l’affidabilità.
Questo è il motivo per cui spesso inciampano nelle cosiddette “allucinazioni”– casi in cui l’AI genera informazioni che sembrano plausibili, ma in realtà sono errate.
I LLMs, infatti, sono modelli probabilistici molto complessi che prevedono la parola successiva sulla base di un calcolo delle probabilità. Una sofisticazione che permette loro di dare risposte di una qualità tale da sembrare sempre corrette, ma, come sappiamo, non sempre è così.
Evitare le allucinazioni dei LLMs e mantenerli aggiornati: ecco perché è stata ideata la RAG
Il problema delle allucinazioni sorge perché i LLMs si basano essenzialmente sui dati statici usati nell’addestramento, il che limita la loro capacità di incorporare nuove informazioni dopo questa fase. Sostanzialmente, i LLMs generano infatti frasi basate sui dati utilizzati per addestrarli.
Il concetto di Retrieval-Augmented Generation (RAG) è stato introdotto per affrontare queste limitazioni, poiché la metodologia RAG migliora le prestazioni dei modelli GenAI tramite un’integrazione con fonti di dati esterne.
Questo approccio consente ai LLMs di recuperare e utilizzare informazioni aggiornate da una fonte di dati specifica, facendo sì che le loro risposte si basino su dati attuali e convalidati.
Combinando i punti di forza del recupero delle informazioni e della generazione del linguaggio naturale, la RAG ha evidenziato la sua capacità di ridurre la propensione alle allucinazioni dei LLMs e di migliorare l’affidabilità generale dei contenuti generati dall’AI.
Alla scoperta della Retrieval-Augmented Generation: come funziona e i suoi vantaggi
Approfondendo le caratteristiche della Retrieval-Augmented Generation, un elemento chiave di questa metodologia è la sua architettura, che introduce un ulteriore passaggio rispetto ai modelli standard di Generative AI, che ricevono una sola sequenza di parole come input e ne restituiscono un’altra come output.
Con la metodologia RAG, invece, l’input viene sempre passato direttamente al generatore di testo, ma viene anche utilizzato per recuperare un insieme di documenti rilevanti da una fonte aggiuntiva.
Queste due fonti, agendo insieme, si completano a vicenda, integrando così tutte le informazioni ed essendo in grado di generare risposte corrette anche nei casi in cui queste non si trovino testualmente in nessuno dei documenti.
Soprattutto, i LLMs che utilizzano la RAG offrono una flessibilità senza precedenti, poiché non è necessario addestrarli nuovamente per ottenere risposte aggiornate, ma solo sostituire i documenti utilizzati per recuperare le informazioni.
Così la RAG risponde a una necessità cruciale dei modelli GenAI, ovvero quella di accedere non solo a grandi quantità di informazioni, ma soprattutto a quelle giuste.
Dalla RAG originale alla RAG 2.0: i miglioramenti introdotti da Contextual AI
Come evidenziato, la RAG rappresenta un enorme passo avanti nella corsa all’affidabilità della GenAI, ma gli LLMs restano impattati negativamente dalle allucinazioni.
Ecco perché nel campo dell’Intelligenza Artificiale si è alla ricerca di modi per superare questo problema, come la RAG 2.0. Infatti, a partire dalla RAG originale, Contextual AI ha introdotto la RAG 2.0 nel marzo 2024.
Questo progresso è stato guidato da Douwe Kiela, Co-founder e CEO di Contextual AI, che inizialmente ha co-sviluppato la metodologia originale RAG nel 2020 nel suo periodo presso Facebook AI Research.
L’obiettivo principale alla base della RAG 2.0 era quello di perfezionare e migliorare l’integrazione tra i meccanismi di recupero e i modelli generativi, affrontando le inefficienze osservate nelle implementazioni precedenti.
I sistemi RAG originali uniscono liberamente modelli preesistenti, basi di dati vettoriali e integrazioni. Se questo approccio modulare ha facilitato le integrazioni iniziali, in certi casi ha portato a inefficienze e mancanza di coesione tra i componenti.
La RAG 2.0 affronta queste sfide tramite un design olistico che enfatizza l’ottimizzazione end-to-end.
Pre-addestrando, perfezionando e allineando tutti i componenti – inclusi il retriever e il LLM – come un sistema unificato, la RAG 2.0 è stata creata per garantire sia un’interazione senza interruzioni sia migliori prestazioni, sfruttando un’integrazione coesa che minimizza l’incoerenza dei modelli precedenti, portando così a risultati più affidabili e contestualmente precisi.
Qual è lo stato attuale della RAG 2.0? Impatto dimostrato e limitazioni
L’utilizzo della RAG 2.0 ha portato notevoli progressi nelle metriche di performance dell’AI. Lo sviluppo di Contextual Language Models (CLMs) basato sulla RAG 2.0 ha stabilito nuovi standard di riferimento per il settore.
Le valutazioni empiriche hanno infatti indicato che questi CLMs superano nettamente i valori di riferimento della RAG, compresi quelli basati su modelli come GPT-4 e le più importanti alternative open source.
Questo miglioramento delle prestazioni sottolinea il potenziale della RAG 2.0 di fornire soluzioni di GenAI non solo robuste e affidabili, ma anche costantemente aggiornate – ovviamente se la base di conoscenza interna viene aggiornata continuamente, rendendola particolarmente vantaggiosa per le applicazioni in cui l’accuratezza e l’aggiornamento sono cruciali.
Integrando perfettamente i processi di recupero con le capacità generative, la RAG 2.0 riduce i problemi legati a informazioni obsolete e allucinazioni, spianando la strada per applicazioni AI sia intelligenti che affidabili.
Nonostante questo impatto dimostrato, che avrebbe dovuto rendere la RAG 2.0 un avanzamento fondamentale per migliorare l’accuratezza fattuale e l’affidabilità dei sistemi di GenAI, questa metodologia non ha ottenuto un enorme seguito (finora).
Perché? I motivi potrebbero essere principalmente due. Il primo è che Contextual AI ha condiviso solo alcuni dettagli, in particolare su come il LLM viene contestualizzato insieme al modulo che recupera i documenti pertinenti a una domanda.
La seconda ragione potrebbe essere che, tenendo conto di ciò che Contextual AI ha condiviso, una formazione congiunta tra il LLM e il retriever è necessaria per contestualizzare il LLM, facendo probabilmente salire i costi e spingendo quindi ad accettare la possibilità di avere un tasso di allucinazioni più elevato piuttosto che allocare il budget e le risorse necessari per addestrare il modello.
Dove nasce l’affidabilità della GenAI di Aptus.AI, dai dati utilizzati fino alle attività R&D
In Aptus.AI ci confrontiamo con questi temi ormai da qualche anno. Infatti, grazie anche alle nostre attività di ricerca e sviluppo, abbiamo creato un AI Assistant basato sulla GenAI in grado di ridurre al minimo l’effetto delle allucinazioni nel campo dell’analisi legale e normativa.
Come evidenziato, infatti, le soluzioni Generative AI non rappresentano una valida soluzione di per sé, come conferma anche il paper pubblicato dall’Università di Stanford nel giugno 2024 dove si valuta l’efficacia delle soluzioni Gen AI in ambito legale e si riscontra un tasso di allucinazioni inaccettabile rispetto alle aspettative del mercato e non in linea con le promesse di alcune realtà del settore.
L’AI Assistant di Aptus.AI supera questi limiti sfruttando il nostro formato proprietario machine-readable, che ci permette di aumentare l’affidabilità della GenAI e ridurre al minimo l’effetto negativo delle allucinazioni.
Attualmente è infatti molto difficile applicare gli strumenti di GenAI ai campi legale e regolamentare, poiché le fonti normative non sono accessibili, ma la nostra tecnologia consente di trasformare i documenti legali in un formato machine-readable sul quale viene applicata la nostra analisi normativa, in modo che la Generative AI possa accedere facilmente alle informazioni necessarie per rispondere e generare contenuti legali.
Le informazioni includono tutti i dati e il contesto necessari per rispondere a una determinata domanda, generare un documento o un contenuto a tutti i livelli della gerarchia normativa, per garantire l’affidabilità del contenuto generato dall’AI. E non è tutto.
Il nostro team di ricerca e sviluppo è costantemente al lavoro per continuare a migliorare le prestazioni dell’AI Assistant di Aptus.AI, sfruttando soluzioni all’avanguardia nel campo delle architetture e delle metodologie dei LLMs, proprio come la cosiddetta CAG – Cache-Augmented Generation – che affronteremo in un altro blog post.