L’approccio CAG, per contenuti generati dall’AI affidabili su temi specifici

cag vs rag

Scopri la Cache-Augmented Generation, la metodologia che si è dimostrata efficace nel migliorare l'affidabilità della Generative AI su quantità limitate di informazioni

Scarsa affidabilità e difficoltà di aggiornamento dei dati: i limiti della Generative AI

L’affidabilità è sempre stata il punto debole di GenAI. Le difficoltà relative all’accuratezza fattuale e all’aggiornamento dei dati, infatti, rendono i Large Language Models (LLMs) limitati in termini di affidabilità, anche se eccellono nel produrre testi fluenti, contestualmente appropriati e grammaticalmente corretti.

Questa situazione conduce alle tipiche allucinazioni della GenAI, essendo i LLM addestrati su dati statici, il che limita la loro capacità di acquisire nuove informazioni dopo la fase di addestramento.

Per affrontare questi problemi sono state proposte alcune soluzioni. Una è la Retrieval-Augmented Generation (RAG), una metodologia che migliora l’efficacia dei modelli GenAI consentendo loro di accedere a fonti di informazioni esterne e integrarle.

Esiste anche una versione 2.0 di RAG introdotta da Contextual AI, ma, nel panorama in continua evoluzione dell’AI, migliorare l’affidabilità dei modelli di Generative AI rimane una sfida cruciale.

Dalla RAG (e RAG 2.0) alla Cache-Augmented Generation: vantaggi e limiti

Sulla base di metodologie come la RAG, è emersa la Cache-Augmented Generation (CAG), un nuovo approccio che mira ad affrontare alcune delle sfide già affrontate da quelli precedenti.

Prima di approfondirne caratteristiche, benefici e sfide, possiamo anticipare che la CAG si è dimostrata particolarmente efficace quando lavora su una quantità limitata di informazioni o quando si concentra su un argomento specifico.

D’altro canto, la CAG ha dimostrato di essere molto lenta quando si lavora su una grande quantità di dati, dato che dispone di una quantità limitata di testo che può essere scritto nel LLM (es. GPT prevede 128.000 token di testo, che non possono essere superati).

In generale, la CAG è più efficace quando si lavora su un volume di dati inferiore alla memoria del modello, cosicché tutto il testo possa essere letto solo una volta, rendendo il modello capace di rispondere a domande sul soggetto studiato. Possiamo dire che, studiando questi documenti, il modello è diventato un esperto nel settore.

Superare le sfide della RAG: introduzione generale alla CAG

È il momento di approfondire le caratteristiche della CAG. Prima di tutto, è utile sottolineare che il concetto di Cache-Augmented Generation si basa sulla necessità di superare le sfide emerse con l’introduzione della RAG.

Ls RAG, infatti, integra fonti di conoscenza esterne nei modelli linguistici mediante il recupero dinamico di documenti pertinenti durante la generazione. Tuttavia, mentre questo metodo arricchisce le risposte con informazioni aggiornate, introduce diverse complessità, ovvero:

  • latenza dovuta al recupero: reperire i documenti in tempo reale può rallentare il processo di generazione della risposta;
  • errori nella selezione dei documenti: i risultati non accurati possono portare a risposte irrilevanti o errate;
  • complessità del sistema: la combinazione di componenti di recupero e di generazione aumenta i costi di manutenzione e messa a punto.

In questo contesto, la Cache-Augmented Generation offre una soluzione innovativa ai limiti della RAG eliminando il recupero in tempo reale. Al contrario, la CAG precarica tutti i documenti pertinenti nel contesto esteso del modello e pre-calcola le cache dei valori chiave (Key Values, KV).

Questo approccio assicura che, durante la generazione, il modello si basa unicamente sul contesto precaricato, migliorando sia la velocità che l’affidabilità.

Componenti chiave, risultati sperimentali e casi d’uso ideali della CAG

Una volta introdotte le basi della CAG, possiamo approfondire i componenti chiave introdotti da questa metodologia.

Il primo è il precaricamento esteso del contesto. I documenti pertinenti vengono caricati nella finestra di contesto del modello prima della generazione, garantendo accesso immediato alle informazioni necessarie. Inoltre, sfruttando le cache precalcolate dei KV, la CAG riduce il sovraccarico computazionale durante la generazione, portando a tempi di risposta più rapidi. Infine, la CAG assicura una risposta alla domanda senza bisogno di recupero: dato che tutte le informazioni necessarie sono precaricate, il modello può generare risposte senza la necessità di un recupero in tempo reale, semplificando l’architettura del sistema.

I risultati sperimentali basati su studi empirici hanno dimostrato che, sfruttando queste componenti chiave, la CAG supera i sistemi tradizionali di RAG in diversi aspetti, vale a dire:

  • riduzione della latenza: eliminando il recupero in tempo reale, la CAG riduce significativamente i tempi di risposta e accelera la gestione delle query;
  • maggiore accuratezza: precaricare i documenti rilevanti riduce al minimo il rischio di errori di recupero, portando a risposte più accurate e affidabili, rendendola ideale per la sintesi, la gestione delle FAQ e l’analisi dei documenti;
  • architettura semplificata: il design semplificato della CAG riduce la complessità del sistema, rendendolo più facile da mantenere e scalare.

Tenendo conto di questi fattori, è possibile identificare alcuni scenari in cui la CAG è particolarmente vantaggiosa.

Uno di essi è quando la knowledge base è statica, poiché in questi casi le informazioni necessarie per la generazione non cambiano frequentemente, consentendo un efficace precaricamento. Un altro scenario che si adatta al quadro della CAG è quando è richiesta una latenza molto bassa, vale a dire quando le applicazioni richiedono tempi di risposta rapidi senza i ritardi associati al recupero in tempo reale. La CAG è anche molto utile in caso di limitazioni rispetto alle risorse, perché si preferiscono architetture più semplici per ridurre i costi di calcolo e di manutenzione.

Mentre l’impatto positivo della CAG è stato evidenziato in questi scenari, ci sono anche alcune sfide presentate da questa metodologia che limitano le sue capacità.

Infatti, la CAG è penalizzata dai suoi limiti di scalabilità, essendo limitata dalla finestra di contesto fissa del modello, che la rende inadatta per grandi set di dati. Inoltre, la CAG richiede un alto utilizzo della memoria, considerando che il precaricamento dei dati nella cache dei KV aumenta le richieste di risorse. Un altro limite della CAG è la sua ridotta adattabilità, vale a dire che non può essere aggiornata rapidamente con dati nuovi o in tempo reale senza una rielaborazione completa. Infine, la CAG presenta anche un problema di corrispondenza delle query, essendo meno efficace su query complesse o altamente specifiche rispetto ai metodi dinamici di recupero come la RAG.

In sintesi, la CAG rappresenta un significativo passo in avanti nella ricerca di contenuti più affidabili nelle risposte generate dall’AI. Infatti, precaricando le informazioni rilevanti ed eliminando la necessità di recuperarle in tempo reale, la CAG affronta le sfide in termini di latenza e complessità intrinseche alle metodologie precedenti, aprendo la via ad applicazioni di AI più snelle e accurate.

D’altra parte, non va dimenticato che la CAG presenta anche alcune sfide e limitazioni, che devono essere affrontate al fine di creare modelli di GenAI sempre più affidabili.

Confronto CAG vs RAG

Funzione
CAG
RAG
Integrazione dei dati
Integra tutte le conoscenze nel contesto del LLM in una sola volta.
Recupera in tempo reale informazioni pertinenti da una knowledge base.
Recupero
Non richiede il recupero in tempo reale; utilizza dati precaricati.
Si basa sul recupero in tempo reale durante la generazione.
Latenza
Riduce al minimo la latenza eliminando le fasi di recupero.
Aggiunge la latenza dovuta al processo di recupero.
Complessità del sistema
Semplifica l'architettura rimuovendo i componenti di recupero.
Comporta un'integrazione complessa di recupero e generazione.
Adattabilità
Modello limitato ai dati memorizzati nella cache; non può essere aggiornato fino a quando non viene ricaricata.
Si adatta rapidamente alle knowledge base nuove o aggiornate.
Qualità delle risposte
Assicura risposte coerenti basate su dati memorizzati nella cache.
Può produrre risposte diverse a seconda dei documenti recuperati.
Scalabilità
Modello limitato dalla dimensione della finestra di contesto del LLM.
Si adatta bene con una base di conoscenze ampia e dinamica.
Casi d’uso
Migliore per scenari con informazioni statiche di dimensioni limitate e per compiti ripetitivi.
Ideale per attività dinamiche che richiedono informazioni aggiornate e ricche di contesto.

L’affidabilità della GenAI di Aptus.AI, dai dati alle attività di R&D

In Aptus.AI ci occupiamo da tempo delle sfide presentate dall GenAI, dato che la nostra soluzione è pensata per ottimizzare l’analisi normativa, i processi di compliance e le attività legali, settori in cui il tasso di allucinazioni dei servizi esistenti è inaccettabile.

Ma le cose stanno cambiando, dal momento che il formato machine-readable dei testi legali di Aptus.AI permette di aumentare l’affidabilità della GenAI.

La nostra tecnologia proprietaria trasforma qualsiasi documento legale in una versione digitale che rende accessibili i dati dalle fonti normative, permettendo di applicare sui testi regolamentari un’analisi normativa, facendo sì che la Generative AI possa accedere facilmente alle informazioni necessarie per rispondere.

Combinando le ultime scoperte nel campo dell’Intelligenza Artificiale, e più specificamente in quello della GenAI, il nostro team è costantemente al lavoro per continuare a migliorare le prestazioni di AI Assistant di Aptus.AI, sfruttando metodologie all’avanguardia, proprio come la RAG e la CAG.