Guardare i contenuti con gli occhi di un umano: la Document AI

Watching contents with the eyes of a human: the Document AI

L’Intelligenza Artificiale che traduce per le macchine

Come promesso, la nostra indagine nel mondo del Machine Learning è arrivata al capitolo relativo alla Document AI. Dopo aver spiegato cosa si intenda per contenuti machine readable e anche perché questa caratteristica sia essenziale per i sistemi di NLP – che lavorano soltanto sul testo puro -, è arrivato il momento di scoprire quali tecnologie rendano i contenuti stessi fruibili per le macchine.

Post precedente sul NLP

Un approccio multi-modale ai contenuti testuali

I documenti testuali digitali – come ad esempio i PDF – presentano sempre una duplicità di aspetti: quello grafico – visivo – e quello funzionale, strutturale, legato strettamente al contenuto. Il legame di questi due elementi non crea difficoltà all’essere umano, che usa la vista per interfacciarsi sia con un’immagine che con un testo. Per una macchina, invece, si rende necessario l’utilizzo di tecniche che trasformino i contenuti visivi in un testo puro. In estrema sintesi, dunque, si può dire che la Document AI sia la tecnologia creata per simulare in maniera automatizzata la revisione umana dei documenti. Per ottenere questo risultato, la Document Artificial Intelligence sfrutta un approccio multi-modale: da un lato, usa il Natural Language Processing per gestire il testo puro, dall’altro deve svolgere anche un’attività di image processing – dato che lavora inizialmente su immagini – e poi di text encoding – per generare testo puro, dunque machine readable.

Document AI, i formati machine readable nascono qui

Per l’ennesima volta, si torna al cuore della questione: la potenza di calcolo delle macchine non può niente se non adeguatamente supportata dalla capacità interpretativa umana. Ecco perché, a partire da formati non utilizzabili dalle macchine (citiamo nuovamente i PDF come esempio più noto e diffuso), c’è sempre bisogno di ricondurli a standard che siano machine readable. E, per poterlo fare, è necessario simulare quello che fa l’essere umano, ovvero passare da un’immagine a una sequenza di caratteri, fino a un contenuto verbale. Ma la differenza sostanziale è evidente: mentre nell’essere umano l’interfaccia fisica è sempre costituita dagli occhi, in informatica – quindi per una macchina – il testo è un contenuto diverso da un’immagine. Un umano, cioè, può considerare contemporaneamente il contenuto concettuale del testo e i suoi aspetti grafici, che ne caratterizzano la struttura (come la formattazione, ad esempio). Questa dinamica unitaria della comprensione umana deve necessariamente essere ricostruita in sequenze separate nel contesto del Machine Learning. E la Document AI si occupa esattamente di automatizzare questo processo.

Codifica di alto livello su testi normativi: Aptus.AI

In Aptus.AI ci occupiamo di questo. Il nostro obiettivo è quello di generare una codifica automatizzata di alto livello su contenuti testuali sotto forma di immagine che, per loro stessa natura, non sono fruibili dalle macchine. Tornando al caso del Portable Document Format – il diffusissimo PDF -, è noto che questo formato viene letto come un’immagine, dunque non presenta una sequenza di caratteri. Noi di Aptus.AI siamo riusciti a integrare con successo la Document AI e il Natural Language Processing, dando così vita alla nostra piattaforma RegTech. Questa soluzione di Intelligenza Artificiale per la gestione della compliance finanziaria rende machine readable (quindi fruibili dai sistemi di NLP) documenti che originariamente non lo sono (come i PDF che contengono le normative bancarie, appunto), salvaguardando anche la struttura e la complessità del testo normativo stesso. Ecco perché questo strumento rivoluzionerà la gestione documentale in ambito bancario: contattaci per scoprire di più!