Approfondimenti sul settore

Pensieri del nostro CEO

Ultimamente si nota una forte proliferazione di fornitori di tecnologie di classificazione ed estrazione che basano la loro offerta di servizi esclusivamente sull'intelligenza artificiale (AI). Basandosi su vari algoritmi di AI, pretendono di estrarre tutti i dati significativi dai documenti senza alcun intervento umano.

Dal mio punto di vista, due fattori sembrano essere alla base di questa tendenza (attualmente) in forte espansione. Credo che il più forte sia la comparsa dei servizi cloud. La tecnologia viene semplicemente resa disponibile come servizio nel cloud ed è quindi accessibile a livello globale. Le barriere all'ingresso nel mercato sono piuttosto basse. Il secondo fattore è il fatto che oggi quasi tutte le università si occupano di IA. Dal momento che ogni ingegnere capisce e conosce i documenti, è facile utilizzare gli algoritmi di IA - spesso disponibili come "freeware" - per estrarre automaticamente i dati dai documenti.

Con la proliferazione dell'IA di estrazione, siamo arrivati al paradiso dell'estrazione dei dati? L'unica cosa che rimane è l'agonia della scelta? Diamo un'occhiata più da vicino.

L'analisi iniziale dei risultati degli algoritmi basati sull'IA è in genere piuttosto impressionante. Un documento viene inserito in un sistema di IA e questo restituisce la maggior parte o addirittura tutti i dati richiesti.

Quando le cose vanno a gonfie vele, a tutti piace parlare dei potenziali vantaggi, ma io vorrei sottolineare alcune delle sfide che si pongono all'utilizzo della tecnologia AI basata su modelli nel nostro settore. Si tratta di alcune delle stesse ragioni per cui la promessa delle auto a guida autonoma, anni fa, non si è ancora concretizzata del tutto: ci sono dei compromessi nel lasciare che l'IA simuli completamente i processi decisionali umani.

Sicurezza
Per ottenere risultati utilizzabili nella pratica, i modelli di IA devono essere addestrati utilizzando grandi quantità di documenti e dati reali. Si tratta del cosiddetto pattern o training set. Pertanto, dovrete consegnare copie di documenti reali dei clienti a un ambiente cloud di terze parti per l'addestramento del sistema. Poiché il sistema di intelligenza artificiale deve essere riaddestrato frequentemente (ad esempio, ogni notte), i dati devono rimanere per sempre nel set di addestramento. Inoltre, per mantenere il modello aggiornato, è necessario alimentare costantemente il set di addestramento con nuovi esempi per mantenerlo il più preciso possibile. Di conseguenza, esiste un rischio potenziale costante che i dati del set di addestramento possano essere esposti a occhi indiscreti.

Proprietà intellettuale
Fornendo documenti e dati al fornitore di tecnologia di intelligenza artificiale, si consente a quest'ultimo di ampliare e potenzialmente migliorare il modello. Siete stati ricompensati per il contributo dei "vostri" dati/IP? Siete completamente sicuri che un modello migliorato non permetterà mai a un vostro concorrente di avere una soluzione di IA migliore e quindi un vantaggio competitivo? Chi è il proprietario dell'IP contenuta nel modello?

Precisione approssimativa
L'IA non è precisa? Non è una grande delusione? Per la natura stessa della bestia, un sistema di IA non è mai assolutamente sicuro di avere ragione o torto, ma farà sempre del suo meglio per fornire un risultato. Tutti i risultati sono solo approssimativamente accurati. Vengono impiegate varie tecniche (ad esempio il calcolo dei livelli di confidenza) per stimare meglio l'accuratezza dei risultati, ma ci sarà sempre un divario tra i risultati giusti al 100% e quelli del sistema. Alcuni esperti sostengono che i sistemi di intelligenza artificiale di oggi raramente superano il 70% di accuratezza. Hmm...

Un'altra cosa importante: l'accuratezza del sistema di intelligenza artificiale varia con nuovi addestramenti su un set di modelli modificato. Quindi, qualcosa che ieri è stato interpretato correttamente, oggi potrebbe essere interpretato in modo errato. Le incongruenze dei sistemi di IA sono una vera sfida!

I sommi sacerdoti della magia dell'IA
Ebbene, io e voi non comprendiamo il funzionamento del sistema di IA. Arrivano alcuni specialisti che iniziano a manipolare i dati dei modelli e/o gli algoritmi. Per spiegare ciò che stanno facendo potrebbero usare espressioni come "modello sotto o sovraadattato", "apprendimento non parametrico", "troppo rumore nel set di allenamento", ecc. Ma questi sommi sacerdoti della magia dell'intelligenza artificiale non saranno in grado di spiegarvi il comportamento del sistema di intelligenza artificiale, né potranno comprenderlo appieno loro stessi! L'esperienza mi dice di diffidare se una persona di media intelligenza non è in grado di capire come vengono prodotti i risultati di un sistema. Anche voi dovreste essere in grado di farlo (anche se siete più intelligenti della media).

Intervento umano inatteso (Sicurezza II)
Il fornitore di IA ha un problema: è stata promessa una precisione del 100%, ma la tecnologia è carente. Come si fa a colmare questa lacuna e ad aumentare il livello di precisione fino a portarlo il più vicino possibile al 100%? Imbrogliando e assumendo occhi e mani. Questo è facile da fare con i servizi offerti oggi su Internet. Quindi, i vostri documenti potrebbero essere esposti a studenti sconosciuti o a persone che hanno bisogno di fare soldi facili. E se queste persone cercassero di arrotondare il loro misero stipendio agendo sulle informazioni presentate davanti ai loro occhi? Un altro problema di sicurezza di cui nessuno dei fornitori di tecnologia AI vuole parlare.

La buona notizia è che esistono sistemi in grado di soddisfare e battere le tecnologie di IA oggi di moda. Noi di TCG Process abbiamo affinato le nostre tecnologie di classificazione ed estrazione negli ultimi due decenni. Forse all'inizio ci vorrà qualche ora di lavoro in più per configurarle, ma funzioneranno in modo molto più coerente e trasparente. Non c'è bisogno di magie. Per la vostra tranquillità: Le tecnologie di classificazione ed estrazione del prodotto di punta di TCG Process, DocProStar, garantiscono risultati uguali o migliori senza i problemi descritti sopra. Le tecnologie basate sull'intelligenza artificiale sono incorporate, ma non sono mai del tutto affidabili quando si tratta di fornire risultati corretti per processi critici.

Informazioni su Arnold
Arnold von Büren è un imprenditore svizzero con tre decenni di esperienza nell'acquisizione e nella gestione degli input. È stato uno dei membri fondatori di DICOM Group plc. e ha svolto un ruolo fondamentale nell'acquisizione di Kofax, Inc. USA, diventando CEO di Kofax nel 2000. Dal 2003 al 2006 Arnold è stato CEO di DICOM Group plc. Dal 2007 è CEO di TCG Process, azienda leader nella fornitura di software per l'automazione dei processi ad aziende di tutte le dimensioni, che ha fatto crescere l'azienda fino a farla diventare un'organizzazione globale con più di una dozzina di filiali in Europa, nelle Americhe e nell'Asia Pacifica.