Perspectivas de la Industria

 Thoughts from our CEO

IA. Más allá de la exageración

Últimamente notamos una fuerte proliferación de diversos proveedores de tecnología de clasificación y extracción que basan su oferta de servicios únicamente en la Inteligencia Artificial (IA). Basándose en varios algoritmos de IA, su pretensión es extraer todos los datos significativos de los documentos sin ninguna intervención humana.

Desde mi punto de vista, dos factores parecen estar detrás de esta tendencia (actualmente) en auge. Creo que la más fuerte es la aparición de los servicios en la nube. La tecnología simplemente se pone a disposición como un servicio en la nube y luego es accesible a nivel mundial. Las barreras de entrada al mercado son bastante bajas. El segundo impulsor es el hecho de que casi todas las universidades se dedican a la IA hoy en día. Esto lleva a un gran número de ingenieros que están familiarizados con la escritura de código para aprovechar el potencial de los algoritmos de IA.  Dado que todos los ingenieros entienden y conocen los documentos, es solo un pequeño salto utilizar algoritmos de IA, a menudo disponibles como "software gratuito", para extraer automáticamente datos de los documentos.

Con la proliferación de la IA de extracción, ¿hemos llegado al paraíso de la extracción de datos? ¿Lo único que queda es la agonía de la elección? Echemos un vistazo más de cerca.

El análisis inicial de los resultados de los algoritmos basados en IA suele ser bastante impresionante. Un documento se introduce en un sistema de IA y regresa con la mayoría o incluso todos los datos necesarios. 

Cuando las cosas están en auge, a todo el mundo le gusta hablar de las posibles ventajas, pero me gustaría señalar algunos de los retos que supone el uso de la tecnología de IA basada en patrones en nuestro sector. Estas son algunas de las mismas razones por las que la promesa de los coches autónomos hace años aún no se ha materializado del todo: hay ventajas y desventajas de dejar que la IA simule por completo los procesos humanos de toma de decisiones.

Seguridad

Para obtener resultados utilizables en la práctica, los modelos de IA deben entrenarse utilizando grandes cantidades de documentos y datos reales. A esto se le llama patrón o conjunto de entrenamiento. Por lo tanto, tendrá que entregar copias de documentos de clientes reales en un entorno en la nube de terceros para que el sistema esté entrenado. Dado que el sistema de IA debe volver a entrenarse con frecuencia (por ejemplo, todas las noches), esos datos deben permanecer en el conjunto de entrenamiento para siempre.

Además, para mantener el modelo actualizado, debe alimentar constantemente el conjunto de entrenamiento con nuevos ejemplos para mantenerlo lo más preciso posible. Como resultado, existe un riesgo potencial constante de que los datos del conjunto de entrenamiento queden expuestos a miradas indiscretas.

Propiedad intelectual
Al proporcionar documentos y datos al proveedor de tecnología de IA, le permite ampliar y mejorar potencialmente el modelo. ¿Está recibiendo una compensación por la contribución de "sus" datos/IP? ¿Está completamente seguro de que un modelo mejorado nunca permitirá a un competidor suyo tener una mejor solución de IA y, por lo tanto, una ventaja competitiva? ¿Quién es el propietario de la propiedad intelectual contenida en el modelo?

Precisión aproximada

¿La IA no es precisa? ¿No es esto una gran decepción? Por la naturaleza de la bestia, un sistema de IA nunca está absolutamente seguro de si está bien o mal, pero siempre hará todo lo posible para devolver un resultado. Todos los resultados son solo aproximadamente precisos. Se emplean varias técnicas (por ejemplo, el cálculo de los niveles de confianza) para estimar mejor la precisión de los resultados, pero siempre habrá una brecha entre el 100% correcto y los resultados del sistema. Algunos expertos afirman que el sistema de IA actual rara vez supera el 70% de precisión. Hmm...

Una cosa más importante: la precisión del sistema de IA varía con las nuevas ejecuciones de entrenamiento en un conjunto de patrones modificados. Por lo tanto, algo que se interpretó correctamente ayer podría ejecutarse por error hoy. ¡Las inconsistencias de los sistemas de IA son un verdadero desafío!

Los Sumos Sacerdotes de la Hechicería de la IA
Bueno, tú y yo no entendemos el funcionamiento del sistema de IA. Llegan algunos especialistas que comienzan a manipular los datos del patrón y/o los algoritmos. Para explicar lo que están haciendo, pueden usar expresiones como 'modelo subajustado o sobreajustado', 'aprendizaje no paramétrico', 'demasiado ruido en el conjunto de entrenamiento', etc. Pero estos Sumos Sacerdotes de la Hechicería de la IA no podrán explicarte el comportamiento del sistema de IA, ¡ni pueden entenderlo completamente por sí mismos! La experiencia me dice que hay que tener cuidado si una persona de inteligencia media no es capaz de entender cómo se producen los resultados de un sistema. También deberías poder hacerlo (incluso si eres más inteligente que el promedio).

Intervención Humana Inesperada (Seguridad II)

El proveedor de IA tiene un problema; Se prometió una precisión del 100%, pero falta la tecnología. ¿Cómo se cierra esta brecha y se aumenta el nivel de precisión lo más cerca posible del 100%?  Haz trampa y contrata algunos ojos y manos. Eso se hace fácilmente con las ofertas de servicios actuales en Internet. Por lo tanto, sus documentos pueden quedar expuestos a algunos estudiantes desconocidos u otras personas que necesitan ganar dinero rápido. ¿Qué pasaría si estas personas trataran de complementar su magro salario tomando alguna medida sobre la información que se les presenta? Es solo otro problema de seguridad aquí, del que nadie en el proveedor de tecnología de IA quiere hablar.

La buena noticia aquí es el hecho de que existen sistemas que pueden cumplir y vencer a las tecnologías de IA de moda de hoy en día. En TCG Process hemos perfeccionado nuestras tecnologías de clasificación y extracción durante las últimas dos décadas. Tal vez se necesiten algunas horas más de trabajo inicialmente para configurarlos, pero se ejecutarán de manera mucho más consistente y transparente. Aquí no hay magia. Para su tranquilidad: Las tecnologías de clasificación y extracción dentro del producto estrella de TCG Process, DocProStar, traerán los mismos o mejores resultados sin los problemas descritos anteriormente. Se incorporan tecnologías basadas en IA, pero nunca se confía plenamente en ellas a la hora de ofrecer resultados correctos para procesos críticos.

About Arnold
Arnold von Büren es un empresario suizo con tres décadas de experiencia en la captación y gestión de insumos. Fue miembro fundador de DICOM Group plc. y desempeñó un papel fundamental en la adquisición de Kofax, Inc. USA, convirtiéndose en CEO de Kofax en el año 2000. De 2003 a 2006, Arnold fue director ejecutivo de DICOM Group plc. Desde 2007 ha sido CEO de TCG Process, proporcionando software líder de automatización de procesos a empresas de todos los tamaños y convirtiendo a la empresa en una organización global con más de una docena de subsidiarias en Europa, América y Asia Pacífico.