Más allá del OCR
La inteligencia artificial le ha dado nueva vida a la industria de OCR y Procesamiento Inteligente de Documentos. Nuevos actores en un mercado ya saturado lanzan servicios que logran mayor precisión en documentos cada vez más complejos—desde startups con respaldo de capital de riesgo levantando millones hasta comunidades de código abierto lanzando mejores modelos cada semana.
Pero la mayoría están enfocados exclusivamente en la etapa de OCR. Mejor precisión en la extracción de datos. Y si bien eso es importante, es solo una parte del procesamiento de documentos. Una parte crítica, claro, pero solo una parte.
En este artículo quiero argumentar por qué como industria necesitamos ir más allá del OCR, y por qué necesitamos construir en la capa de aplicación para cerrar el ciclo completo de procesamiento de documentos.
Entendiendo el procesamiento de documentos a través de un caso real
Trabajamos con una liquidadora de seguros que procesaba manualmente solicitudes de reembolso. El flujo era directo: los clientes del seguro enviaban varios documentos—PDFs, fotos—para hacer sus reclamos. Estos incluían:
- Formularios de reembolso, frecuentemente escritos a mano, con detalles del procedimiento, médico, fecha, etc.
- - Comprobantes de pago—facturas, boletas, etc.—que probaban que pagaron por servicios médicos
- - Resultados de exámenes u otros documentos de respaldo, cuando aplicaba, para validar la necesidad médica
El cuello de botella para automatizar este proceso era leer estos documentos para ingresarlos al sistema. Los sistemas tradicionales de OCR tenían problemas porque los documentos llegaban en formatos y layouts desconocidos.
La IA puede manejar este escenario. Podemos leer cualquier formato y layout y extraer datos estructurados. Pero no fue suficiente.
Por qué el OCR por si solo no es suficiente
Nos dimos cuenta que no se trata solo de extraer datos de documentos con precisión.
También se trata de identificar qué tipo de documento es un archivo, para entender qué datos importan y qué significa realmente el documento.
También se trata de validar que los datos extraídos tengan sentido: ¿La suma de cada línea coincide con el monto total solicitado? ¿Las fechas son realistas? ¿Están presentes todos los campos requeridos?
También se trata de normalizar nombres de procedimientos y especialidades para poder ejecutar reglas de cobertura según el plan de seguro.
También se trata de enviar la información, con todos los campos requeridos, al sistema correcto para continuar el proceso.
Si bien exploramos varias soluciones de procesamiento de documentos, ninguna pudo manejar completamente estas etapas. Así que terminamos construyendo todo a medida.
La experiencia del desarrollador
Tuvimos que construir software personalizado para identificación de documentos, lógica de validación de datos, enriquecimiento/normalización de datos clave, y exportación al sistema principal.
Horas de desarrollo fuera de nuestro negocio principal, y preocupaciones constantes sobre quién mantendría este código en el futuro.
Aquí es donde las soluciones de procesamiento de documentos fallan: la experiencia del desarrollador. Los pasos alrededor del procesamiento de documentos no están cubiertos y terminan escribiendo mucho código personalizado.
Tu OCR puede ser increíblemente preciso, pero no estás pensando en el ciclo de procesamiento completo.
Lo que estamos resolviendo con DocuTray
Queremos que DocuTray haga esta experiencia de desarrollo lo más fluida posible para desarrolladores.
Configura tus tipos de documentos, reglas de validación y mecanismos de normalización una vez en nuestra plataforma, y configura webhooks para la entrega de resultados.
Luego, con una sola llamada API, manejamos el flujo completo de procesamiento: Identificar, Extraer, Validar, Enriquecer y Exportar. La experiencia más fluida posible.
Esta capa de aplicación siempre será necesaria para el procesamiento de documentos. OCR es solo una etapa del proceso.
Si quieres saber más sobre DocuTray, visita https://www.docutray.com.