Extracción de datos de PDFs desde el terminal: El CLI de DocuTray
Hoy lanzamos el CLI de DocuTray. Está pensado para que tu coding agent agregue capacidades de procesar documentos y extraer datos de PDF en tu aplicación, dándole la
Hoy lanzamos el CLI de DocuTray. Está pensado para que tu coding agent agregue capacidades de procesar documentos y extraer datos de PDF en tu aplicación, dándole la
Los LLMs no esperan a chocar con max_tokens: si sospechan que se van a pasar, truncan antes. Cómo lo descubrimos en DocuTray procesando documentos densos.
Extraer datos de facturas PDF para COMEX en LATAM no es como procesar una factura local: cambian formatos, monedas, identificadores fiscales y los line items vienen por cientos. Cómo resolverlo con un schema único y un par de líneas de código.
El demo siempre funciona. Pegas un PDF en el chat, pides los campos estructurados, y el modelo responde con un JSON perfecto. "¿Por qué no hacemos esto
Cuando procesamos facturas internacionales con cientos de líneas de producto, el JSON de respuesta superaba los max tokens del modelo. Probamos TOON — un formato que promete ~40% menos tokens de salida. Esto es lo que aprendimos.
Una familia puede tener cuentas en Santander Chile, Morgan Stanley en Miami y Julius Bär en Suiza. Cada banco entrega una cartola distinta. Así se resuelve el procesamiento de documentos en el sector financiero sin morir en Excel.
Extend y DocuTray procesan documentos con IA, pero con filosofías de diseño distintas. Extend te da las primitivas para armar tu propio pipeline. DocuTray te da el pipeline ya construido.
Reducto y DocuTray extraen datos de documentos, pero resuelven problemas distintos en el pipeline. Reducto es una primitiva de extracción excelente. DocuTray va más lejos: identifica, extrae, valida y enriquece en el mismo API call.
Automatiza el procesamiento de gastos reembolsables de tu equipo con n8n y DocuTray. Recorre las carpetas de cada colaborador en Google Drive, extrae los datos de boletas y facturas, y los consolida en Google Sheets. Incluye template descargable.
Cuando un developer necesita extraer datos de documentos, lo primero que aparece en Google es Amazon Textract. Es el default. Está en AWS, tiene buena documentación, y si
Automatiza el procesamiento de cartolas de tarjeta de crédito usando n8n y DocuTray. Lee los PDFs desde Google Drive, extrae los datos y los deja ordenados en Google Sheets. Incluye template descargable.
La inteligencia artificial le ha dado nueva vida a la industria de OCR y Procesamiento Inteligente de Documentos. Nuevos actores en un mercado ya saturado lanzan servicios que