Por qué tu LLM trunca antes de llegar a max_tokens
Los LLMs no esperan a chocar con max_tokens: si sospechan que se van a pasar, truncan antes. Cómo lo descubrimos en DocuTray procesando documentos densos.
Todo lo relevante del mundo de Procesamiento de Documentos
Los LLMs no esperan a chocar con max_tokens: si sospechan que se van a pasar, truncan antes. Cómo lo descubrimos en DocuTray procesando documentos densos.
Extraer datos de facturas PDF para COMEX en LATAM no es como procesar una factura local: cambian formatos, monedas, identificadores fiscales y los line items vienen por cientos. Cómo resolverlo con un schema único y un par de líneas de código.
Cuando procesamos facturas internacionales con cientos de líneas de producto, el JSON de respuesta superaba los max tokens del modelo. Probamos TOON — un formato que promete ~40% menos tokens de salida. Esto es lo que aprendimos.
Extend y DocuTray procesan documentos con IA, pero con filosofías de diseño distintas. Extend te da las primitivas para armar tu propio pipeline. DocuTray te da el pipeline ya construido.
Reducto y DocuTray extraen datos de documentos, pero resuelven problemas distintos en el pipeline. Reducto es una primitiva de extracción excelente. DocuTray va más lejos: identifica, extrae, valida y enriquece en el mismo API call.
El demo siempre funciona. Pegas un PDF en el chat, pides los campos estructurados, y el modelo responde con un JSON perfecto. "¿Por qué no hacemos esto
Cuando un developer necesita extraer datos de documentos, lo primero que aparece en Google es Amazon Textract. Es el default. Está en AWS, tiene buena documentación, y si
La inteligencia artificial le ha dado nueva vida a la industria de OCR y Procesamiento Inteligente de Documentos. Nuevos actores en un mercado ya saturado lanzan servicios que