Document Processing

DocuTray vs Reducto: extracción vs pipeline completo

Reducto y DocuTray extraen datos de documentos, pero resuelven problemas distintos en el pipeline. Reducto es una primitiva de extracción excelente. DocuTray va más lejos: identifica, extrae, valida y enriquece en el mismo API call.

Reducto y DocuTray hacen cosas que se parecen desde afuera: las dos reciben un documento y retornan JSON estructurado. Pero si miras lo que construye cada una, están resolviendo problemas distintos en el pipeline.

Reducto se enfoca en hacer muy bien una parte del trabajo: convertir documentos en datos estructurados con alta precisión. DocuTray cubre esa parte también, pero trata la extracción como el primer paso de un pipeline más largo — no el único. Si estás evaluando una alternativa a Reducto, la pregunta clave no es "¿cuál extrae mejor?", sino "¿cuánto del pipeline quieres construir tú?"

Qué hace Reducto

Reducto ofrece cuatro operaciones sobre documentos:

Parse: extrae todo el contenido del documento preservando layout, estructura y tablas — optimizado para RAG pipelines.
Extract: extrae campos específicos según un schema JSON que defines tú. Retorna los valores con scores de confianza por campo.
Split: divide archivos multi-documento en unidades separadas usando descripciones en lenguaje natural.
Edit: rellena formularios PDF y modifica archivos DOCX programáticamente.

El modelo técnico es sólido: combina OCR tradicional con vision-language models en múltiples pasadas. Funciona bien en documentos complejos, escaneos de baja calidad, y tablas con estructura irregular. Sus clientes son equipos de AI que procesan volumen alto — Harvey, Scale AI, Vanta.

La DX es buena. Un extract call con tu schema devuelve exactamente los campos que pediste:

curl -X POST https://v1.reducto.ai/extract \
  -H "Authorization: Bearer TU_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "document_url": "https://tu-storage.com/factura.pdf",
    "schema": {
      "type": "object",
      "properties": {
        "folio":     { "type": "number" },
        "fecha":     { "type": "string" },
        "total":     { "type": "number" },
        "proveedor": { "type": "string" }
      }
    }
  }'

Reducto hace bien su trabajo. El problema no es lo que hace — es lo que no hace.

Lo que pasa después de la extracción

Cuando recibes el JSON de Reducto, todavía te falta resolver tres preguntas en tu pipeline:

1. ¿Qué tipo de documento era?
Si recibes documentos de múltiples tipos — facturas, órdenes de compra, contratos, guías de despacho — necesitas clasificar antes de extraer. Reducto tiene split para dividir multi-documentos, pero no tiene clasificación automática de tipos. Defines el schema asumiendo que ya sabes qué documento es. En pipelines reales, eso no siempre se cumple.

2. ¿Los datos extraídos son coherentes?
Un LLM puede extraer total_neto: 1000000 e iva: 50000 de una factura donde el IVA real es 190.000. La extracción "funciona" — retornó campos — pero los datos no pasan una verificación básica. Nadie te dice que algo está mal hasta que llega al ERP y falla la conciliación.

3. ¿Qué significan esos datos en tu contexto?
El campo rut_emisor: "76.123.456-7" es solo un string hasta que lo cruzas con tu base de datos de proveedores y sabes que es "Empresa Ejemplo SpA", activa, con crédito aprobado. Eso es enrichment — y es código que tienes que escribir tú encima de la extracción.

Con Reducto, las tres son tu responsabilidad. Con DocuTray, están integradas en el pipeline.

El pipeline completo de DocuTray

DocuTray tiene cuatro capacidades que cubren el pipeline de punta a punta:

Identify — antes de extraer, identifica qué tipo de documento es. Útil cuando el input no es homogéneo: un mismo endpoint recibe facturas, órdenes de compra y contratos, y el sistema clasifica automáticamente antes de aplicar el schema correcto.

curl -X POST https://app.docutray.com/api/identify \
  -H "Authorization: Bearer TU_API_KEY" \
  -F "image=@documento.pdf"
# → { "document_type": "invoice", "confidence": 0.97 }

Convert — extracción con schemas pre-entrenados para los tipos de documentos más comunes, o con schemas custom definidos por ti. Sin necesidad de describir el schema desde cero para facturas, órdenes de compra, o los +20 tipos incluidos.

curl -X POST https://app.docutray.com/api/convert \
  -H "Authorization: Bearer TU_API_KEY" \
  -F "image=@factura.pdf" \
  -F "document_type_code=invoice"

{
  "data": {
    "folio": 123456,
    "fecha_emision": "2024-03-15T00:00:00Z",
    "total_neto": 950000,
    "iva": 180500,
    "total": 1130500,
    "proveedor": "Empresa Ejemplo SpA"
  }
}

Validación — post-extracción, el sistema verifica coherencia interna de los datos. Si total_neto + iva ≠ total, si una fecha de emisión es posterior a la fecha de vencimiento, o si un campo obligatorio está vacío — la validación lo detecta antes de que los datos lleguen a tu sistema. No es un reemplazo de tu lógica de negocio, es una primera capa que atrapa los errores obvios.

Enrichment — cruza los datos extraídos contra bases de conocimiento internas. El RUT de un proveedor se puede resolver contra tu base de proveedores aprobados; un código de producto se puede enriquecer con su descripción del catálogo. El resultado no es solo los datos del documento — es los datos del documento en contexto.

Comparar herramientas de procesamiento de documentos: dos filosofías

La diferencia no es de precisión en la extracción — ambas herramientas hacen eso bien. Es de filosofía de producto.

Reducto te da una primitiva muy buena: documento → datos estructurados. Flexible, con buena DX, con SDKs en Python, Node.js y Go. La idea es que tú construyes el pipeline y Reducto hace la parte difícil de parsear.

DocuTray parte de la observación de que la extracción sola rara vez es suficiente en producción. Siempre hay que identificar, siempre hay que validar, casi siempre hay que enriquecer. En vez de dejarte eso como ejercicio, lo integra en la misma API.

Tabla comparativa

	Reducto	DocuTray
Extracción estructurada	Sí (Extract)	Sí (Convert)
Clasificación de tipo de documento	No	Sí (Identify)
Validación post-extracción	No	Sí
Enrichment con bases internas	No	Sí
Parse / chunking para RAG	Sí	No
Split multi-documento	Sí	No
Rellenado de formularios PDF	Sí (Edit)	No
Schemas pre-entrenados	No (siempre custom)	+20 tipos incluidos
SDKs	Python, Node.js, Go	Python, Node.js
Procesamiento async	Sí	Sí
Webhooks	No documentado	Sí
Compliance	SOC2, HIPAA, on-premises	API en la nube
Pricing	Pay-as-you-go (no público)	$0.08–0.09/página

Cuándo usar cada uno

Usa Reducto si:

Tu caso de uso principal es alimentar un pipeline RAG con contenido de documentos
Necesitas split automático de archivos multi-documento
Querés rellenar formularios PDF programáticamente
Necesitas SOC2, HIPAA, o deployment on-premises
Tu equipo prefiere definir todos los schemas de extracción desde cero

Usa DocuTray si:

Necesitás más que extracción: identificar, validar y enriquecer en el mismo pipeline
No querés construir la lógica de validación de datos por tu cuenta
Procesás múltiples tipos de documentos sin saber de antemano cuál llega
Buscás un pipeline completo con una sola integración

Si ya leíste nuestra comparativa con Amazon Textract, el patrón es el mismo: la pregunta siempre es cuánto del pipeline querés delegar y cuánto querés construir.

Podés empezar con el tier gratuito de DocuTray — 100 páginas al mes — y probar el pipeline completo con tus documentos reales.