Tachiwin

Nos complace anunciar el lanzamiento de Tachiwin OCR 1.5 🎉, la evolución de nuestro modelo premiado de reconocimiento óptico de caracteres para lenguas originarias de México. Esta versión fue reentrenada sobre PaddleOCR-VL-1.5 con nuestro conjunto de datos sintético especializado en las particularidades ortográficas de estas lenguas: diacríticos no estándar, glotales, tonos marcados y variantes dialectales que no existen en ningún corpus general. El modelo fue entrenado con el dataset tachiwin/multilingual_ocr_llm_2 (55,200 muestras) usando full fine-tuning con Unsloth, lo que permitió entrenarlo 2x más rápido sin sacrificar precisión.

El modelo está disponible de forma gratuita y abierta en Hugging Face y puede probarse en línea en nuestro Space interactivo.

Sobre el modelo base

PaddleOCR-VL-1.5 es un modelo multimodal de lenguaje-visión de 1B parámetros desarrollado por Baidu/PaddlePaddle, que alcanza 94.5% de precisión en OmniDocBench v1.5 e integra en un solo modelo seis tareas: OCR, reconocimiento de tablas, fórmulas, gráficas, sellos y text spotting, con soporte para 111 idiomas y localización de formas irregulares mediante cajas poligonales — especialmente útil para digitalizar documentos históricos inclinados o fotografiados en condiciones variables.

Resultados de benchmark 📊

Los resultados hablan por sí mismos. Evaluamos Tachiwin OCR 1.5 contra el modelo base PaddleOCR-VL-1.5 sin ajuste, usando muestras de lenguas indígenas:

Métricas generales

Métrica	Modelo base	Tachiwin OCR 1.5	Mejora
CER (Character Error Rate)	17.65%	2.03%	−88.5% relativo
WER (Word Error Rate)	38.59%	3.60%	−90.7% relativo
Precisión de caracteres (1 − CER)	82.35%	97.97%	+15.61 pp
Precisión de palabras (1 − WER)	61.41%	96.40%	+34.99 pp

Comparativa entre versiones: v1.0 → v1.5

Métrica	Tachiwin OCR v1.0	Tachiwin OCR v1.5	Cambio
CER	6.80%	2.03%	−4.77 pp
WER	17.36%	3.60%	−13.76 pp
Precisión de caracteres	93.20%	97.97%	+4.77 pp
Precisión de palabras	82.64%	96.40%	+13.76 pp
Reducción relativa CER	10.4%	88.5%	+78.1 pp
Reducción relativa WER	31.0%	90.7%	+59.7 pp

La mejora no es incremental: en v1.0 la reducción relativa del CER fue de 10.4%; en v1.5 es de 88.5%. Eso representa un salto cualitativo en la capacidad del modelo para reconstruir texto en estas lenguas.

Resultados por lengua (21 muestras)

Código	Lengua	CER base	CER ajustado	WER base	WER ajustado
`amu`	Amuzgo	85.52%	0.00%	89.13%	0.00%
`zao`	Zapoteco (muestra 11)	93.01%	0.00%	100.00%	0.00%
`mto`	Mixe Totontepec	93.12%	32.47%	100.00%	39.71%
`lac`	Lacandón	9.80%	0.00%	42.31%	0.00%
`mat`	Matlatzinca	6.51%	0.00%	42.55%	0.00%
`toc`	Tojolabal	11.32%	0.00%	57.14%	0.00%
`tzh`	Tzeltal	2.67%	0.00%	15.91%	0.00%
`mxt`	Mixteco	6.70%	0.00%	19.18%	0.00%
`tee`	Tepehua de Huehuetla	3.03%	0.00%	17.33%	0.00%
`sei`	Seri	1.89%	0.00%	10.61%	0.00%
`yaq`	Yaqui	1.82%	0.00%	3.12%	0.00%
Promedio		17.65%	2.03%	38.59%	3.60%

14 de 21 lenguas alcanzan 0.00% de CER tras el ajuste fino, algo que no ocurrió en ningún caso con v1.0.

El caso más difícil sigue siendo el Mixe Totontepec (mto), con un CER ajustado de 32.47%, lo que indica que ortografías especialmente complejas requieren más datos y trabajo adicional. Lo tenemos en el radar.

Hallazgos clave

14/21 lenguas con CER perfecto (0.00%) tras el ajuste fino.
Lenguas con sistemas tonales y diacríticos complejos como Amuzgo y Zapoteco mostraron las mejoras más dramáticas: de más del 85% de error a cero.
La precisión a nivel de palabras saltó de 61.41% a 96.40%, una mejora de casi 35 puntos porcentuales absolutos; en v1.0 esta mejora fue de solo 7.81 pp.
El modelo mostró alta resiliencia ante las distorsiones sintéticas aplicadas durante la generación de datos.

Arquitectura y detalles técnicos

Aspecto	Detalle
Modelo base	PaddleOCR-VL-1.5 (PaddlePaddle/Baidu)
Arquitectura	VLM: NaViT encoder + ERNIE-4.5-0.3B LM
Parámetros	1.0B (BF16)
Tipo de entrenamiento	Full Fine-tuning (SFT)
Herramientas	Unsloth + TRL + HuggingFace Transformers
Dataset	`tachiwin/multilingual_ocr_llm_2` — 55,200 imágenes
Licencia	Apache 2.0
Formato	Safetensors (BF16)

¿Qué sigue?

Este modelo es la base para las próximas capacidades de Tachiwin: clasificación automática de textos, generación de contenido y traducción asistida por visión. También esperamos expandir el dataset de entrenamiento para cubrir más variantes y reducir el error en los casos más complejos como el Mixe Totontepec.

Si eres investigador, desarrollador o comunidad y quieres usar o contribuir a este modelo, todo está disponible de forma abierta:

🤗 Modelo en Hugging Face
🖥️ Pruébalo en línea
📓 Cuadernos de entrenamiento en Google Colab