Lanzamiento de Tachiwin OCR 1.5

Nos complace anunciar el lanzamiento de Tachiwin OCR 1.5 🎉, la evolución de nuestro modelo premiado de reconocimiento óptico de caracteres para lenguas originarias de México. Esta versión fue reentrenada sobre PaddleOCR-VL-1.5 con nuestro conjunto de datos sintético especializado en las particularidades ortográficas de estas lenguas: diacríticos no estándar, glotales, tonos marcados y variantes dialectales que no existen en ningún corpus general. El modelo fue entrenado con el dataset tachiwin/multilingual_ocr_llm_2 (55,200 muestras) usando full fine-tuning con Unsloth, lo que permitió entrenarlo 2x más rápido sin sacrificar precisión.
El modelo está disponible de forma gratuita y abierta en Hugging Face y puede probarse en línea en nuestro Space interactivo.
Sobre el modelo base
PaddleOCR-VL-1.5 es un modelo multimodal de lenguaje-visión de 1B parámetros desarrollado por Baidu/PaddlePaddle, que alcanza 94.5% de precisión en OmniDocBench v1.5 e integra en un solo modelo seis tareas: OCR, reconocimiento de tablas, fórmulas, gráficas, sellos y text spotting, con soporte para 111 idiomas y localización de formas irregulares mediante cajas poligonales — especialmente útil para digitalizar documentos históricos inclinados o fotografiados en condiciones variables.
Resultados de benchmark 📊
Los resultados hablan por sí mismos. Evaluamos Tachiwin OCR 1.5 contra el modelo base PaddleOCR-VL-1.5 sin ajuste, usando muestras de lenguas indígenas:
Métricas generales
| Métrica | Modelo base | Tachiwin OCR 1.5 | Mejora |
|---|---|---|---|
| CER (Character Error Rate) | 17.65% | 2.03% | −88.5% relativo |
| WER (Word Error Rate) | 38.59% | 3.60% | −90.7% relativo |
| Precisión de caracteres (1 − CER) | 82.35% | 97.97% | +15.61 pp |
| Precisión de palabras (1 − WER) | 61.41% | 96.40% | +34.99 pp |
Comparativa entre versiones: v1.0 → v1.5
| Métrica | Tachiwin OCR v1.0 | Tachiwin OCR v1.5 | Cambio |
|---|---|---|---|
| CER | 6.80% | 2.03% | −4.77 pp |
| WER | 17.36% | 3.60% | −13.76 pp |
| Precisión de caracteres | 93.20% | 97.97% | +4.77 pp |
| Precisión de palabras | 82.64% | 96.40% | +13.76 pp |
| Reducción relativa CER | 10.4% | 88.5% | +78.1 pp |
| Reducción relativa WER | 31.0% | 90.7% | +59.7 pp |
La mejora no es incremental: en v1.0 la reducción relativa del CER fue de 10.4%; en v1.5 es de 88.5%. Eso representa un salto cualitativo en la capacidad del modelo para reconstruir texto en estas lenguas.
Resultados por lengua (21 muestras)
| Código | Lengua | CER base | CER ajustado | WER base | WER ajustado |
|---|---|---|---|---|---|
amu | Amuzgo | 85.52% | 0.00% | 89.13% | 0.00% |
zao | Zapoteco (muestra 11) | 93.01% | 0.00% | 100.00% | 0.00% |
mto | Mixe Totontepec | 93.12% | 32.47% | 100.00% | 39.71% |
lac | Lacandón | 9.80% | 0.00% | 42.31% | 0.00% |
mat | Matlatzinca | 6.51% | 0.00% | 42.55% | 0.00% |
toc | Tojolabal | 11.32% | 0.00% | 57.14% | 0.00% |
tzh | Tzeltal | 2.67% | 0.00% | 15.91% | 0.00% |
mxt | Mixteco | 6.70% | 0.00% | 19.18% | 0.00% |
tee | Tepehua de Huehuetla | 3.03% | 0.00% | 17.33% | 0.00% |
sei | Seri | 1.89% | 0.00% | 10.61% | 0.00% |
yaq | Yaqui | 1.82% | 0.00% | 3.12% | 0.00% |
| Promedio | 17.65% | 2.03% | 38.59% | 3.60% |
14 de 21 lenguas alcanzan 0.00% de CER tras el ajuste fino, algo que no ocurrió en ningún caso con v1.0.
El caso más difícil sigue siendo el Mixe Totontepec (mto), con un CER ajustado de 32.47%, lo que indica que ortografías especialmente complejas requieren más datos y trabajo adicional. Lo tenemos en el radar.
Hallazgos clave
- 14/21 lenguas con CER perfecto (0.00%) tras el ajuste fino.
- Lenguas con sistemas tonales y diacríticos complejos como Amuzgo y Zapoteco mostraron las mejoras más dramáticas: de más del 85% de error a cero.
- La precisión a nivel de palabras saltó de 61.41% a 96.40%, una mejora de casi 35 puntos porcentuales absolutos; en v1.0 esta mejora fue de solo 7.81 pp.
- El modelo mostró alta resiliencia ante las distorsiones sintéticas aplicadas durante la generación de datos.
Arquitectura y detalles técnicos
| Aspecto | Detalle |
|---|---|
| Modelo base | PaddleOCR-VL-1.5 (PaddlePaddle/Baidu) |
| Arquitectura | VLM: NaViT encoder + ERNIE-4.5-0.3B LM |
| Parámetros | 1.0B (BF16) |
| Tipo de entrenamiento | Full Fine-tuning (SFT) |
| Herramientas | Unsloth + TRL + HuggingFace Transformers |
| Dataset | tachiwin/multilingual_ocr_llm_2 — 55,200 imágenes |
| Licencia | Apache 2.0 |
| Formato | Safetensors (BF16) |
¿Qué sigue?
Este modelo es la base para las próximas capacidades de Tachiwin: clasificación automática de textos, generación de contenido y traducción asistida por visión. También esperamos expandir el dataset de entrenamiento para cubrir más variantes y reducir el error en los casos más complejos como el Mixe Totontepec.
Si eres investigador, desarrollador o comunidad y quieres usar o contribuir a este modelo, todo está disponible de forma abierta: