Regresar

Lanzamiento de Tachiwin OCR 1.5

Lanzamiento de Tachiwin OCR 1.5

Nos complace anunciar el lanzamiento de Tachiwin OCR 1.5 🎉, la evolución de nuestro modelo premiado de reconocimiento óptico de caracteres para lenguas originarias de México. Esta versión fue reentrenada sobre PaddleOCR-VL-1.5 con nuestro conjunto de datos sintético especializado en las particularidades ortográficas de estas lenguas: diacríticos no estándar, glotales, tonos marcados y variantes dialectales que no existen en ningún corpus general. El modelo fue entrenado con el dataset tachiwin/multilingual_ocr_llm_2 (55,200 muestras) usando full fine-tuning con Unsloth, lo que permitió entrenarlo 2x más rápido sin sacrificar precisión.

El modelo está disponible de forma gratuita y abierta en Hugging Face y puede probarse en línea en nuestro Space interactivo.


Sobre el modelo base

PaddleOCR-VL-1.5 es un modelo multimodal de lenguaje-visión de 1B parámetros desarrollado por Baidu/PaddlePaddle, que alcanza 94.5% de precisión en OmniDocBench v1.5 e integra en un solo modelo seis tareas: OCR, reconocimiento de tablas, fórmulas, gráficas, sellos y text spotting, con soporte para 111 idiomas y localización de formas irregulares mediante cajas poligonales — especialmente útil para digitalizar documentos históricos inclinados o fotografiados en condiciones variables.


Resultados de benchmark 📊

Los resultados hablan por sí mismos. Evaluamos Tachiwin OCR 1.5 contra el modelo base PaddleOCR-VL-1.5 sin ajuste, usando muestras de lenguas indígenas:

Métricas generales

MétricaModelo baseTachiwin OCR 1.5Mejora
CER (Character Error Rate)17.65%2.03%−88.5% relativo
WER (Word Error Rate)38.59%3.60%−90.7% relativo
Precisión de caracteres (1 − CER)82.35%97.97%+15.61 pp
Precisión de palabras (1 − WER)61.41%96.40%+34.99 pp

Comparativa entre versiones: v1.0 → v1.5

MétricaTachiwin OCR v1.0Tachiwin OCR v1.5Cambio
CER6.80%2.03%−4.77 pp
WER17.36%3.60%−13.76 pp
Precisión de caracteres93.20%97.97%+4.77 pp
Precisión de palabras82.64%96.40%+13.76 pp
Reducción relativa CER10.4%88.5%+78.1 pp
Reducción relativa WER31.0%90.7%+59.7 pp

La mejora no es incremental: en v1.0 la reducción relativa del CER fue de 10.4%; en v1.5 es de 88.5%. Eso representa un salto cualitativo en la capacidad del modelo para reconstruir texto en estas lenguas.

Resultados por lengua (21 muestras)

CódigoLenguaCER baseCER ajustadoWER baseWER ajustado
amuAmuzgo85.52%0.00%89.13%0.00%
zaoZapoteco (muestra 11)93.01%0.00%100.00%0.00%
mtoMixe Totontepec93.12%32.47%100.00%39.71%
lacLacandón9.80%0.00%42.31%0.00%
matMatlatzinca6.51%0.00%42.55%0.00%
tocTojolabal11.32%0.00%57.14%0.00%
tzhTzeltal2.67%0.00%15.91%0.00%
mxtMixteco6.70%0.00%19.18%0.00%
teeTepehua de Huehuetla3.03%0.00%17.33%0.00%
seiSeri1.89%0.00%10.61%0.00%
yaqYaqui1.82%0.00%3.12%0.00%
Promedio17.65%2.03%38.59%3.60%

14 de 21 lenguas alcanzan 0.00% de CER tras el ajuste fino, algo que no ocurrió en ningún caso con v1.0.

El caso más difícil sigue siendo el Mixe Totontepec (mto), con un CER ajustado de 32.47%, lo que indica que ortografías especialmente complejas requieren más datos y trabajo adicional. Lo tenemos en el radar.


Hallazgos clave

  • 14/21 lenguas con CER perfecto (0.00%) tras el ajuste fino.
  • Lenguas con sistemas tonales y diacríticos complejos como Amuzgo y Zapoteco mostraron las mejoras más dramáticas: de más del 85% de error a cero.
  • La precisión a nivel de palabras saltó de 61.41% a 96.40%, una mejora de casi 35 puntos porcentuales absolutos; en v1.0 esta mejora fue de solo 7.81 pp.
  • El modelo mostró alta resiliencia ante las distorsiones sintéticas aplicadas durante la generación de datos.

Arquitectura y detalles técnicos

AspectoDetalle
Modelo basePaddleOCR-VL-1.5 (PaddlePaddle/Baidu)
ArquitecturaVLM: NaViT encoder + ERNIE-4.5-0.3B LM
Parámetros1.0B (BF16)
Tipo de entrenamientoFull Fine-tuning (SFT)
HerramientasUnsloth + TRL + HuggingFace Transformers
Datasettachiwin/multilingual_ocr_llm_2 — 55,200 imágenes
LicenciaApache 2.0
FormatoSafetensors (BF16)

¿Qué sigue?

Este modelo es la base para las próximas capacidades de Tachiwin: clasificación automática de textos, generación de contenido y traducción asistida por visión. También esperamos expandir el dataset de entrenamiento para cubrir más variantes y reducir el error en los casos más complejos como el Mixe Totontepec.

Si eres investigador, desarrollador o comunidad y quieres usar o contribuir a este modelo, todo está disponible de forma abierta: