Proyectos

Datasets

Corpus de datos abiertos estructurados para el entrenamiento de nuevas IAs

Tachiwin Datasets es la mayor iniciativa de datos abiertos para lenguas de México, alojada en Hugging Face para facilitar su uso.

¿Para qué sirve?

Proveer datos estructurados a investigadores y desarrolladores.

¿Cómo se usa?

Explora el catálogo en línea y descarga los datasets en formato CSV o JSONL.

Justificación

Sin datos no hay IA; liberar estos corpus es nuestra mayor contribución al ecosistema.

Software Libre & Código Abierto