Regresar

Fuentes tipográficas y escritura digital en lenguas originarias

Utilizar fuentes tipográficas adecuadas es de importancia crítica para las lenguas originarias de México y del mundo. Muchas de estas lenguas emplean glifos (letras) que no son comunes en lenguas hegemónicas como el español, y las fuentes más populares suelen ofrecer un repertorio limitado, restringido a los caracteres más frecuentes en esas lenguas.

Algunas de las lenguas más habladas de México, como la mayoría de las variantes del Maya, el Náhuatl o el Totonaco, no requieren caracteres especialmente inusuales debido a sus características ortográficas. Pero otras lenguas nacionales —particularmente las lenguas tonales como el Chinanteco o Mixteco— incluyen una rica variedad de símbolos para reflejar su riqueza tonal y fonológica. En estos casos, el problema se vuelve crítico: estas suelen ser también las lenguas más amenazadas, y que sus textos no reflejen adecuadamente los caracteres correctos genera inconsistencias que fragmentan progresivamente la escritura y deterioran esa riqueza. Esto constituye en sí mismo una forma de rezago y violencia lingüística.

El problema en la práctica: la I barrada

Un ejemplo concreto y frecuente: en lenguas tonales como el Chinanteco o el Mixe existe un carácter llamado "I barrada"ɨ (U+0268) — que generalmente representa una vocal cerrada central no redondeada. Dado que es un carácter poco común en los alfabetos latinos estándar, con frecuencia se le sustituye por el signo de más (+). Pero esta es una solución inconsistente: otras editoriales o instituciones pueden optar simplemente por escribir i, i- o -i, lo que dificulta la comprensión y fragmenta la escritura de la lengua.

Comparación visual entre el uso de + y el carácter correcto ɨ en un texto

Uso subóptimo del signo + en sustitución del carácter correcto ɨ con una fuente que lo soporta adecuadamente.

El problema va más allá de la apariencia. El signo + tiene un comportamiento digital distinto al de un carácter que representa una letra: puede generar errores al imprimir, al procesar texto, al realizar búsquedas o al usar herramientas tecnológicas. En medios digitales, el documento que debería ser un recurso lingüístico confiable se convierte en un texto técnicamente defectuoso.

Lo mismo ocurre con las marcas tonales: sustituirlas por texto subrayado es una práctica igualmente problemática. El subrayado es un formato de estilo, no un carácter único. Los softwares lo tratarán como tal, y es muy probable que este formato se pierda al imprimir, copiar, cambiar de aplicación o mostrar el texto en medios digitales. Al seleccionar y copiar el texto, el estilo puede no preservarse y la marca tonal desaparece, haciendo que la palabra pierda su significado.

Uso subóptimo de marca de subrayado (estilo) vs uso de caracter con macron inferior fara indicar tono

Uso subóptimo de marca de subrayado (estilo) vs uso de caracter con macron inferior fara indicar tono

Estos caracteres no son decoraciones opcionales ni detalles menores. En muchos casos son necesarios para la comprensión del texto, y su omisión o sustitución produce degradación real en la calidad y la riqueza de la lengua.

Si bien existen ortografías modernizadas que en ocasiones simplifican este problema, en Tachiwin pensamos que la solución no es abandonar estas grafías, sino encontrar los mecanismos digitales para escribirlas de manera correcta y práctica. Entendemos que a nivel personal e informal los hablantes puedan verse obligados a usar sustituciones; sin embargo, a nivel institucional estas sustituciones no deberían permitirse intencionalmente con el objetivo de facilitar procesos.


Recomendaciones para programadores: UTF-8 como estándar

Si desarrollas software, sitios web, bases de datos o cualquier herramienta que maneje texto, la recomendación es clara: usa UTF-8 en absolutamente todo.

UTF-8 es el estándar de codificación de caracteres más universal que existe. Fue diseñado para representar prácticamente cualquier sistema de escritura del mundo —incluyendo todos los caracteres de las lenguas originarias de México— sin necesidad de codificaciones especiales o tablas alternativas. En contraste, estándares más antiguos como ASCII o ISO-8859-1 sólo cubren un subconjunto muy limitado de caracteres latinos, dejando fuera a la inmensa mayoría de los glifos que estas lenguas requieren.

Buenas prácticas concretas:

  • Declara siempre charset=UTF-8 en tus documentos HTML.
  • Configura tus bases de datos con collation utf8mb4 (no solo utf8, que en MySQL es incompleto).
  • Guarda todos tus archivos de texto, CSV y código fuente en UTF-8.
  • Evita convertir o exportar a ASCII o Latin-1, ya que esto destruirá los caracteres especiales.

Cómo escribir caracteres especiales

Si necesitas escribir un carácter que no aparece en tu teclado, estas son las formas más prácticas:

En Windows: Abre el Mapa de caracteres (busca "Mapa de caracteres" en el menú inicio), selecciona la fuente adecuada, localiza el carácter y cópialo. También puedes usar la combinación Alt + código numérico en el teclado numérico para algunos caracteres, aunque este método es limitado y poco confiable para caracteres fuera del rango ASCII extendido.

En macOS: Abre el Visualizador de caracteres con Ctrl + Cmd + Espacio. Puedes buscar el carácter por nombre (por ejemplo, "latin small letter i with stroke") y hacer doble clic para insertarlo.

Método universal: Copiar y pegar desde una fuente confiable siempre funciona. Puedes usar sitios como Unicode Character Table para encontrar y copiar cualquier carácter por su nombre o código.


Caracteres frecuentes en lenguas originarias de México no soportados por fuentes comunes

Revisamos más de 2,200 fuentes y encontramos que menos del 2% soporta completamente el conjunto de caracteres necesario para las lenguas originarias de México. 🔎

Cuando una fuente no soporta un carácter, en su lugar se muestra un cuadrado vacío □ o un signo de interrogación, lo que indica que el glifo no está disponible en esa fuente.

Estos son los caracteres que con mayor frecuencia no son soportados por fuentes convencionales. Al elegir una fuente para documentos en lenguas originarias, conviene verificar que los muestre correctamente:

CarácterCódigo UnicodeNombre
ƚU+019ALatin Small Letter L with Bar
U+A78CLatin Small Letter Saltillo
ʌU+028CLatin Small Letter Turned V
ʉU+0289Latin Small Letter U Bar
ɛU+025BLatin Small Letter Open E
ɨU+0268Latin Small Letter I with Stroke
U+207FSuperscript Latin Small Letter N
U+2011Non-Breaking Hyphen
ˊU+02CAModifier Letter Acute Accent
ˋU+02CBModifier Letter Grave Accent
U+1E3BLatin Small Letter L with Line Below
U+1E49Latin Small Letter N with Line Below
ǔU+01D4Latin Small Letter U with Caron
ǎU+01CELatin Small Letter A with Caron
əU+0259Latin Small Letter Schwa
ʼU+02BCModifier Letter Apostrophe
ˉU+02C9Modifier Letter Macron
ǿU+01FFLatin Small Letter O with Stroke and Acute
ŋU+014BLatin Small Letter Eng
įU+012FLatin Small Letter I with Ogonek
ōU+014DLatin Small Letter O with Macron
āU+0101Latin Small Letter A with Macron
īU+012BLatin Small Letter I with Macron
ēU+0113Latin Small Letter E with Macron
ūU+016BLatin Small Letter U with Macron
žU+017ELatin Small Letter Z with Caron
šU+0161Latin Small Letter S with Caron

Además de los caracteres individuales, conviene verificar que la fuente soporte los siguientes diacríticos combinantes (que se aplican sobre otras letras):

CarácterCódigo UnicodeNombre
◌̱U+0331Combining Macron Below
◌̨U+0328Combining Ogonek
◌̄U+0304Combining Macron
◌̈U+0308Combining Diaeresis
◌̃U+0303Combining Tilde
◌́U+0301Combining Acute Accent

Fuentes recomendadas por Tachiwin ✅

En Tachiwin nos dedicamos a probar fuentes de código abierto para identificar cuáles tienen cobertura prácticamente total de los glifos de las lenguas originarias de México. Las siguientes fuentes han superado esta revisión y su buen funcionamiento con textos en lenguas originarias está prácticamente garantizado. Las recomendamos especialmente para documentos que busquen universalidad, como traducciones y plantillas gubernamentales.

Esta lista está en constante revisión y actualización:

FuenteProveedorLicencia
AndikaGoogle FontsOFL
ArimoGoogle FontsOFL
Charis SILGoogle FontsOFL
Gentium Book PlusGoogle FontsOFL
Gentium PlusGoogle FontsOFL
Libertinus SerifGoogle Fonts / GitHubOFL
MerriweatherGoogle FontsOFL
Noto SansGoogle FontsOFL
Noto Sans DisplayGoogle FontsOFL
Noto Sans MonoGoogle FontsOFL
Noto SerifGoogle FontsOFL
Noto Serif DisplayGoogle FontsOFL

Asimismo, cuando se desarrolle una fuente totalmente nueva —como en el caso del gobierno federal— sugerimos solicitar la inclusión explícita de los caracteres listados arriba para facilitar su uso institucional con lenguas originarias.


Tachiwin OCR 1.5 y el reconocimiento de caracteres especiales

Parte de este problema también ocurre a la inversa: cuando se digitalizan documentos históricos o impresos en lenguas originarias, los modelos de OCR convencionales no reconocen estos caracteres especiales y los omiten o sustituyen por aproximaciones incorrectas.

Por eso en Tachiwin desarrollamos Tachiwin OCR 1.5, un modelo especializado en la digitalización de textos en lenguas originarias de México. A diferencia de los modelos genéricos, fue entrenado específicamente para reconocer los caracteres latinos no estándar y los glifos propios de estas lenguas, reduciendo significativamente los errores en la transcripción de documentos históricos y contemporáneos. Puedes probarlo en línea o acceder al modelo open source.


Lo que estamos haciendo al respecto 🛠️

Tachiwin trabaja actualmente en una app de teclado para Android con teclados especializados para cada lengua originaria de México, para que los hablantes de cada variante puedan escribir su lengua sin sustituciones y con facilidad. Mantente pendiente de nuestras actualizaciones.

Apoya nuestra causa para que sigamos trabajando en favor de la inclusión digital de las lenguas originarias de México a través de un donativo mensual o por única ocasión. 💙