Saltar Aviso
The Conversation

¿Por qué la IA no habla igual todos los idiomas? La brecha lingüística que esconden los algoritmos

Freepik (Referencial) - ¿Por qué la IA no habla igual todos los idiomas? La brecha lingüística que esconden los algoritmos
Compartir
Aunque la IA parece manejar decenas de idiomas con soltura, realmente existe una desigualdad significativa: no todas las lenguas cuentan con la misma presencia en los datos de entrenamiento.
Señal
T13 En Vivo

Cuando usamos una inteligencia artificial para traducir un texto, responder una pregunta o escribir un correo, tendemos a imaginar que funciona igual en cualquier idioma. La idea resulta lógica: si es “inteligente”, debería manejar todas las lenguas con la misma soltura. Sin embargo, la realidad es bien distinta. Los modelos no rinden igual en inglés que en español, ni en español que en euskera. ¿Por qué? ¿Es una limitación tecnológica inevitable o el reflejo de desigualdades más profundas del mundo digital?

Para entenderlo, hay que mirar la base de estas tecnologías: los datos. Los modelos de lenguaje, como ChatGPT, se entrenan con cantidades inmensas de texto, tanto originales como creados por personas que los han entrenado. Pero aquí aparece la primera gran asimetría: la mayor parte del contenido escrito en la red está en inglés. No es una preferencia del modelo, simplemente es lo que hay.

Idiomas de entrenamiento

OpenAI, la empresa que hay detrás de ChatGPT, y otras compañías no publican porcentajes exactos del peso de cada idioma en el entrenamiento, y los modelos tampoco pueden calcularlos con los datos que manejan. Aun así, la tendencia es evidente: el inglés domina con diferencia este contexto, seguido por grandes idiomas globales como el español, el francés o el alemán. Con bastante distancia, encontramos lenguas con presencia digital limitada como son el catalán o el galés. Y a una distancia aún mayor, idiomas minoritarios cuyo rastro textual en internet es escaso o casi inexistente.

Con esta distribución, el resultado es previsible: los modelos funcionan mejor en los idiomas con más datos. No se trata de afinidad, sino de oportunidad de aprendizaje. Cuando un modelo ve millones de ejemplos en inglés, aprende mejor su gramática, su vocabulario, sus distintos registros y su trasfondo cultural. En cambio, cuando recibe pocos ejemplos en una lengua, tiene menos material para deducir patrones fiables.

"La más alta entre las que están": Paramount desafía a Netflix y presenta millonaria oferta por Warner Bros
Lee También

"La más alta entre las que están": Paramount desafía a Netflix y presenta millonaria oferta por Warner Bros

Esto explica por qué, en algunos idiomas, sobre todo en inglés, la inteligencia artificial parece más precisa y natural, mientras que en otros comete errores: fallos de concordancia, expresiones que suenan “traducidas”, construcciones rígidas o un estilo demasiado neutro o poco familiar. La falta de datos afecta también al tipo de escritura: lenguas que usan el alfabeto latino suelen estar mejor cubiertas que aquellas con sistemas menos extendidos digitalmente, como la escritura árabe o alfabetos indígenas, donde la escasez de ejemplos genera más errores.

¿Se puede reducir esta brecha?

Afortunadamente, la IA moderna no se limita a reproducir pasivamente esta desigualdad. Existen numerosas estrategias diseñadas para mitigar de alguna manera la falta de datos en idiomas escasos. Una de las más importantes es el equilibrado del corpus, es decir, el número de textos que emplea para responder. Así pues, incluso si el inglés es miles de veces más abundante, durante el entrenamiento se puede aumentar la frecuencia con la que el modelo consulta idiomas minoritarios y reducir la exposición al inglés. Es una forma de evitar que los idiomas minoritarios queden sepultados.

Otra técnica clave es la transferencia multilingüe. Los modelos no aprenden cada idioma por separado: comparten representaciones internas. Si el modelo aprende español, parte de ese conocimiento se aprovecha para el portugués o el italiano. Del mismo modo, el alemán refuerza al neerlandés. Esta transferencia ayuda a los idiomas con pocos datos siempre que pertenezcan a una familia lingüística con parientes más abundantes. En cambio, lenguas más aisladas –como japonés o coreano– se benefician menos de este proceso.

Enseñar idiomas a la IA

También se generan datos sintéticos mediante traducción automática o se utilizan corpus paralelos multilingües, como documentos de organismos internacionales o versiones de Wikipedia, para aprender equivalencias entre idiomas. En etapas posteriores, intervienen instructores humanos nativos, que corrigen expresiones poco acertadas, refuerzan el tono adecuado y afinan detalles culturales que los datos masivos no capturan.

Por último, existen técnicas específicas para evitar lo que se llama “olvido catastrófico”: cuando el modelo sigue entrenándose con datos en un idioma dominante y, sin querer, empieza a degradar lo que sabía en idiomas minoritarios. De esta manera, los métodos de regularización y de aprendizaje continuo ayudan a mantener cierto equilibrio.

¿Por qué la lechuga se queda lacia y se estropea tan pronto?
Lee También

¿Por qué la lechuga se queda lacia y se estropea tan pronto?

¿Qué ocurre con la diversidad lingüística?

Aun así, ningún recurso técnico puede compensar completamente la falta de datos en una lengua y con poca renovación de su contenido, por lo que el inglés sigue siendo la lengua predominante y, por tanto, la brecha persiste.

Esto abre una pregunta importante: ¿puede la inteligencia artificial contribuir a la pérdida de diversidad lingüística? Es un riesgo real. Si funciona mejor en inglés, algunas personas pueden preferir usarla en ese idioma. Si los textos generados tienden a un estilo homogéneo, pueden influir en la escritura institucional, académica o mediática y desplazar, así, registros locales. Y si una lengua apenas aparece en internet, puede quedar fuera de las herramientas tecnológicas que moldean cada vez más nuestra comunicación.

Revitalizar lenguas minoritarias

También hay un potencial opuesto: la IA puede revitalizar lenguas minoritarias. Puede generar materiales educativos, ayudar a documentar vocabulario, servir como interlocutora en procesos de aprendizaje o apoyar proyectos de digitalización. Con voluntad política y cultural, la tecnología puede ser una aliada.

Nuevo estudio revela que no entendemos a nuestros perros tan bien como creemos
Lee También

Nuevo estudio revela que no entendemos a nuestros perros tan bien como creemos

El rendimiento desigual de la IA entre lenguas no es solo una cuestión técnica: es un espejo de las desigualdades del mundo real. No se trata de preguntar si la IA habla mejor unos idiomas que otros, puesto que la respuesta resulta clara: sí, lo hace. La pregunta es cómo podemos construir un futuro en el que la tecnología no reproduzca, sino que reduzca, las brechas lingüísticas.

The Conversation

Isabel Durán Muñoz no recibe salario, ni ejerce labores de consultoría, ni posee acciones, ni recibe financiación de ninguna compañía u organización que pueda obtener beneficio de este artículo, y ha declarado carecer de vínculos relevantes más allá del cargo académico citado.