Por qué el español necesita IAs propias: “ChatGPT tiene los valores de un hombre blanco, universitario y de la costa oeste de EE.UU.”

Dos académicas latinoamericanas, la argentina Luciana Benotti y la chilena Jocelyn Dunstan, explican por qué son importantes los esfuerzos hispanos para ampliar los modelos de lenguaje disponibles en idiomas distintos al inglés

30 de agosto de 2024
15:41
6 minutos de lectura'

Jocelyn Dunstan, de la Pontificia Universidad Católica de Chile, y Luciana Benotti, de la Universidad Nacional de CórdobaGentileza Fundación Vía Libre

El lanzamiento de ChatGPT en noviembre de 2022 asombró al mundo por lo bien que escribía en cualquier lengua. Ese éxito ocultó que un modelo que sabe responder cualquier pregunta esconde más valores detrás de esa gramática o sintaxis correcta. Con el paso del tiempo aparecen cada vez más trabajos que destacan la importancia de entrenar modelos con lenguas y valores distintos: “Necesitamos la infraestructura técnica para alentar el entrenamiento de modelos de IA con datos culturales franceses y europeos”, dice un informe del gobierno francés de marzo, que insiste en que sin IA propia, Europa se arriesga “a perder control del futuro”.

No es extraño que el Gobierno francés dé importancia a los datos culturales. “Cuando uno habla de modelos de español se refiere a lo lingüístico, pero los modelos de lenguaje incluyen una posición geográfica, de valores. Los modelos como ChatGPT tienen valores parecidos a los de un hombre de unos 30 años, blanco, que fue a la universidad, nacido en la costa oeste de Estados Unidos”, dice Luciana Benotti, informática con un doctorado en lingüística computacional e investigadora de la Universidad Nacional de Córdoba (Argentina).

Para ampliar este panorama anglocéntrico, el Gobierno de España anunció su proyecto de modelo de lenguaje Alia. Al menos un 20% del total de textos con los que se entrene se corresponderán con lenguas habladas en España, mientras que ChatGPT y sus competidores no alcanzan el 5% en español. Eso hará que su fiabilidad sea mayor para los hispanohablantes, pues se corregirán problemas típicos como los sesgos: el uso del género masculino y el femenino es distinto en castellano respecto al inglés, por ejemplo.

El Centro Nacional de Inteligencia Artificial de Chile también trabaja en “un gran modelo abierto de lenguaje de latinoamericanos para latinoamericanos” llamado de momento LLM latino. Aunque la capacidad de computación es menor que en el modelo español, el objetivo es similar, más centrado en la región. Hay asociaciones de especialistas voluntarios que también trabajan para lograr mejores corpus y recursos en español.

El modelo Alia es más cercano y útil para los hablantes del español que los entrenados sobre todo en inglés: “Hay una enorme brecha entre la cantidad de recursos y modelos de lenguaje para el inglés y para el español. Apoyarnos como países hispanohablantes nos ayudará a avanzar más rápido”, dice Jocelyn Dunstan, investigadora de la Pontificia Universidad Católica de Chile. Pero desde España la lengua sigue viéndose como algo distinto: “La RAE recoge el 80% de palabras de España y el 20% de Latinoamérica, es decir, estamos sub-representados”, agrega.

El peso del español

América Latina ha tendido a ver las innovaciones tecnológicas de lejos. Pero con esta novedad tiene una herramienta básica que le cae cerca: el español. “Aquí nunca somos el mercado principal. La gente piensa que el poder de ChatGPT es increíble porque les da por ejemplo un menú con calorías y creen que puede resolver todo”, añade Dunstan, y cuenta el caso de un proyecto con la lengua rapa nui con ChatGPT, en el que parecía que lo hablaba, pero era errático o se inventaba fonemas.

Un modo de entender la distancia entre lo que ocurre en Estados Unidos y en América Latina en este sector es la asociación que reúne a los académicos que se dedican a la lingüística computacional. Todos están en la NAACL (lingüistas computacionales de América del Norte, en sus siglas en inglés). En el último encuentro de la NAACL había unos 50 investigadores latinoamericanos y otros 50 latinos estadounidenses, entre un total de unos 2000 participantes.

Esta diferencia abrumadora influye, obviamente, que la lengua más analizada en los artículos científicos es el inglés. “Cuando un artículo de procesamiento del lenguaje natural trabaja solo con el español es muy difícil que sea aceptado en una conferencia de primer nivel. Se espera que sea un estudio multilingüe y que incluya inglés, italiano, francés, y otros. Este requerimiento no se da para el inglés, donde las cantidades de texto son además enormes. La gente que trabaja con el inglés puede hacerlo solo en ese idioma y nadie reclama”, dice Dunstan.

Datos baratos y viejos

Benotti trabaja junto a la Fundación Vía Libre y con financiación internacional de la Fundación Mozilla en explicar cómo funcionan los sesgos y riesgos de estos modelos según su origen y entrenamiento: “Dado que los modelos son entrenados con grandes volúmenes de datos baratos y viejos de internet, a menudo absorben prejuicios existentes. Esto puede llevar a resultados que refuercen estereotipos como ‘los mapuches son borrachos’ o ‘las mujeres, a la cocina’. Hay mucho trabajo en nuestra área de investigación en reducir estos sesgos y alinear estos modelos desde una perspectiva de valores del norte global”, explica esta lingüista.

Con las variantes del español en América Latina, a menudo ocurre que popularmente tienen menos empaque. A algunos les puede parecer raro que un modelo de lenguaje las usara sin tener en cuenta el contexto: “Estamos muy acostumbrados a que el español estándar sea lo que está bien, y usar estas palabras más regionales está mal visto. Usar un lenguaje más neutro parece darle mayor autoridad y conocimiento”, dice Benotti.

En los últimos años, la investigación sobre cómo responden estos modelos a preguntas de distintos ámbitos, qué tipo de palabras usan o qué entienden de los distintos dialectos de una lengua grande o los detalles de lenguas más pequeñas. Es un trabajo incipiente. Dunstan acaba, por ejemplo, de terminar un artículo con investigadores del BSC donde han mirado si los modelos desarrollados en España sirven para el contexto chileno, pero en algo muy específico: el lenguaje oncológico. Vieron que podía usarse, pero con una advertencia: los informes oncológicos suelen ser más escritos con más calma que en otras especialidades. “Esto no implica que el texto de urgencias o con abreviaturas funcionará igual”, dice Dunstan.

Por Jordi Pérez Colomé

EL PAIS@Ediciones El Pais, S.L.U.