De modo análogo a otras batallas del pasado, pero con reverberaciones mucho más significativas, profundas y eventualmente riesgosas, la nueva confrontación en el frente tecno es por lo que dijimos, hemos dicho y vamos a decir online. Foros, redes sociales, artículos, comentarios, debates, blogs y demás. Cientos de miles de millones de palabras que los modelos de lenguaje emplean, hasta ahora sin cargo, para entrenarse. Esa gratuidad podría llegar pronto a su fin.

En estos días se supo que Reddit, uno de los foros más populares y longevos de Internet, pionera en esto que llamamos redes sociales, empezará a cobrar por darles acceso a su colosal archivo de 18 años de debate y conversación humana a los grandes modelos de lenguaje (LLM; por sus siglas en inglés). Léase, GPT. Ahí tienen, a los que disfrutan de las analogías fáciles: el nuevo petróleo es el discurso público . Un LLM no sirve para nada sin entrenamiento, y el entrenamiento se basa en los textos escritos por humanos hoy disponibles libremente en Internet.

El sitio de Reddit; estética retro, pero siempre actualizado y con más de 50 millones de usuarios activos

Twitter se propone lo mismo. A Elon Musk, que se quedó afuera de esta nueva fiesta VIP, le parece que los modelos de lenguaje no pueden entrenarse con todo lo que hemos dicho en Twitter sin pagar. Así, Microsoft (el principal inversor de OpenAI, la empresa que creó ChatGPT) y cualquier usuario que emplee un modelo de lenguaje por medio de una API deberán abonar un precio por usar todos estos años de tweets. Según lo que sabemos, Twitter no quiere seguir regalando graciosamente ese monumental acervo de debates, discusiones, ataques verbales, descalificaciones, amenazas, pronunciamientos, discursos e hilos interminables.

Las oficinas de Twitter en San Francisco, Estados Unidos

(Una API, para los que se están preguntando qué significan estas siglas, es el modo de darle a terceros acceso a ciertas funciones de un software sin abrir el código fuente. Viene de Application Programming Interface y es la forma en que desde 2020 GPT, el modelo de lenguaje de OpenAI, está disponible para otras empresas.)

Wikipedia, uno de los corpus más valiosos para GPT (y otros LLM), de momento no dejó trascender que piense ponerle un coto a sus artículos. No tendría mucho sentido, desde el momento en que es una enciclopedia libre. Con un adicional que le caben a Twitter y a Reddit. ¿Qué ocurriría con los modelos de lenguaje de código fuente abierto? Dolly, por ejemplo. En principio, las licencias compatibles con el software libre contemplan todas estas situaciones, aunque ya sabemos que eso no necesariamente significa que vayan a resolver el conflicto. Conflicto por otro lado paradójico: en plena era de la imagen, el oro está hecho de texto .

Satya Nadella la vio clarísima y en 2019 apostó por OpenAI GETTY IMAGES

Datito: desde este mes, las compañías ya no podrán poner publicidad en Twitter por medio de Microsoft Advertising, cosa enfureció a Elon, que a su vez ya venía de tener un encontronazo con Apple por el tema de la publicidad. Money, money, money.

Presentación en sociedad de Ernie, el bot de Baidu, motorizado por el modelo de lenguaje Ernie 3.0-Titan

A todo esto, China, que fiscaliza rigurosamente lo que se dice online, se encuentra con un problema tan inesperado como previsible. Debido a los controles, la censura y las penalizaciones, hay mucho menos texto en chino en Internet que en inglés o en español. A pesar de ser la segunda lengua más hablada del mundo, los chinos conversan poco en línea, y por lo tanto Ernie, el LLM de Baidu –algo así como el Google chino–, tiene poco alimento. Cuando decíamos que la censura era una mala idea no estábamos pensando en esto, pero ahí tienen; incluso es perniciosa cuando intentás competir en un terreno tan crítico como la inteligencia artificial. La censura atrasa, si a alguien necesita un título.

De quién es lo que decimos

Independientemente de lo que sostengan los términos y condiciones de cada plataforma, y dejando de lado los regímenes que censuran lo que se dice online, ¿tienen derecho Reddit, Twitter y otras plataformas a lucrar con lo que hemos dicho? Es un área gris, desde el punto de vista legal. Digamos que sí. Pero acá detonan un número de problemas. Si a mediano y largo plazo la IA podría llegar a beneficiarnos a todos, ¿acaso no sería mejor que esos corpus de datos estén disponibles?

Aparece ahí –una vez más en la industria tecno– la concentración. Puesto que entrenar un modelo de lenguaje es costosísimo, las compañías que poseen esta tecnología son muy pocas: Anthropic, Amazon, Google, Meta, OpenAI y ahora la flamante X.AI, de Musk (que hace un par de semanas clamaba que pararan el entrenamiento de los modelos de lenguaje). ¿Le cobrará Twitter también a X.AI? No creo. Twitter como compañía ya no existe, ahora es parte de X Corp, el conglomerado de Musk.

Por lo tanto, si los modelos de lenguaje de software libre encuentran también una barrera en el acceso a los datasets de texto humano, entonces la concentración no hará sino aumentar. Pero nada es tan lineal en momentos disruptivos. Si no se les cobra un centavo a OpenAI, Google, Meta, Amazon y demás, entonces crecerán mucho más rápido y conseguirán la hegemonía mucho antes.

Es una encerrona. No la primera. Ni la última. Pero es más decisiva que las otras, con la sola excepción de la que plantea la defensa de la privacidad, una causa que hoy podemos dar definitivamente por perdida.

En esta encerrona, todo lo que hemos dicho, bien o mal, correcta o incorrectamente razonado, sesgado casi siempre, pero siempre creado por nuestras mentes humanas, y por eso incalculablemente valioso , ¿no debería pertenecerle a esta altura a toda la civilización? No hay una respuesta simple. Ni siquiera GPT pudo responderme este planteo con algo mejor que un “Sí”, “No” y “Es difícil”, todo a la vez. Como niños estadísticos, los modelos de lenguaje devoran lo que dicen los humanos y luego lo emulan. Sin eso, no sirven, no pueden funcionar.

ChatGPT tampoco tiene claro qué hacer con los datasets. Dice que es un tema complejo. Sí, claro, ya sabíamos eso Ariel Torres

La IA está aquí, y está aquí hace rato. ¿Qué es mejor para las próximas generaciones? ¿Que las compañías que hasta ahora nos sumieron en la alucinación del todo gratis lucren con el discurso público? ¿O, por el contrario, que los modelos de lenguaje, de cualquier pelaje y licencia, puedan alimentarse de ese discurso libremente? La buena noticia es, en todo caso, que, al revés que el petróleo, este es un combustible que no se consume. Aunque el entrenamiento de los LLM contamina. Y mucho.