Por Eduardo Baptista

PEKÍN, 18 sep (Reuters) - El desarrollador chino de inteligencia artificial DeepSeek dijo que gastó US$294.000 en entrenar su modelo R1, una cifra mucho menor a la de sus rivales estadounidenses, en un artículo que probablemente reavivará el debate sobre el lugar que ocupa Pekín en la carrera por el desarrollo de la IA. La rara actualización de la empresa de Hangzhou —la primera estimación que hace pública de los costos de formación de R1— apareció en un artículo revisado por pares en la revista académica Nature publicado el miércoles. La publicación en enero de lo que DeepSeek consideraba sistemas de IA de bajo costo provocó una caída de los valores tecnológicos entre los inversores mundiales, que temían que los nuevos modelos amenazaran el dominio de los líderes de la IA, como Nvidia.

Desde entonces, la empresa y su fundador, Liang Wenfeng, han desaparecido de la escena pública, salvo por algunas actualizaciones de sus productos. El artículo de Nature, en el que Liang figuraba como uno de los coautores, afirma que el modelo R1 de DeepSeek, centrado en el razonamiento, costó US$294.000 y utilizó 512 chips H800 de Nvidia. Una versión anterior del artículo publicada en enero no contenía esta información. Sam Altman, presidente ejecutivo del gigante estadounidense de la IA OpenAI, dijo en 2023 que lo que él llamaba "entrenamiento de modelos fundacionales" había costado "mucho más" de US$100 millones, aunque su empresa no ha dado cifras detalladas de ninguno de sus lanzamientos. Los costos de formación de los modelos de lenguaje de gran tamaño que alimentan los chatbots de IA se refieren a los gastos derivados del funcionamiento de un clúster de potentes chips durante semanas o meses para procesar grandes cantidades de texto y código. Algunas de las declaraciones de Deepseek sobre sus costos de desarrollo y la tecnología utilizada han sido cuestionadas por empresas y funcionarios estadounidenses. Los chips H800 que mencionó fueron diseñados por Nvidia para el mercado chino después de que Estados Unidos ilegalizó en octubre de 2022 la exportación de sus chips de IA más potentes H100 y A100 a China. Funcionarios estadounidenses dijeron a Reuters en junio que DeepSeek tiene acceso a "grandes volúmenes" de chips H100 que fueron adquiridos después de que se implementaron los controles de exportación de Estados Unidos. Nvidia dijo entonces a Reuters que DeepSeek ha usado chips H800 adquiridos legalmente, no H100. En un documento de información complementaria que acompaña al artículo de Nature, la empresa reconoció por primera vez que sí posee chips A100 y dijo que los había utilizado en las fases preparatorias del desarrollo. "En lo que respecta a nuestra investigación sobre DeepSeek-R1, utilizamos las GPU A100 para preparar los experimentos con un modelo más pequeño", escribieron los investigadores.

Después de esta fase inicial, R1 se entrenó durante un total de 80 horas en el clúster de 512 chips H800, añadieron.

Reuters ha reportado anteriormente que una de las razones por las que DeepSeek pudo atraer a las mentes más brillantes de China fue porque era una de las pocas empresas nacionales que operaba un clúster de supercomputación A100. (Reportaje de Eduardo Baptista; Edición de Andrew Heavens; Editado en español por Javier López de Lérida)