EXCLUSIVA-Google trabaja para erosionar la ventaja de Nvidia en software con la ayuda de Meta

Por Krystal Hu, Kenrick Cai y Stephen Nellis
17 dic (Reuters) - Google, de Alphabet, trabaja en una nueva iniciativa para que sus chips de inteligencia artificial ejecuten mejor PyTorch, el marco de software de IA más utilizado del mundo, en un movimiento destinado a debilitar el dominio de Nvidia en el mercado de la computación de IA, según personas familiarizadas con el asunto.
El esfuerzo forma parte del agresivo plan de Google para convertir sus unidades de procesamiento tensorial (TPU) en una alternativa viable a las GPU de Nvidia, líderes del mercado. Las ventas de TPU se han convertido en un motor de crecimiento crucial de los ingresos en la nube de Google, que trata de demostrar a los inversores que sus inversiones en IA están generando retornos.
Pero el hardware por sí solo no basta para estimular la adopción. La nueva iniciativa, conocida internamente como "TorchTPU", pretende eliminar una barrera clave que ha ralentizado la adopción de chips TPU haciéndolos totalmente compatibles y fáciles de desarrollar para los clientes que ya han construido su infraestructura tecnológica utilizando el software PyTorch, dijeron las fuentes.
Google también está considerando la posibilidad de convertir partes del software en código abierto para acelerar la adopción entre los clientes, dijeron algunas de las personas.
En comparación con intentos anteriores de apoyar PyTorch en TPUs, Google ha dedicado más atención organizativa, recursos e importancia estratégica a TorchTPU, a medida que crece la demanda de las empresas que quieren adoptar los chips, pero ven la pila de software como un cuello de botella, dijeron las fuentes.
PyTorch, un proyecto de código abierto muy apoyado por Meta Platforms, es una de las herramientas más utilizadas por los desarrolladores que elaboran modelos de IA. En Silicon Valley, muy pocos desarrolladores escriben cada línea de código que ejecutarán los chips de Nvidia, Advanced Micro Devices o Google.
En su lugar, esos desarrolladores confían en herramientas como PyTorch, que es una colección de bibliotecas y marcos de código preescritos que automatizan muchas tareas comunes en el desarrollo de software de IA. Lanzado originalmente en 2016, la historia de PyTorch ha estado estrechamente ligada al desarrollo de CUDA por parte de Nvidia, el software que algunos analistas de Wall Street consideran el escudo más fuerte de la compañía frente a sus competidores.
Los ingenieros de Nvidia llevan años asegurándose de que el software desarrollado con PyTorch se ejecuta con la mayor rapidez y eficiencia posibles en sus chips. Google, por el contrario, lleva mucho tiempo haciendo que sus desarrolladores internos de software utilicen un marco de código diferente llamado Jax, y sus chips TPU utilizan una herramienta llamada XLA para hacer que ese código se ejecute eficientemente.
Gran parte de la pila de software de IA de Google y la optimización del rendimiento se han construido en torno a Jax, ampliando la brecha entre cómo Google utiliza sus chips y cómo los clientes quieren usarlos.
Un portavoz de Google Cloud no hizo comentarios sobre los detalles del proyecto, pero confirmó a Reuters que la medida proporcionaría a los clientes la posibilidad de elegir.
"Estamos viendo una demanda masiva y acelerada de nuestra infraestructura de TPU y GPU", dijo el portavoz. "Nuestro objetivo es proporcionar la flexibilidad y la escala que los desarrolladores necesitan, independientemente del hardware que elijan para construir".
TPU PARA CLIENTES
Alphabet había reservado durante mucho tiempo la mayor parte de sus propios chips, o TPU, solo para uso interno. Eso cambió en 2022, cuando la unidad de computación en nube de Google presionó con éxito para supervisar el grupo que vende las TPU.
El movimiento aumentó drásticamente la asignación de TPU de Google Cloud y, a medida que ha crecido el interés de los clientes por la IA, Google ha tratado de sacar provecho aumentando la producción y las ventas de TPU a clientes externos.
Pero el desajuste entre los frameworks PyTorch utilizados por la mayoría de los desarrolladores de IA del mundo y los frameworks Jax para los que los chips de Google están actualmente más afinados significa que la mayoría de los desarrolladores no pueden adoptar fácilmente los chips de Google y conseguir que funcionen tan bien como los de Nvidia sin realizar un importante trabajo de ingeniería adicional. Este trabajo requiere tiempo y dinero en la acelerada carrera de la IA.
Si tiene éxito, la iniciativa "TorchTPU" de Google podría reducir significativamente los costos de cambio para las empresas que quieran alternativas a las GPU de Nvidia. El dominio de Nvidia se ha visto reforzado no sólo por su hardware, sino por su ecosistema de software CUDA, que está profundamente integrado en PyTorch y se ha convertido en el método por defecto con el que las empresas entrenan y ejecutan grandes modelos de IA.
Los clientes empresariales han comunicado a Google que las TPU son más difíciles de adoptar para las cargas de trabajo de IA porque históricamente exigían a los desarrolladores cambiar a Jax, un marco de aprendizaje automático favorecido internamente en Google, en lugar de PyTorch, que la mayoría de los desarrolladores de IA ya utilizan, dijeron las fuentes.
ESFUERZOS CONJUNTOS CON META
Para acelerar el desarrollo, Google está trabajando estrechamente con Meta, el creador y administrador de PyTorch, según las fuentes. Los dos gigantes tecnológicos han estado discutiendo acuerdos para que Meta acceda a más TPU, un movimiento del que informó por primera vez The Information.
Las primeras ofertas para Meta se estructuraron como servicios gestionados por Google, en los que clientes como Meta instalaban chips de Google diseñados para ejecutar software y modelos de Google, y Google proporcionaba soporte operativo.
Meta tiene un interés estratégico en trabajar en el software que hace que sea más fácil de operar las TPU, en un intento de reducir los costos de inferencia y diversificar su infraestructura de IA lejos de las GPU de Nvidia para ganar poder de negociación, dijeron las personas.
Meta declinó hacer comentarios.
Este año, Google ha empezado a vender TPU directamente en los centros de datos de los clientes en lugar de limitar el acceso a su propia nube. Amin Vahdat, un veterano de Google, fue nombrado jefe de infraestructura de IA este mes, reportando directamente al presidente ejecutivo Sundar Pichai.
Google necesita esa infraestructura tanto para ejecutar sus propios productos de IA, incluido el chatbot Gemini y la búsqueda impulsada por IA, como para abastecer a los clientes de Google Cloud, que vende acceso a las TPU a empresas como Anthropic. (Reporte de Krystal Hu, Kenrick Cai y Stephen Nellis en San Francisco; Editado en Español por Ricardo Figueroa)



