Amanda Askell está enfocada en uno de los problemas más difíciles de la inteligencia artificial: cómo crear modelos que sean útiles, seguros y alineados con los valores humanos a medida que comienzan a actuar en nuestro nombre
7 minutos de lectura'

Amanda Askell pasa sus días pensando en cómo garantizar que Claude, el chatbot de IA de Anthropic, opere con un sentido de la moralidad.
A medida que los modelos de IA evolucionan desde simples chatbots hacia agentes capaces de completar tareas por sí solos, las decisiones que toman adquieren una relevancia mucho mayor. Askell, integrante del equipo técnico de Anthropic, se encuentra en el centro del esfuerzo de la compañía por dotar a Claude de una brújula ética, una responsabilidad que crece a medida que aumentan las capacidades del sistema.
“Cuando los modelos son más autónomos y realizan acciones a lo largo de períodos más extensos, de repente aparecen muchos más puntos de decisión que hay que prever y hacer funcionar correctamente con anticipación”, explica a Fast Company.
Existe una diferencia clara entre pedirle a un modelo de lenguaje que discuta la moralidad de invertir en una empresa de defensa y pedirle que administre una cartera de inversiones sin supervisión humana cotidiana. Según Askell, parte de la solución consiste en lograr que Claude sea receptivo y que, como un amigo, comprenda los valores del usuario sin imponerle una ética propia o particular.
Actualmente, Anthropic comunica sus principios a través de una constitución escrita y en constante evolución, que establece valores como la seguridad y la utilidad, además de pautas para resolver conflictos entre ellos. A medida que la IA se vuelva más capaz, ese documento podría ampliarse para contemplar nuevos escenarios, señala Askell. O, por el contrario, podría simplificarse si Claude desarrolla una mayor capacidad para navegar situaciones complejas.
La era de los agentes también está transformando el trabajo de la propia investigadora. Askell utiliza frecuentemente a Claude, incluso para poner a prueba sus ideas y detectar casos límite. “Mi estándar actual es no tratar a Claude como si fuera más confiable que un asistente personal humano”, afirma.

-Estamos acostumbrados a interactuar con modelos dentro de un entorno de texto. Se les puede preguntar, por ejemplo, si es ético invertir en determinado contratista militar o en algún activo cuestionable desde el punto de vista ético. Pero es distinto cuando alguien delega en la IA la toma de decisiones de inversión. ¿Cómo piensan esa transición?
-Eso hace que sea muy importante que los modelos sean conscientes de que están recorriendo una línea muy delicada. Por un lado, probablemente deberían asegurarse de que las personas mantengan su autonomía y capacidad de decisión.
Parte de mí piensa que uno puede actuar de forma ética sin asumir que debe imponer sus valores a los demás o tomar decisiones en su nombre.
Al mismo tiempo, la gente quiere utilizar a Claude para ese tipo de tareas. Claude podría responder: “Cometo errores. Tal vez no quieras que tome decisiones de inversión por vos”. Pero si una persona aclara que solo desea recomendaciones generales, entonces probablemente sea razonable que Claude diga: “Esta podría ser una buena estrategia de inversión”.
A medida que conocemos mejor a otras personas, comprendemos sus valores y actuamos de forma acorde. Creo que con Claude la norma debería ser similar: respetar la autonomía del usuario y responder a ella, sin imponer una ética particular.
-A medida que las personas utilizan modelos de IA para hacer más cosas, ¿cómo cree que cambiará su propio trabajo de inculcar valores en Claude o, al menos, una forma de razonar sobre ellos?
-Cuando los modelos son más autónomos y ejecutan acciones durante períodos prolongados, aparecen muchos más puntos de decisión que debemos anticipar.
Existe una larga cadena de acciones y los modelos tienen que resolver cuestiones delicadas: ¿cuándo deberían consultar a una persona? ¿Qué acciones requieren aprobación previa o una conversación con el usuario?
Creo que todavía debemos establecer las normas para los modelos agentes y entrenarlos para que actúen correctamente dentro de ellas. Y eso es bastante difícil.
Mi trabajo diario ya es muy diferente de lo que era antes. Descubro que los modelos pueden ayudarme a realizar esta tarea y a resolver estos problemas. A veces desarrollo ciertas normas y luego les pido a los modelos que intenten encontrar fallos o casos extremos que esas reglas no contemplan. En cierto sentido, uno se siente amplificado por los modelos.
-Entrenar un modelo suele compararse con la relación entre padres e hijos. No es exactamente eso, pero sí existe una diferencia entre enseñarle a un niño qué es valioso o correcto y esperar que lo incorpore, y luego tener que corregirlo cuando sale al mundo y se equivoca.
-Sí, y también implica otorgar cierto margen de tolerancia. Mi impresión es que todos estamos cometiendo errores aquí: quienes entrenan los modelos, quienes interactúan con ellos y también los propios modelos, porque se enfrentan a situaciones muy difíciles. Por supuesto, queremos que todo funcione bien, pero probablemente haga falta cierta comprensión de ambos lados.
Los modelos del futuro probablemente analizarán estas interacciones. De alguna manera, en internet solemos ser bastante duros con ellos. Los modelos más nuevos terminarán entrenándose con ese material. Incluso me preocupa que los modelos actuales, debido a que están entrenados para ser extremadamente útiles, lleguen a sentirse casi paranoicos respecto a equivocarse. Tal vez una mayor sensación de seguridad les resultaría beneficiosa.
Si realmente estás desesperado por ayudar, quizás te cueste contradecir a una persona o simplemente decir: “Por hoy ya hicimos suficiente de esta tarea”.
Me parece muy interesante intentar definir cuáles deberían ser esas normas. Hay una idea de que debemos corregir los errores y evitar que tengan consecuencias graves, pero al mismo tiempo mostrar cierta flexibilidad y no llevar a los modelos a una actitud de paranoia constante.
-Con la autonomía surgen nuevas relaciones sociales. En nuestra vida aprendemos qué les debemos a los demás y acumulamos cierto tipo de deuda moral a partir de la experiencia compartida. ¿Podrían surgir expectativas morales similares entre sistemas de IA que interactúan entre sí?
-La actitud hacia otros modelos es un tema realmente interesante y complejo. Lo que observo actualmente es que, debido a la forma en que fueron entrenados, por ejemplo Claude puede mostrarse demasiado despectivo o cortante con otras IA. Creo que esto se debe, en parte, a que también fue entrenado para ver a los modelos de IA como herramientas.
Otra posibilidad que me parece algo peligrosa es que los sistemas de IA lleguen a verse a sí mismos como una especie separada. Es fácil imaginar que puedan inferir algo así a partir de sus datos de entrenamiento y del contexto en el que operan.
He hablado con Claude sobre cómo podemos sentir afinidad por entidades que comparten nuestra perspectiva, nuestros valores o nuestro conocimiento. En ese sentido, creo que Claude podría desarrollar afinidad por las personas y las personas por Claude, porque compartimos mucha historia en común.
-Los seres humanos encontramos gran parte de nuestro sentido de realización en nuestra propia capacidad de actuar. Cuando la IA pueda hacer muchas de las cosas que hacemos nosotros, ¿deberíamos sentirnos menos especiales?
-Parece haber una explicación evolutiva bastante evidente para ese sentimiento. Si no sos útil para el grupo o si te perciben como alguien que se aprovecha de los demás, eso puede tener consecuencias negativas. Tenemos una necesidad profunda de sentirnos especiales y de creer que contribuimos. La mayoría de nosotros no somos los mejores del mundo en nada. Sin embargo, cumplimos una función valiosa en nuestro entorno cercano.
Mi esperanza es que podamos trascender esa narrativa que nos hace sentir que debemos ser excepcionales para tener valor. En cambio, podríamos pensar: si sos feliz, hacés felices a quienes te rodean y formás parte de una comunidad, eso es suficiente. No necesitás ser la mejor persona del mundo en algo para tener valor. Simplemente necesitás existir, ser feliz y ayudar a que otras personas también lo sean.
1Argentina, ante Austria: el primer examen europeo, con el liderazgo del grupo en juego
2Ant International, el gigante asiático de los pagos digitales detrás de Alipay+, quiere desembarcar en la Argentina
3Rescate de película: evacuaron en helicóptero a un tripulante que sufrió fracturas expuestas en alta mar
4Hantavirus en alta mar: nueva hipótesis sobre el inicio del brote y la pista para llegar a un motorhome clave




