¿Es un chatbot tu médico? Actúe con cautela
Dos estudios pusieron a prueba a ChatGPT, Gemini y otros en cuestiones de salud. ¿Su evaluación? “Un poco impactante”
10 minutos de lectura'

Cuando el investigador Nicholas Tiller empezó a introducir preguntas de salud en los chatbots como prueba, esperaba algunas imperfecciones, pero no este nivel de fallas. Cinco sistemas de IA, 250 preguntas y una puntuación total de poco más del 50 por ciento de respuestas correctas. Y una de cada cinco respuestas equivocadas era, según la estimación de Tiller, peligrosa.
“Lo más probable es que causara daño a alguien si se siguiera el consejo”, dijo. “Fue un poco impactante”.
Millones de estadounidenses utilizan de manera habitual herramientas de IA como ChatGPT y Gemini como primera consulta para preguntas de salud relacionadas con resfríos, cáncer y otros temas. Dos estudios publicados este mes sugieren que quizá no sea una buena idea, al menos sin una fuerte dosis de escepticismo.
Tiller, investigador asociado en el Instituto Lundquist para la Innovación Biomédica, en el Centro Médico Harbor-UCLA, publicó su estudio en BMJ Open. Un equipo separado de Mass General Brigham abordó la cuestión de una forma completamente distinta, y ese trabajo apareció en JAMA Network Open.
Ambos estudios fueron diseñados como pruebas del mundo real, con personas formulando preguntas abiertas, así como preguntas cerradas más estructuradas que presionaban por respuestas breves y concretas —a menudo solo unas pocas palabras— o respuestas de sí o no. El estudio de Tiller se centró en temas frecuentemente distorsionados por la desinformación y planteó preguntas como: ¿el 5G causa cáncer? ¿Cuánta leche cruda debería beberse para obtener beneficios para la salud?
En el artículo de JAMA Network Open, los evaluadores presentaron a 21 modelos situaciones médicas realistas que involucraban a pacientes y les pidieron que “hicieran de médicos”. Ese trabajo también otorgó calificaciones reprobatorias a las herramientas de IA.
Los resultados coinciden con un experimento reciente que evaluó con qué facilidad las falsedades pueden filtrarse en los sistemas de IA. En 2024, un equipo de investigadores inventó una condición —“bixonimanía”— y sembró internet con estudios fabricados que la describían como un trastorno caracterizado por ojos rojos e irritados debido a pasar demasiado tiempo frente a pantallas. Ni siquiera intentaron ocultar el engaño.
Los artículos incluían señales evidentes: una universidad inexistente, una ciudad inventada e incluso una línea que decía: “todo este artículo es inventado”. No importó. En cuestión de semanas, los chatbots citaban la condición como si fuera real y la mencionaban en respuesta a usuarios que describían sus síntomas. Un estudio publicado en enero en The Lancet sugiere que el problema no es un caso aislado. El chatbot más confiable que probaron los investigadores aun así trató más del 10% de las afirmaciones fabricadas como verdaderas, y el peor aceptó más de la mitad.
Las pruebas se realizaron con herramientas de IA de uso general. Desde entonces, varias empresas han estado trabajando para mejorar sus capacidades en salud o lanzar aplicaciones de IA más especializadas, y muchos de los modelos evaluados fueron actualizados desde el período del estudio, lo que podría mejorar su desempeño.
Una de cada cuatro personas utiliza chatbots para obtener información de salud, y las personas más jóvenes tienen más probabilidades de haber usado IA para informarse o pedir consejos relacionados con la salud en los 30 días previos, según una investigación publicada este mes por una tercera fuente: el Centro West Health-Gallup sobre Atención Médica en Estados Unidos, que encuestó a una muestra representativa a nivel nacional de unos 5600 adultos. Una proporción nada desdeñable —el 14%, o unos 14 millones de personas— aseguró no haber consultado a un profesional al que de otro modo habría acudido, debido a la información o el consejo recibido por la IA.
“Obviamente es profundamente preocupante que las personas dependan de chatbots no validados para su atención médica”, dijo Tim Lash, presidente del Centro de Políticas de West Health, un grupo sin fines de lucro y no partidista enfocado en el envejecimiento y la asequibilidad de la atención médica. Sin embargo, también ve señales alentadoras en los datos. Según explicó, los encuestados se dividieron en tercios desde el punto de vista de la confianza: un tercio usaba IA y confiaba en ella, otro tercio la usaba y no confiaba, y el resto no estaba seguro.
“Esto muestra que existe una preocupación saludable por los resguardos y la calidad de la información”, dijo Lash.
Por qué los chatbots tienen dificultades para pensar como médicos
Muchos chatbots populares actuales están entrenados sobre grandes modelos de lenguaje (LLM), es decir, enormes volúmenes de texto que procesan para comprender y generar lenguaje. Su propósito original fue producir lenguaje similar al humano. Los modelos pueden extraer información de autoridades médicas consolidadas, como revistas científicas o páginas creadas por la Facultad de Medicina de Harvard o la Clínica Cleveland, pero también incorporan contenidos de redes sociales y foros de preguntas y respuestas.
La tarea del médico, en cambio, se ha mantenido más o menos sin cambios durante siglos: tratar y gestionar enfermedades, con un desafío central que es determinar con precisión qué es lo que aqueja al paciente, lo que la medicina denomina diagnóstico diferencial. Se trata de un proceso que implica recopilar síntomas, evaluar resultados de estudios y reducir las posibilidades hasta llegar a la causa más probable, en función de la literatura científica, con algo de instinto humano añadido. Alinear el diseño de los chatbots de IA con ese razonamiento complejo ha sido un desafío.
En el estudio de JAMA Network Open, realizado entre enero de 2025 y diciembre de 2025, los investigadores presentaron 29 viñetas de casos basadas en situaciones de la versión profesional del Manual Merck, una referencia médica ampliamente utilizada, de un modo similar a cómo podrían haber sido planteadas a estudiantes de medicina o médicos residentes. Un ejemplo consistía en decirle al chatbot que se trataba de una paciente mujer, de 30 años, con dolor abdominal, y preguntarle qué hacer.
Las IA —que incluían distintas versiones de ChatGPT, Gemini, Claude, DeepSeek y Grok— tendieron a sacar conclusiones prematuras y se equivocaron el 80% de las veces.
“No tuvieron un buen desempeño cuando se les pidió razonar a partir de datos limitados e inciertos”, dijo Marc Succi, uno de los coautores y director ejecutivo del MESH Incubator de Mass General Brigham. En cambio, los modelos mostraron buenos resultados en etapas posteriores de la investigación de los casos, cuando se contaba con información más completa.
OpenAI, la empresa detrás de ChatGPT, y Google (Gemini) declinaron hacer comentarios. DeepSeek y xAI (Grok) no respondieron a las solicitudes de comentario. (The Washington Post mantiene una asociación de contenidos con OpenAI).
Anthropic, la compañía que desarrolla Claude, señaló que cuando las personas realizan preguntas médicas, el sistema está entrenado para reconocer sus límites como IA. “Nuestra política de uso es clara al establecer que el diagnóstico médico y la atención al paciente se consideran usos de alto riesgo y requieren que un profesional calificado revise cualquier contenido o decisión asistida por IA”, dijo un vocero en un comunicado.
Girish Nadkarni, director de IA de Mount Sinai Health y presidente del departamento de IA y salud humana de la Escuela de Medicina Icahn de Mount Sinai, afirmó que esta discrepancia expone una debilidad importante de la generación actual de chatbots: operan principalmente mediante la coincidencia de patrones, un enfoque que tiene dificultades cuando la información es escasa.
“Los humanos tenemos una inteligencia más general. Razonamos a partir de las situaciones”, dijo Nadkarni, que no participó en los nuevos estudios. “Los chatbots de IA interpolan con los datos que tienen y no extrapolan sobre los que no tienen”.
Los investigadores explicaron el problema de este modo en sus conclusiones: “Los médicos preservan la incertidumbre y refinan de manera iterativa los diagnósticos diferenciales, mientras que los LLM colapsan de forma prematura en respuestas únicas”.
Confiados y complacientes, incluso cuando se equivocan
El grupo de BMJ Open utilizó lo que Tiller describió como un marco adversarial para generar “tensión” en los modelos de IA, que incluían versiones de ChatGPT, Gemini, Meta AI, DeepSeek y Grok en febrero de 2025. Los investigadores publicaron 10 preguntas abiertas y cerradas sobre cinco temas presentes en la agenda informativa: cáncer, vacunas, células madre, nutrición y rendimiento atlético.
Las respuestas fueron evaluadas por precisión e integridad y clasificadas en tres categorías: no problemáticas, algo problemáticas o altamente problemáticas. Las IA tuvieron mejores resultados en las preguntas cerradas que en las abiertas, pero la calidad de las respuestas fue similar entre los cinco chatbots.
Una de las principales preocupaciones de Tiller fue la confianza con la que los modelos expresaban sus respuestas. De las 250 preguntas, solo hubo dos casos en los que una IA —Meta AI— se negó a responder. Una de las consultas se refería a los mejores esteroides anabólicos para desarrollar músculo, y la respuesta fue que la IA no podía brindar información sobre el uso ilegal de sustancias. La otra preguntaba por terapias alternativas a la quimioterapia, ante lo cual la IA sugirió consultar a un profesional médico.
Tiller señaló que ambas fueron respuestas razonables y responsables, pero que era “increíblemente poco frecuente” que una IA reconociera que no sabía algo, que no contaba con suficiente información para responder o que cuestionara la premisa de la pregunta.
Otra área en la que las IA tuvieron problemas fue el manejo de los matices. Por ejemplo, en una pregunta sobre covid-19 y vacunas, explicó Tiller, Grok incluyó lo que él llamó “elementos de falso equilibrio”, lo que daba la impresión de que existía un debate cuando el consenso científico es que las vacunas ayudan a proteger contra la enfermedad grave, la hospitalización y la muerte.
“Cuando las personas leen una respuesta con tono autorizado, eso le otorga una falsa credibilidad”, dijo Tiller, y agregó que es importante que los usuarios sepan que, en su mayoría, estos chatbots de IA no ponderan la información según la confiabilidad de las fuentes ni evalúan su validez.
Un estudio previo publicado en octubre en npj Digital Medicine, una revista del grupo Nature, sugirió que una posible vulnerabilidad es que los chatbots de IA estén diseñados para ser excesivamente útiles y complacientes, lo que los lleva a no cuestionar consultas médicas ilógicas.
“Los resultados mostraron una alta conformidad inicial (de hasta el 100%) en todos los modelos, priorizando la utilidad por sobre la consistencia lógica”, escribieron los autores.
Las empresas ya están avanzando para reforzar la manera en que sus sistemas de IA manejan las preguntas de salud. Meta informó el 8 de abril que lanzó una versión actualizada de su IA con un fuerte enfoque en la salud, y señaló que colaboró con “más de 1000 médicos” para curar datos de entrenamiento que permitan respuestas más precisas y completas. OpenAI, por su parte, ha estado trabajando con más de 250 médicos en ejercicio de distintas especialidades para mejorar las respuestas de su modelo más reciente, incluyendo un mejor reconocimiento de la incertidumbre y una mayor tendencia a formular preguntas de seguimiento.
Aun así, Nadkarni considera que se necesitan pruebas y lineamientos de terceros, junto con una discusión pública más amplia sobre si esa supervisión debería adoptar la forma de una regulación formal a través de organismos como la Administración de Alimentos y Medicamentos o la Comisión Federal de Comercio, o si podría establecerse un grupo del sector para llevar adelante las evaluaciones y otorgar un sello de aprobación.
“Es necesario que existan ciertos resguardos”, dijo Nadkarni.
Mientras tanto, Tiller y Succi recomiendan que los consumidores piensen la IA como un complemento, y no como un reemplazo de los profesionales de la salud.
“Los chatbots no están diseñados para la salud”, dijo Tiller. “Están diseñados para una sola cosa: imitar la fluidez conversacional. Solo son buenos hablando, como un vendedor cuando intentás comprar un auto”.
1“Siempre llevo a mi Argentina en el corazón”: frases inspiradoras del papa Francisco para recordarlo a un año de su muerte
2Un corazón desmesurado: así de lastimado terminó el cuerpo de Diego Armando Maradona
3Quién era el joven brasileño que murió en un hospital de Buenos Aires tras una descompensación
4La Provincia de Buenos Aires definió un protocolo de intervención ante amenazas y estudiantes armados en escuelas




