Hoy queremos compartir los hallazgos de un reciente estudio publicado en Nature: Holistic evaluation of large language models for medical tasks with MedHELM (Bedi et al., 2026). Los grandes modelos de lenguaje (Large Language Models – LLM -) han demostrado una capacidad casi perfecta para resolver exámenes de habilitación médica. A pesar de este desempeño, las evaluaciones de acreditación médica no siempre reflejan la complejidad clínica real ni las tareas cotidianas de la práctica sanitaria. Con el objetivo de evaluar los LLMs en contextos médicos reales, Bedi y cols. (2026) presentan MedHELM: un marco de evaluación integral diseñado para analizar el rendimiento de los LLMs en una amplia variedad de tareas clínicas, como apoyo clínico en la toma de decisiones, generación de anotaciones clínicas o investigación médica.
¿Cómo funciona MedHELM?
MedHELM consta de tres componentes principales:
- Una taxonomía validada por clínicos que organiza las aplicaciones de la Inteligencia Artificial (IA) médica en cinco grandes categorías que reflejan el trabajo clínico real: apoyo a la toma de decisiones clínicas, generación de notas clínicas, comunicación con pacientes, apoyo a la investigación médica y administración y flujo de trabajo). Esta taxonomía, a su vez, abarca 22 subcategorías y 121 tareas específicas.
- Un conjunto de benchmarks compuesto por 35 evaluaciones que cubren la totalidad de la taxonomía, incluyendo tanto benchmarks existentes como otros de nueva creación, representativos de tareas clínicas reales.
- Una comparación sistemática de nueve LLMs de última generación, incluyendo Claude 3.5 Sonnet, Claude 3.7 Sonnet, DeepSeek R1, Gemini 1.5 Pro, GPT-4o, GPT-4o mini, Llama 3.3 y o3-mini. Esta comparación usa un método automatizado de evaluación mediante “jurado LLMs”, en el que múltiples evaluadores basados en IA valoran las respuestas de los modelos conforme a criterios clínicos definidos por expertos.
Fortalezas y debilidades de los LLM en tareas clínicas
Los principales resultados del estudio muestran cómo el rendimiento varió de forma sustancial según la tarea y la categoría evaluada:
- Se observó un mejor rendimiento en tareas como la generación de notas clínicas y la comunicación y educación con pacientes, con puntuaciones relativamente altas en escalas normalizadas de exactitud (0,74–0,85).
- Se identificó un rendimiento moderado en tareas de apoyo a la investigación médica y de apoyo a la toma de decisiones clínicas.
- Se detectó un rendimiento inferior en tareas de administración y flujo de trabajo, lo que pone de manifiesto dificultades en procesos orientados a la práctica real.
- Los modelos con capacidades avanzadas de razonamiento (p. ej., DeepSeek R1 y o3-mini) alcanzaron las mayores tasas globales de éxito en los benchmarks, mientras que modelos como Claude 3.5 Sonnet ofrecieron un rendimiento competitivo con un menor coste computacional.
- El método de evaluación mediante jurado LLMs mostró una alineación adecuada con el juicio clínico, superao a métricas automáticas tradicionales como ROUGE-L y BERTScore en su correlación con las valoraciones de expertos.
Hacia métricas de evaluación específicas e integración en flujos de trabajo y sistemas sanitarios
En resumidas cuentas, los hallazgos de este estudio demuestran que un alto rendimiento en exámenes de acreditación médica no garantiza la utilidad clínica en contextos reales. La taxonomía exhaustiva y el conjunto de benchmarks de MedHELM permiten identificar fortalezas y limitaciones específicas según la tarea, subrayando la necesidad de métricas de evaluación específicas por tarea y fundamentadas en el criterio clínico. Este marco clarifica en qué ámbitos los LLMs actuales son eficaces y en cuáles presentan limitaciones orientando una selección y despliegue más informados de sistemas de IA médica.
MedHELM establece un estándar práctico y validado por clínicos para la evaluación de LLMs en tareas médicas del mundo real, superando los enfoques tradicionales basados exclusivamente en exámenes. Su marco abierto facilita evaluaciones basadas en evidencia, promueve la mejora continua de la IA médica y favorece una integración más segura y fiable de los LLMs en los flujos de trabajo y sistemas sanitarios.
¿Qué os sugiere este estudio? ¿Crees que pueden estos LLMs aplicarse en entornos clínicos tan complejos como el de la salud mental?


