¿Pueden los Grandes Modelos del Lenguaje (Large Language Models – LLMs -) y los embeddings detectar depresión y riesgo de suicidio a partir de narrativas en pacientes psiquiátricos?

La evaluación clínica de la salud mental sigue dependiendo, en gran medida, de entrevistas clínicas y del juicio subjetivo profesional. Con el reciente desarrollo de los LLMs, se está explorando cada vez más si la Inteligencia Artificial (IA) puede servir de apoyo y como método adecuado para la detección temprana de problemas psiquiátricos, gracias al análisis del discurso basado en información verbal y narrativa.

Con el objetivo de profundizar en el potencial de las herramientas clínicas basadas en IA, Lho et al. (2026) analizaron si los LLMs y los modelos de aprendizaje automático (Machine Learning – ML -) basados en embeddings pueden identificar, a través de narraciones escritas, signos clínicos de depresión y riesgo de suicidio en pacientes psiquiátricos. Este estudio, en concreto, se centró en narrativas generadas mediante el Sentence Completion Test (SCT), una evaluación psicológica semiestructurada en la que los participantes completaron frases relacionadas con el autoconcepto, las relaciones interpersonales, la familia y la percepción de género. Esta interesante investigación está estrechamente vinculada con la meta de nuestro proyecto ALENTAR-J-CM: prevenir los problemas de salud mental y suicidio en adolescentes y jóvenes mediante herramientas tecnológicas basadas en IA y desarrolladas bajo principios éticos.

En este estudio se analizaron datos SCT de 1.064 pacientes psiquiátricos en Corea del Sur, incluyendo más de 52.000 textos narrativos. Además, los autores evaluaron con instrumentos validados la gravedad de la depresión y del riesgo suicida (p.ej., Beck Depression Inventory-II – BDI-II -; Zung Self-Rating Depression Scale – SDS -). En cuanto a los enfoques de IA utilizados, se compararon distintos modelos, incluyendo GPT-4o, GPT-3.5 Turbo, Gemini 1.0 Pro y modelos de ML basados en embeddings combinados con algoritmos (p.ej., Support Vector Machines – SVM -; regresión logística; Extreme Gradient Boosting – XGB -).

Adecuado rendimiento de los LLMs en la detección de depresión y riesgo de suicidio

En términos generales, Lho et al. (2026) observaron que tanto los LLMs como los modelos de ML basados en embeddings fueron capaces de detectar depresión y riesgo suicida con un rendimiento relativamente aceptable. La mayoría de los modelos alcanzaron valores AUROC superiores a 0,70, lo que sugiere una capacidad discriminativa clínicamente relevante. Además, entre los LLMs:

GPT-4o obtuvo el mejor rendimiento, con valores AUROC cercanos a 0,73.
Gemini mostró resultados similares.
GPT-3.5 presentó un rendimiento menor, aunque el uso de few-shot prompting mejoró su precisión.
El mejor rendimiento global provino de los modelos de ML basados en embeddings. En particular, el modelo “text-embedding-3-large” combinado con XGB alcanzó un AUROC de 0,841 y una precisión superior al 82%.

En este sentido, uno de los hallazgos más importantes fue que los discursos relacionados con el autoconcepto mostraron la mayor capacidad predictiva de estos problemas psicológicos. Cuestiones vinculadas con la culpa, la autoimagen, las expectativas de futuro y la identidad personal resultaron especialmente informativas para detectar depresión y riesgo suicida.

Asimismo, los análisis cualitativos revelaron que el rendimiento de la IA dependía no sólo del contenido narrativo, sino también de la manera en que los participantes se expresaban. Por ejemplo, los autores atestiguaron que los pacientes que expresaban abiertamente pesimismo y una percepción negativa de sí mismos fueron clasificados con mayor precisión. Por el contrario, los pacientes que adoptaron un discurso defensivo, superficial o con pocas emociones redujeron el rendimiento predictivo de los modelos. Esto sugiere que los modelos de IA pueden no ser tan hábiles cuando los pacientes minimizan intencionadamente su malestar o proporcionan información emocional limitada.

Implicaciones clínicas y direcciones futuras de los LLMs en la evaluación clínica

Este estudio pone de relieve el potencial de las herramientas de Procesamiento del Lenguaje Natural (PLN) de cribado en salud mental y en la psiquiatría de precisión, ya que ofrecen un sistema de apoyo para la detección temprana de depresión y riesgo suicida. Además, los sistemas basados en LLMs podrían proporcionar apoyo a los profesionales de la salud en los procesos de toma de decisiones, complementando así la evaluación clínica tradicional.

A pesar de la naturaleza transversal de este estudio y de sus limitaciones metodológicas – muestra exclusivamente psiquiátrica y uso de medidas autoinformadas -, esta investigación aporta evidencia sólida de que los LLMs y los modelos basados en embeddings pueden detectar de manera significativa depresión y riesgo suicida a partir del discurso de pacientes. En esencia, estos hallazgos refuerzan el creciente papel de la IA y de la psiquiatría computacional en la evaluación de la salud mental.

No obstante, los autores subrayan la importancia de considerar estas tecnologías como herramientas de apoyo y no como sustitutos del juicio clínico. Asimismo, destacan la necesidad de seguir mejorando aspectos referidos a la precisión, explicabilidad, seguridad y gestión ética antes de su implementación en contextos clínicos reales.

Leer el texto completo

Nosotros hemos disfrutado mucho leyendo este estudio de investigación, especialmente por alinearse con los intereses de ALENTAR-J-CM. Si deseas conocer más sobre esta investigación, puedes consultar el artículo completo aquí.

Adecuado rendimiento de los LLMs en la detección de depresión y riesgo de suicidio

Implicaciones clínicas y direcciones futuras de los LLMs en la evaluación clínica

Leer el texto completo

Artículos relacionados

Deja un comentario Cancelar respuesta