Los trastornos mentales como la depresión, el trastorno bipolar, la esquizofrenia y la ansiedad representan una creciente carga para la salud global. A pesar de los avances en psiquiatría, el diagnóstico sigue basándose en gran medida en entrevistas clínicas subjetivas, lo que puede retrasar la detección e introducir variabilidad entre clínicos. Una estrategia para abordar estos problemas es la psiquiatría computacional, que aplica técnicas de aprendizaje automático (machine learning – ML -) para optimizar la generalización a nivel individual y proporcionar aplicaciones clínicas y tratamientos personalizados.
Con el objetivo de contribuir al estudio del ML aplicado a la psicopatología, Espinola et al. (2022) propusieron una metodología para apoyar el diagnóstico del trastorno depresivo mayor, trastorno bipolar, esquizofrenia y trastorno de ansiedad generalizada mediante el análisis acústico de la voz. Asimismo, los autores partían de la hipótesis de que las condiciones de salud mental influyen de manera diversa en la emoción, la cognición y el control emocional, lo que afecta sutilmente a la forma en que las personas hablan. Además, los autores exploraron cómo los modelos de ML clasificaban con precisión distintos trastornos mentales, cómo cribaban diferentes poblaciones clínicas y analizaban si los parámetros vocales podían servir como biomarcadores digitales para estas condiciones psiquiátricas.
Para ello, en este estudio se reclutaron 78 participantes distribuidos en cinco grupos: a) control; b) depresión; c) esquizofrenia; d) trastorno bipolar; e) trastorno de ansiedad generalizada (TAG). Los participantes fueron entrevistados y grabados en audio para extraer un amplio conjunto de características acústicas, incluyendo: a) características prosódicas (tono – F0 -; intensidad; ritmo); b) calidad de la voz (jitter; shimmer); c) propiedades espectrales; y d) características temporales (velocidad del habla; pausas; temporización). Estas variables se introdujeron en algoritmos de clasificación de ML, como perceptrón multicapa (MLP), regresión logística, Random Forest o redes bayesianas. Todos estos algoritmos fueron entrenados para identificar patrones asociados a cada trastorno.
¿Qué algoritmo de ML clasifica mejor los trastornos mentales?
Los principales resultados de este estudio fueron prometedores y respaldan la viabilidad de este enfoque. Así, los autores encontraron un alto rendimiento de los modelos de ML en la diferenciación entre grupos diagnósticos. Además, cada trastorno mostró características acústicas diferenciadas, tales como: a) depresión (entonación más plana, menor variabilidad, habla más lenta); b) trastorno bipolar – manía (mayor energía, variabilidad y presión del habla); c) esquizofrenia (patrones de habla atípicos y menos coherentes); d) ansiedad (mayor tensión reflejada en las características vocales). Estos hallazgos sugieren que el habla contiene información clínicamente relevante que puede ser cuantificada y modelizada.
No obstante, deben considerarse varias limitaciones metodológicas. Espinola et al. (2022) utilizaron una muestra relativamente pequeña y no representativa, en condiciones controladas, por lo que los resultados no pueden generalizarse en población o contextos generales. Los autores inciden en que las investigaciones futuras deberían replicar estos métodos en poblaciones y lenguas diversas. Asimismo, el equipo liderado por Espinola considera que es necesario controlar los algoritmos de ML para evitar el riesgo de sobreajuste (overfitting).
Direcciones futuras en el diagnóstico en salud mental
Este estudio aporta evidencia sólida de que los biomarcadores basados en el habla, combinados con ML, pueden ayudar a identificar y diferenciar los principales trastornos mentales. Además, representa un avance hacia la psiquiatría de precisión, donde el diagnóstico y la intervención son más personalizados, basados en datos e incluidos en tratamientos más precisos.
Este enfoque introduce un nuevo paradigma en la evaluación de la salud mental por varias razones. En primer lugar, reduce significativamente la subjetividad clínica mediante herramientas robustas de análisis de biomarcadores. Además, los datos de voz pueden recogerse mediante smartphones o dispositivos portátiles, lo que facilita su escalabilidad. En segundo lugar, las técnicas de ML no requieren muestras biológicas ni procedimientos complejos. Por último, este enfoque permite una monitorización continua, facilitando el seguimiento de los síntomas a lo largo del tiempo.
A largo plazo, estos sistemas podrían integrarse en plataformas basadas en Inteligencia Artificial (IA) para ayudar a los clínicos a mejorar la detección temprana, optimizar herramientas de cribado, reforzar los sistemas de apoyo a la decisión clínica y monitorizar la respuesta al tratamiento.
Para avanzar hacia su implementación clínica, las futuras investigaciones deberían recopilar conjuntos de datos más amplios, multimodales y longitudinales, que permitan su validación en contextos clínicos y comunitarios reales. Asimismo, las tecnologías basadas en ML deben cumplir con consideraciones éticas, especialmente en relación con la privacidad, la transparencia y los sesgos en investigación.


