Los trastornos de salud mental se han convertido en una de las principales causas de discapacidad a nivel mundial. Además, el estrés representa un factor de riesgo relevante asociado a la depresión, enfermedades crónicas y al malestar psicológico. La reducción del estrés, en la población general, se torna una prioridad para las estrategias de prevención y monitorización en salud pública.
Por otro lado, investigaciones previas han examinado el potencial de los enfoques basados en aprendizaje automático (Machine Learning – ML -) y aprendizaje profundo (Deep Learning – DL -) en la detección del estrés, evaluando aspectos específicos como la complejidad y la precisión predictiva de los modelos o la intrusividad de los dispositivos tecnológicos. Sin embargo, no hay suficientes estudios que evalúen qué tipo de enfoque ofrece un mejor rendimiento en la predicción de niveles de estrés, lo que limita la evidencia empírica con respecto a esta cuestión.
Esta escasez de estudios empíricos motivó para que Bello-Orgaz y cols. (2026) evaluaran si los modelos DL más complejos mejoraban la predicción del nivel de estrés en dispositivos de baja y media intrusión, comparando con modelos clásicos de ML. Para este análisis comparativo, los autores usaron diferentes esquemas de validación, utilizando datos fisiológicos y conductuales recogidos mediante dispositivos wearables y teléfonos inteligentes.
Todos los datos recogidos en este estudio provenían de conjuntos de datos multimodales de acceso público (p.ej., WESAD y StudentLife) que incluían datos fisiológicos y conductuales derivados de smartphones. La clasificación del estrés se evaluó bajo diferentes niveles de intrusividad del dispositivo: a) dispositivos de baja intrusividad (p.ej., teléfonos móviles); b) dispositivos de intrusividad media (p.ej., relojes y pulseras inteligentes). Además, se emplearon dos estrategias de validación: a) validación estratificada (validación intra-sujetos); b) Leave-One-Subject-Out (LOSO; validación inter-sujetos).Se compararon múltiples modelos clásicos de ML (p.ej., KNN, Random Forest, Gradient Boosting, XGBoost) y enfoques de DL (p.ej., MLP, transformers, TabPFN) para evaluar la calidad de las predicciones del nivel de estrés en términos de complejidad del modelo, complejidad de los datos e intrusividad en la recogida de datos. Todos los experimentos se repitieron 10 veces para garantizar la robustez de los resultados.
Métricas de rendimiento entre modelos ML y DL para dispositivos de baja y media intrusividad
En relación con los dispositivos de baja intrusividad, bajo validación estratificada, los modelos clásicos de ML superaron ligeramente a los modelos DL (KNN – modelo ML – F1 = 77,2%; MLP – modelo DL – F1 = 73,7%). Sin embargo, este rendimiento descendió drásticamente bajo validación LOSO, para ambos modelos (F1 máximo = 34,4%), lo que sugiere una pobre generalización entre sujetos. Estos hallazgos indican que los dispositivos electrónicos de baja intrusividad pueden captar patrones específicos a nivel individual, dificultando su generalización.
En el caso de los dispositivos de intrusividad media, el rendimiento mejoró sustancialmente. En la validación estratificada, el modelo TabPFN – modelo DL – alcanzó una puntuación F1 superior al 98,8%, superando a los modelos clásicos de ML, lo que sugiere un excelente método de clasificación de niveles de estrés. Añadido a esto, la generalización entre sujetos mejoró notablemente bajo validación LOSO, especialmente para el modelo Gaussian Boosting Classifier (GBC) – modelo ML – (F1 = 82,5%). Estos resultados indican que los indicadores fisiológicos asociados a dispositivos de intrusividad media podrían servir como marcadores de estrés más robustos, a nivel poblacional.
Ajustando modelos de detección de estrés en contextos reales
Los principales hallazgos de este estudio ponen de relieve un equilibrio clave entre complejidad del modelo, intrusividad y capacidad de generalización de modelos basados en ML y DL. Aunque los modelos DL pueden superar a los modelos clásicos de ML en determinadas condiciones, una mayor complejidad arquitectónica no siempre se traduce en mejoras significativas, especialmente cuando se utilizan datos de dispositivos de baja intrusividad. En este sentido, los modelos clásicos de ML pueden ofrecer un rendimiento sólido con configuraciones más sencillas, mientras que las arquitecturas basadas en transformers y los modelos DL avanzados destacan en condiciones a nivel usuario.
La marcada disminución del rendimiento en los experimentos LOSO, con dispositivos tecnológicos de baja intrusividad, sugiere el desafío que supone la variabilidad entre sujetos en la detección del estrés. Por el contrario, las características derivadas de dispositivos de intrusividad media mitigan considerablemente este problema. Esto, en otras palabras, indica que las medidas fisiológicas registradas por este tipo de dispositivos podrían ser indicadores más fiables de niveles de estrés para clasificar entre individuos.
Por tanto, la selección de estrategias de validación específicas se convierte en un aspecto fundamental para la clasificación del nivel de estrés en la población general: la validación intra-sujeto puede sobreestimar el rendimiento en contextos reales; la validación LOSO proporciona una prueba más exigente de la capacidad de generalización.
En conclusión, los autores afirman que la detección del nivel de estrés mediante datos de dispositivos tecnológicos es una técnica viable y de alta precisión, especialmente cuando se acepta un nivel moderado de intrusividad. La eficiencia computacional de los modelos ML y el potencial de los enfoques DL en contextos específicos pueden ejercer como herramientas fiables de orientación práctica en el diseño de sistemas de detección de estrés. No obstante, este rendimiento debe alcanzarse equilibrando precisión, usabilidad, privacidad y responsabilidad ética.


