Daniel Cevallos1, César A Martín1, Mohamed El Mistiri2, Daniel E Rivera2, Eric Hekler3. 1. Escuela Superior Politécnica del Litoral, ESPOL, Facultad de Ingeniería en Electricidad y Computación, Campus Gustavo Galindo Km 30.5 Vía Perimetral, P. O. Box 09-01-5863, Guayaquil, Ecuador. 2. School for the Engineering of Matter, Transport, and Energy, Arizona State University, Tempe, Arizona 85287-6106, EEUU. 3. Herbert Wertheim School of Public Health and Human Longevity Science, University of California at San Diego, La Jolla, California 91222, EEUU.
Abstract
Physical inactivity is a major contributor to morbidity and mortality worldwide. Many current physical activity behavioral interventions have shown limited success addressing the problem from a long-term perspective that includes maintenance. This paper proposes the design of a decision algorithm for a mobile and wireless health (mHealth) adaptive intervention that is based on control engineering concepts. The design process relies on a behavioral dynamical model based on Social Cognitive Theory (SCT), with a controller formulation based on hybrid model predictive control (HMPC) being used to implement the decision scheme. The discrete and logical features of HMPC coincide naturally with the categorical nature of the intervention components and the logical decisions that are particular to an intervention for physical activity. The intervention incorporates an online controller reconfiguration mode that applies changes in the penalty weights to accomplish the transition between the behavioral initiation and maintenance training stages. Controller performance is illustrated using an ARX model estimated from system identification data of a representative participant for Just Walk, a physical activity intervention designed on the basis of control systems principles.
Physical inactivity is a major contributor to morbidity and mortality worldwide. Many current physical activity behavioral interventions have shown limited success addressing the problem from a long-term perspective that includes maintenance. This paper proposes the design of a decision algorithm for a mobile and wireless health (mHealth) adaptive intervention that is based on control engineering concepts. The design process relies on a behavioral dynamical model based on Social Cognitive Theory (SCT), with a controller formulation based on hybrid model predictive control (HMPC) being used to implement the decision scheme. The discrete and logical features of HMPC coincide naturally with the categorical nature of the intervention components and the logical decisions that are particular to an intervention for physical activity. The intervention incorporates an online controller reconfiguration mode that applies changes in the penalty weights to accomplish the transition between the behavioral initiation and maintenance training stages. Controller performance is illustrated using an ARX model estimated from system identification data of a representative participant for Just Walk, a physical activity intervention designed on the basis of control systems principles.
Entities:
Keywords:
Model predictive control of hybrid systems; control of physiological and clinical variables; system identification
Una variedad de condiciones de salud graves, entre ellas el cáncer de mama y de colon, la obesidad, la diabetes y las enfermedades cardiovasculares, están relacionadas con la inactividad física (McGinnis et al., 2002). Para el cáncer de mama en particular, las estimaciones sugieren que el riesgo de desarrollar esta enfermedad se puede reducir entre un 20 y un 30 % realizando entre 30 y 60 minutos de actividad física (AF) de intensidad moderada al día (Clague and Bernstein, 2012). Las tecnologías de salud móvil (mHealth) son adecuadas para ofrecer intervenciones rentables, escalables y adaptables para promover la actividad física; los teléfonos inteligentes juegan un papel importante porque pueden detectar las actividades y el contexto de los usuarios, y permiten la implementación de aplicaciones avanzadas. Sin embargo, la mayoría de las intervenciones de AF de mHealth desarrolladas por investigadores solo se han evaluado en pruebas piloto a corto plazo (por ejemplo, de 4 semanas a 6 meses) con efectos moderados (Payne et al., 2015) y requieren una evaluación de su efectividad en condiciones reales.Se ha propuesto el uso de principios de ingeniería de sistemas de control (Navarro-Barrientos et al., 2011; Timms et al., 2014a; Deshpande et al., 2014) para abordar problemas de salud comportamental. La teoría cognitiva social (TCS; Bandura (1986)) es una ilustración bien fundamentada y aceptada de los elementos causales del comportamiento humano; básicamente describe cómo interactúan los diferentes componentes para influir en el comportamiento y otros constructos, y se ha utilizado como base para muchas intervenciones comportamentales. En trabajos anteriores, se desarrolló un modelo dinámico de la TCS orientado al control (Martín et al., 2020). Utilizando una intervención de AF de lazo abierto como referencia, se ha diseñado un conjunto de experimentos de identificación del sistema a nivel idiográfico (es decir, un solo sujeto) para buscar y refinar los parámetros del modelo y con fines de validación (Martín et al., 2015a,c). Basándose en estas ideas, se ha desarrollado una intervención piloto de mHealth llamada “Just Walk” (Hekler, 2015) con análisis presentados en various artículos (Freigoun et al., 2017; Korinek et al., 2018; Phatak et al., 2018). Esta intervención proporciona pasos diarios “ambiciosos pero factibles↊ refuerzos para lograr los objetivos.El propósito de este trabajo es desarrollar un algoritmo de decisión para una intervención adaptativa de mHealth para promover la actividad física (medida en términos de pasos diarios) entre adultos sedentarios. Para lograr resultados exitosos de la intervención a largo plazo, se incluyen dos fases: una etapa de entrenamiento de iniciación comportamental donde los individuos son conducidos progresivamente a un estado saludable a través de la introducción de recompensas y objetivos de pasos diarios, y una fase de mantenimiento donde las recompensas son gradualmente disminuidas en base a la capacidad mejorada de las personas para continuar participando con el comportamiento requerido, que es impulsado por un proceso interno de autorregulación humana. El marco de decisión para la intervención se basa en una formulación de control predictivo de modelo híbrido (HMPC; Nandola and Rivera (2013)). Soluciones basadas en HMPC se han considerado anteriormente en entornos de salud comportamental (Deshpande et al., 2014; Timms et al., 2014b; Dong et al., 2014). Una formulación inicial de HMPC para actividad física basada en un modelo hipotético de TCS se encuentra en Martín et al. (2016). La política de decisiones basada en HMPC que se presenta aquí se enmarca en conceptos de dinámica lógica mixta (DLM) para describir conjuntos discretos de objetivos y recompensas como componentes de la intervención. También se utiliza para representar el proceso lógico de otorgar recompensas solo si se alcanzan los objetivos diarios. La formulación emplea una modalidad de tres grados de libertad para ajustar de forma independiente las especificaciones requeridas. Se propone la reconfiguración del controlador mediante la manipulación de ponderaciones de penalización para abordar la transición entre las fases de inicio y mantenimiento. Se presentan los resultados de una simulación que considera un escenario hipotético para una intervención de AF; todo esto con el propósito de ilustrar los beneficios del enfoque propuesto al abordar la dinámica híbrida, el seguimiento del punto de ajuste, el rechazo de perturbaciones y la transición entre las dos etapas de la intervención.Este artículo está organizado de la siguiente forma: la sección 2 describe el modelo TCS y los diferentes componentes de la intervención. La sección 3 da un resumen del diseño de la intervención Just Walk, y del uso de métodos de la identificación de sistemas para estimar un modelo dinámico usando datos de un participante representativo. La sección 4 presenta la formulación de la intervención basada en HMPC correspondiente al modelo estimado en la sección 3, lo cual incluye las restricciones lógicas y discretas y la reconfiguración del controlador. La sección 5 presenta un estudio de simulación para probar el desempeño del controlador en presencia de perturbaciones. Finalmente, la sección 6 ofrece un resumen de nuestras conclusiones y describe el trabajo futuro.
Intervención comportamental adaptativa basada en TCS.
El objetivo principal de la intervención propuesta es promover la actividad física entre personas sedentarias, con el objetivo específico de lograr 10,000 pasos por día (o +3,000 pasos por día más que la línea de base) en promedio semanal. El objetivo se alcanzará mediante el diseño y la implementación de una intervención eficaz para el cambio de comportamiento que se basa en la Teoría Cognitiva Social (TCS; Bandura (1986)). La TCS es una teoría psicológica bien reconocida en la que el comportamiento se describe utilizando una perspectiva de agencia humana en la que los individuos reflexionan, autorregulan y se organizan de forma proactiva. Algunos de los constructos más relevantes son:Comportamiento, el comportamiento real de interés, por ejemplo, los pasos realizados diariamente.Auto-eficacia, la capacidad autopercibida para realizar una determinada conducta.Resultados de comportamiento, obtenido como resultado de la participación en el comportamiento, por ejemplo, pérdida de peso.Estímulos internos y externos, desencadenantes para participar en un comportamiento.Contexto ambiental, en el que ocurre el comportamiento.En el trabajo de Martín et al. (2020), se presenta un modelo dinámico de TCS apoyándose en una analogía de fluidos que describe los constructos y sus interrelaciones descritas por la teoría. La Figura 1 describe una versión simplificada del modelo TCS que representa una articulación “conductista”de los determinantes del comportamiento (Ferster, 1970), donde cada ξ representa una entrada, η es una salida, γ y β representan la interrelación entre los diferentes constructos, ζ es una perturbación externa, y θ representa tiempos de retardo.
Figura 1:
Analogía de fluidos para la versión simplificada del modelo TSC por (Martín et al., 2020) donde los insumos se representan como entradas y las salidas como niveles de inventario.
Suponiendo una dinámica de primer orden, el modelo se describe mediante el siguiente conjunto de ecuaciones diferenciales:La intervención adaptativa comportamental propuesta se describe en la Figura 2, donde la cantidad de pasos diarios realizados se mide mediante la señal y4. Se basa en la entrega sistemática de los siguientes componentes, basados en el desempeño real de las personas:
Figura 2:
Representación conceptual de la intervención adaptativa comportamental de lazo cerrado, basada en la versión simplificada del modelo TSC en la Figura 1
Metas diarias u8, para establecer de forma cuantitativa el comportamiento deseado, e.g., 10,000 pasos por día.Puntos esperados u9, los puntos de recompensa diarios anunciados que se otorgarán a las personas si logran el objetivo diario.Puntos otorgados u10, administrado todos los días si las personas alcanzan la meta establecida; esta característica está representada por el bloque “If/Then”. Los puntos se pueden canjear posteriormente por recompensas tangibles, por ejemplo, tarjetas de regalo.Logro de metas ξ11 = u11 = y4 − u8 = y7, es una señal que representa la diferencia entre el comportamiento realizado y las metas diarias. Esta señal sirve como entrada para el inventario de auto-eficacia, pero también podría ser útil como salida para determinar el impacto de la intervención.En Martín et al. (2016), la intervención se evalúa utilizando un modelo TCS mejorado con autoregulación individualizada a través de señales internas para representar una meta de pasos diarios (por ejemplo, 10,000 pasos) que la persona percibe como alcanzable. En el trabajo de Carver and Scheier (1998) se presenta un mecanismo de autorregulación del comportamiento humano modelado como un proceso de retroalimentación, en el cual individuos realizan ajustes autocorrectores para mantenerse encaminados hacia una meta definida. El control de modelo interno (IMC; Morari and Zafiriou (1989)) se usa para formular un autorregulador a través de señales internalizadas que dependen de la función de transferencia entre la entrada ξ4 y la salida η4, calculada a partir del modelo TCS.En este trabajo, el uso de un modelo de identificación estimado en base a datos elimina la necesidad de definir un auto-regulador; adicionalmente, dificultades durante Just Walk para obtener una medida confiable de auto-eficacia motivan el uso de la señal de logro de metas para inferir si participantes en la intervención están reaccionando negativamente a un objetivo demasiado alto que consideren difícil de alcanzar. Los beneficios de tal estrategia son parte del trabajo de El Mistiri et al. (2022). La descripción de la intervención Just Walk y el uso de métodos de identificación de sistemas para obtener un modelado dinámico se presentan en la sección siguiente.
Descripción de la intervención Just Walk
Just Walk se desarrolló como una aplicación de intervención adaptativa para niveles de caminata en adultos sedentarios con sobrepeso. Fue diseñado principalmente como una herramienta para generar modelos computacionales individualizados para comprender el comportamiento de la actividad física (AF) a través de la identificación del sistema. El sistema de intervención incluía una aplicación de Android front-end, Just Walk (Figura 3), un servidor back-end y un rastreador de actividad (Fitbit Zip) para medir objetivamente la AF y sincronizar automáticamente con la aplicación del teléfono inteligente. Los participantes fueron reclutados a nivel nacional en Estados Unidos para participar en una intervención de caminata y recibir objetivos de pasos diarios a través de la aplicación Just Walk, y se otorgaron puntos anunciados diariamente si los objetivos se lograban ese día; los puntos otorgados se convirtieron en tarjetas de regalo de Amazon después de que se alcanzara un cierto umbral. Los participantes también debían completar una serie de medidas de evaluación momentánea ecológica matutina y vespertina diarias (EMA, Shiffman et al. (2008); por ejemplo, confianza en el logro de la meta, actividad prevista para ese día, calidad del sueño de la noche anterior, etc.) durante el tiempo que tomaba el estudio. Las mediciones EMA se basan en enfoques desarrollados recientemente para evaluar los procesos comportamentales y cognitivos en sus entornos naturales.
Figura 3:
Captura de pantalla de la aplicación Just Walk
La duración del estudio fue de 14 semanas, incluido un período inicial de dos semanas en el que no necesariamente se cumplieron los objetivos de pasos. Los objetivos de pasos de cada participante se basaron luego en la media de pasos diarios realizados calculado a partir del período de referencia de 14 días. Los objetivos de los pasos se diseñaron para establecer un mecanismo para individualizar la definición de un rango de pasos “ambicioso, pero factible”. Todos los datos de AF se recopilaron del Fitbit Zip (proporcionado a los participantes como parte del estudio) y se almacenaron tanto localmente como en Fitabase (Small Steps Labs, San Diego, CA, USA). Los participantes eran en general sanos, inactivos, de 40 a 65 años de edad, con un índice de masa corporal (IMC) de 25 a 45 kg/m2, que actualmente poseían un teléfono Android capaz de conectarse a un Fitbit Zip a través de Bluetooth 4.0. y estaban dispuestos a participar en la intervención de mHealth durante 14 semanas.
Diseño de señal de entrada de Just Walk
El procedimiento de diseño de la señal de entrada utilizado en el estudio Just Walk (Hekler, 2015) se estableció utilizando señales determinísticas pero “pseudoaleatorias”que son ortogonales en el dominio de la frecuencia. El procedimiento se describe en detalle en Martín et al. (2015b). En Just Walk, las señales Metas diarias establecen el comportamiento deseado en forma cuantitativa, mientras que Puntos esperados son los puntos disponibles diarios que se anuncian cada mañana y que se otorgan al alcanzar el objetivo. Metas diarias y Puntos esperados son dos señales de entrada manipuladas u generadas a partir de una señal multiseno,
donde λ es el factor de escala, N es el número de muestras por período, T es el tiempo de muestreo. Para el j armónico de la señal, cada variable tiene el siguiente significado: α[ es un factor usado para especificar la potencia relativa del armónico, ω es la frecuencia, y ϕ[ es la fase. Para obtener estimaciones independientes de la función de transferencia y de la incertidumbre, se eligen factores α[ para excitar las señales de entrada ortogonalmente en frecuencia. Dos señales son ortogonales si un coeficiente de Fourier distinto de cero a una frecuencia específica en una señal, implica un coeficiente de Fourier de valor cero a la misma frecuencia para la otra; esto se llama un diseño de espectros con cremallera (“zippered”), una idea introducida en in Rivera et al. (2009). En la Figura 4 se presenta una representación conceptual del diseño “con cremallera”. Para n entradas de diseño y n sinusoides excitados independientemente, los coeficientes de Fourier se especifican como
Figura 4:
Representación conceptual de un diseño de espectros “con cremallera” para entradas de diseño n = 2 design inputs, y n = 6 frecuencias armónicas.
Usando las frecuencias ω definidas (6) y el teorema de muestreo de Nyquist Shannon, se define el siguiente límite para N:
Si se seleccionan n = 6 sinusoides excitadas para las entradas de diseño n = 2, entonces al aplicar (8), N = 16 días (seleccionados) es una opción factible. Las fases ϕ[ se seleccionan para minimizar el factor de cresta de la señal utilizando el enfoque propuesto por Guillaume et al. (1991).Al aplicar esta metodología de diseño para Just Walk, se eligieron las amplitudes de las señales de entrada (u8 y u9 en la Figura 5) basándose en experiencias de estudios anteriores (King et al., 2013; Adams et al., 2013) diseñados para obtener un perfil esperado de AF. El número máximo de objetivos de pasos se seleccionó como un factor del nivel de referencia inicial de AF. Para la mayoría de los casos en este diseño experimental, este factor fue igual a 2; sin embargo, se varió si el nivel de pasos de la línea de base real de los individuos era demasiado alto o bajo. Específicamente, si los pasos de la mediana de la línea de base del participante estaban por debajo de 3000, entonces el rango de las metas estaba entre 1 y 2.5 de sus pasos de la mediana de la línea de base, para aumentar la probabilidad de metas “ambiciosas”. Si los pasos medianos de la línea de base eran mayores de 7500, entonces el rango se estableció entre 1 y 1,75 (para reducir la probabilidad de metas demasiado ambiciosas, como 15 000 pasos en un día). Además de los dos canales de entrada manipulados, también se midió un considerable conjunto de perturbaciones utilizando tecnologías mHealth. La duración experimental general más allá de la línea de base varió entre cinco y seis ciclos para cada participante. En la Figura 5 se muestra un graífico de series de tiempo para un participante representativo que describe el comportamiento y cuatro señales de entrada.
Figura 5:
Gráfico de series de tiempo de un participante seleccionado de Just Walk que muestra (desde arriba) cuatro secuencias de entrada correspondientes a variables manipuladas (Metas y Puntos esperados) y perturbaciones medidas (Puntos otorgados y Temperatura). El gráfico inferior incluye el comportamiento previsto (pasos / día estimados a partir de un modelo ARX con regularización), el comportamiento real (en pasos / día) y las metas (en pasos / día). Las regiones de datos de estimación y validación se resaltan en cian y magenta, respectivamente. El ajuste general del NRMSE a los datos es del 48,74 % (con un ajuste del 37.03 % para la estimación y un ajuste del 61.74 % para la validación). El modelo ARX se estima mediante mínimos cuadrados regularizados, con base en la estructura del modelo n = 2, n = [1 1 1 1], n = [1 1 1 1]. Los parámetros de regularización λ and R se seleccionan en función de la regularización del kernel sintonizada/Correlacionada (SC) (Pillonetto et al., 2014).
Estimación del modelo ARX & Validación
En esta sección, se describen las estrategias de estimación del modelo utilizadas para Just Walk y se presentan los resultados de ajustar modelos paramétricos (ARX) Auto Regresivos con entradas eXógenas (Ljung, 1999). La estimación de modelos de caja negra como ARX es un paso inicial que juega un papel fundamental en el objetivo final de identificar modelos personalizados semifísicos (caja gris) que se ajusten a la estructura de TCS indicada en la sección 2 (Martín et al., 2020). Antes de la estimación ARX, se aplica una estimación no paramétrica estándar, como el análisis de correlación. Debido a que el estudio Just Walk incluyó una amplia gama de medidas de entrada y salida, los resultados de los análisis de correlación entradasalida y entrada-entrada resultaron útiles (Phatak et al., 2018); por razones de brevedad, no se incluyen en este documento. La incorporación de todas las perturbaciones medidas para estimar un modelo de comportamiento de TCS (en particular, el constructo Contexto ambiental en la Figura 1) puede ser computacionalmente exigente; también, imponer desafíos de identificabilidad inherentes que requerirán grandes conjuntos de datos es un requisito típicamente difícil en investigación con sujetos humanos; por lo tanto, vale la pena esforzarse por reducir la dimensión del problema de estimación (Freigoun et al., 2017; Kha et al., 2022).Los datos preprocesados se ajustan a una estructura de modelo ARX, que se puede expresar de forma concisa en la siguiente forma:
donde y(t) es la salida medida (por ejemplo, pasos / día), u(t) es la entrada (por ejemplo, meta en pasos / día), y e(t) es el error de predicción, todos medidos o estimados para el día t. El problema de estimación de parámetros ARX correspondiente a (9) es una regresión lineal de mínimos cuadrados regularizada (Pillonetto et al., 2014; Ljung et al., 2015). Específicamente, en este trabajo se utiliza la regularización del kernel ajustada / correlacionada (AC; Chen et al. (2011)), que tiene propiedades estadísticas atractivas (como la consistencia y la reducción de la varianza inducida por ruido).
Consideraciones sobre el preprocesamiento de datos y la estructura del modelo
Las tareas de preprocesamiento de datos incluyen la inter-polación (para tener en cuenta los datos faltantes), la resta media y el desplazamiento de Pasos reales y Puntos concedidos en una muestra para reflejar la precedencia temporal. Las decisiones de selección de la estructura del modelo consisten en determinar, para cada participante, las señales de entrada que se incluirán y los correspondientes órdenes del modelo ARX para la salida y cada entrada, de acuerdo con (9). El conocimiento a priori del modelo de analogía de fluidos TSC desarrollado en Martín et al. (2020) implica que los modelos de muy alto orden no deberían ser necesarios para representar adecuadamente estas dinámicas de cambio de comportamiento. El orden elegido para el modelo ARX es de segundo orden en la salida y primer orden en todas las entradas consideradas (es decir, n = 2, ). Al inspeccionar los datos de la intervención, fue razonable suponer un retraso de entrada de la unidad basica (es decir., ). Finalmente, la ausencia de desviaciones en los datos lleva a asumir características de ruido estacionario (aunque potencialmente variable en el tiempo) durante el transcurso del período de intervención.Para determinar las entradas a considerar, se realiza un trabajo extenso para evaluar todas las posibles combinaciones de entrada para cada participante (Phatak et al., 2018; Freigoun et al., 2017). Para el participante representativo de la Figura 5, un modelo de 4 entradas que consta de las señales en la Tabla 1 proporciona una representación suficiente de la dinámica del sistema. Es importante tener en cuenta que Metas diarias (u8), y Puntos esperados (u9) son entradas manipuladas estadísticamente independientes, mientras que Puntos concedidos (u10) depende del cumplimiento de los objetivos. Contexto ambiental: temperatura
presenta una señal exógena en forma de cambios en la temperatura promedio diaria y corresponde a una variable de perturbación medida.
Tabla 1:
Lista de señales medidas incluidas en el modelo estimado ARX y su correspondencia con las variables en el modelo TCS según la Figura 1. La consecución de la meta ξ11 = y7 = y4 − u8 como una señal de salida, pero puede estimarse a partir de las señales generadas (o disponibles) para el problema de identificación del sistema.
Nombre
Simbolo
Entradas de ID del sistema
Contexto ambiental (Temperatura)
ξ7
Metas diarias
u8
Puntos esperados
u9
Puntos concedidos
u10
Salidas de ID del sistema
Comportamiento
η4 = y4
Estimación y validación de parámetros del modelo
Ahora se considera la estimación del modelo y la validación concomitante con los datos de intervención Just Walk utilizando el modelo ARX de 4 entradas presentado anteriormente. La validación cruzada (el proceso de evaluar el ajuste del modelo sobre los datos no utilizados para la estimación) representa uno de los aspectos más valiosos de la identificación del sistema (Ljung, 1994). El enfoque convencional en la identificación de sistemas es asignar un cierto porcentaje de datos para la estimación y el resto para la validación. Este enfoque supone que las características de ruido del problema permanecen sin cambios durante el curso de la intervención. En este trabajo, el 50 % inicial de los datos se utiliza para la validación y la segunda mitad para la estimación.La Figura 5 ilustra la diferencia entre las medidas de salida reales y la predicción de un modelo ARX de 4 entradas con la estructura que se muestra en la ecuación (9). A continuación, se presenta una discusión detallada de las estrategias de modelado de caja negra utilizadas en este trabajo. Para cuantificar los ajustes del modelo, se utiliza el índice de ajuste del error cuadrático medio normalizado (NRMSE)
y(k) es la salida medida, es la salida simulada, es la media de todos los valores y(k), y ∥ · ∥2 indica un vector norma-l2. El modelo obtenido refleja, además de un buen ajuste a los datos de validación, un buen ajuste para todo el conjunto de datos (que consta de ciclos de estimación y validacion). El modelo ARX obtenido con la regularización del kernel TC del sistema de 4 entradas arroja un índice NRMSE general de 48.74 % (ajuste de validación de 61.73 % y 37.02% para estimación). La incorporación del criterio de ajuste general con el ajuste a los datos de validación cruzada equilibra una buena predicción con la precisión del modelo en todo el conjunto de datos.
Evaluación de las características de los participantes individuales
El modelo ARX estimado proporciona la base para la simulación como planta y para el modelo de controlador MPC. Es esencial que el modelo estimado no solo proporcione un buen ajuste a los datos, sino que también esté orientado al control y proporcione información importante sobre las señales de mayor impacto en un participante específico para la personalización de las intervenciones. Si bien las tareas de modelado no paramétrico, como los análisis correlacionales, son informativas en términos de determinar las señales y entradas correlacionadas cruzadas que se deben incluir, las respuestas escalonadas de los modelos ARX individuales se pueden usar para revelar información de magnitud y direccionalidad más precisa. Por ejemplo, a partir de la Figura 6, se puede predecir que el participante seleccionado típicamente alcanzará aproximadamente el 74 % de los objetivos de pasos diarios deseados dentro del primer día del anuncio del objetivo. La entrada Puntos esperados tiene el impacto más significativo en la cantidad de pasos que caminaron fuera de las variables manipuladas, mientras que Puntos otorgados tiene la magnitud de ganancia más baja. Además, las respuestas escalonadas muestran que una perturbación exógena en forma de Contexto ambiental: temperatura influye mucho en la salida. Esto tiene importantes implicaciones para las intervenciones de cambio de comportamiento personalizadas y adaptativas; si se pueden determinar las entradas que son más significativas para un individuo dado en un contexto dado, entonces es posible optimizar el comportamiento objetivo durante un tiempo específico (horas, días, semanas, meses).
Figura 6:
Respuestas escalonadas del modelo de 4 entradas para un participante seleccionado.Las ganancias DC para cada entrada se resaltan en la parte superior de cada respuesta de paso.Las respuestas de pasos unitarios se organizan de izquierda a derecha como Temperatura, Metas, Puntos Esperados, and Puntos Concedidos con ganancias de 19.8, 0.625, 0.973, y −3,41 × 10−4 respectivamente.
Formulación de la intervención adaptativa basada en HMPC
El propósito de la intervención adaptativa es que las personas alcancen el nivel deseado de pasos diarios, al tiempo que se consideran algunas limitaciones físicas y operativas importantes, tales como:
Las subsecciones siguientes describen la intervención detallada de la política de decisiones basada en HMPC.Valores méximos y mínimos de metas y puntos. (u8, u9 y u10) dependiendo de las condiciones físicas y las limitaciones económicas.Las metas y los puntos de recompensa deben obtenerse de conjuntos discretos de valores enteros que pueden representar efectos significativos en la intervención.La intervención puede configurarse en diferentes etapas durante las cuales algunas de las entradas pueden activarse o desactivarse parcialmente. Por ejemplo, cuando el comportamiento ha alcanzado el nivel deseado y se mantiene con éxito, las recompensas pueden reducirse gradualmente y finalmente desactivarse.
Uso del marco HMPC
La estrategia de control para el diseño de la intervención debe incorporar los requisitos y restricciones definidos para la intervención comportamental de actividad física. En una intervención real, la definición de las restricciones dependerá de las circunstancias y condiciones de cada individuo y deberán ser parte de una evaluación inicial previa al desarrollo de la misma. Se estudiará más a fondo una estrategia de control predictivo de modelo híbrido (HMPC) (Nandola and Rivera, 2013) y se aplicará a este problema, ya que incorpora dinámica híbrida a través de representaciones dinámicas lógicas mixtas (DLM); esta característica se puede utilizar para representar las limitaciones naturales del problema. Los sistemas dinámicos híbridos consideran eventos discretos y continuos simultáneamente; estos se pueden representar mediante ecuaciones diferenciales (o en diferencias) y condiciones lógicas que describen su respuesta categórica o binaria. El objetivo del diseño del control estará dirigido a las siguientes tareas:Seguimiento del valor fijado: Se asignan metas y puntos de recompensa esperados para obtener la cantidad deseada de pasos diarios.Rechazo de perturbaciones medido: El controlador manipula los objetivos y los puntos esperados para mitigar el efecto de las perturbaciones externas medidas. (e.g., su contexto ambiental)).Rechazo de perturbaciones no medidas: Las entradas se manipulan para mitigar el efecto de influencias externas desconocidas y posiblemente no modeladas (e.g., enfermedad de un miembro de la familia, invitación repentina a una fiesta).El control predictivo del modelo es una intervención de controlador donde los valores actuales de las variables manipuladas se determinan en tiempo real como la solución de un problema de control óptimo en un horizonte de longitud determinada. El problema de optimización se resuelve para un horizonte móvil utilizando un modelo a partir del cual se obtiene un nuevo conjunto de movimientos de control; las salidas del sistema se calculan luego sobre el horizonte de predicción con la estimación del estado actual de la planta (es decir, la medición de la salida) asumida como el estado inicial. Solo los primeros movimientos calculados se aplican en cada instante; a continuación, se repite todo el proceso y se obtienen nuevos movimientos de control.El controlador HMPC se basa en la siguiente estructura:
donde en general , , , , , son estados de sistemas y entradas con elementos continuos y discretos; es el vector de salidas; d, d′, y v son perturbaciones medidas, perturbaciones no medidas y ruido de medición, respectivamente. y son variables auxiliares discretas y continuas que se introducen para convertir decisiones lógicas y discretas en sus restricciones de desigualdad lineal equivalentes representadas en la ecuación (13). Las variables , , n, y n son el número total de estados, entradas, perturbaciones medidas y salidas, respectivamente. Se usa una función de costo cuadrático estándar para calcular el vector de decisión para el problema de optimización como
donde p es el horizonte de predicción, m es el horizonte de control (o movimiento). Las matrices Q, QΔ, Q, Q, y Q son los pesos de penalización sobre el error, el tamaño del movimiento, la señal de control, las variables binarias auxiliares y las variables continuas auxiliares, respectivamente. El problema se formula como un sistema de control de seguimiento donde y, u, δ, y z son las referencias para las variables auxiliares de salida, entrada, discretas y continuas, respectivamente. El problema de optimización consiste en encontrar las secuencias de acciones de control que minimiza J como
sujeto a las restricciones de enteros mixtos descritas en la ecuación (13) y varias restricciones de proceso:La intervención HMPC utiliza una estructura de ajuste de tres grados de libertad, donde el seguimiento del valor fijado, los rechazos de perturbaciones medidos y no medidos se pueden ajustar de forma independiente mediante la variación de los parámetros , de 0 a 1, para j = 1, ⋯, n, y l = 1, ⋯, n. Para el seguimiento del punto de ajuste, una matriz de filtro F(q, α) se define como
donde cada elemento es un filtro de tiempo discreto de Tipo I
Para el rechazo de perturbaciones medidas, la formulación se basa en un pronóstico generado externamente que se procesa a través del filtro F(q, α). En este trabajo se consideran los filtros Tipo I:
El optimizador usa el modelo y las medidas actuales y(k) para calcular estados futuros a través de un observador / filtro como se describe con detalles en (Nandola and Rivera, 2013). El observador pondera el efecto de las perturbaciones no medidas a través de una matriz de ganancia.
donde , y . Para la intervención de actividad física, los vectores de entrada y salida son
El contexto ambiental ξ7 se considera como parte de la perturbación medida d, al igual que los puntos otorgados u10. La perturbación no medida se supone gaussiana y afecta solo a los pasos diarios realizados (es decir, se le añade solo a la salida y4 = η4).
Restricciones lógicas y discretas
Los componentes de la intervención toman sus valores de conjuntos discretos de eventos, el posible conjunto de objetivos de pasos se define como , y el posible conjunto de puntos disponibles es , por lo tanto, las siguientes variables auxiliares lógicas y continuas se definen como
Esta condición es impuesta por
Para asegurar que solo se pueda asignar un valor a u8 y u9 en cada tiempo de muestreo, es necesario agregar las siguientes restricciones:El efecto de todas las entradas en un día determinado se reflejará en las salidas del día siguiente, por lo que el número de pasos realizados y4(k) es el resultado de las metas y puntos del día anterior u8(k − 1), u9(k − 1), y u10(k − 1). De acuerdo con la intervención propuesta que se muestra en la Figura 2, el bloque “Si / Entonces” es el encargado de determinar si se otorgan los puntos, en función del cumplimiento de las metas diarias. En un trabajo anterior (Martín et al., 2016) se aplicó una reformulación de la matriz de gran-M para convertir la lógica de esta restricción lógica en un conjunto de condiciones lineales que, en consecuencia, impactan en una variable lógica auxiliar. Como una variante al enfoque anterior, en este trabajo la restricción lógica se aplica a través de una declaración “si.expresada fuera del problema de optimización.
Este enfoque permite considerar Puntos concedidos como una perturbación medida para desalentar el uso de recompensas económicas en la intervención. Además, este enfoque reduce la carga computacional sobre el problema de optimización, lo que disminuye el tiempo de ejecución y permite cálculos en línea más rápidos.Las restricciones descritas por las ecuaciones (27) – (30) se incorporan al sistema presentado en la ecuación (13) definiendo los valores para las matrices E1, E2, E3, E4, E5, y E. Puede encontrar una descripción más detallada en (Nandola and Rivera, 2013).
Etapa de formación de mantenimiento
Una vez que se ha alcanzado el objetivo deseado y se ha mantenido durante un número predeterminado de días, se inicia una etapa de entrenamiento de mantenimiento de la intervención. Aquí el algoritmo HMPC debe reconfigurarse para mantener los pasos diarios realizados a pesar de una reducción del número de puntos y, si es necesario, reactivar el uso de puntos si ocurre una recaída significativa. Para adaptar el rendimiento de HMPC a estas nuevas consideraciones, los pesos de penalización en la función objetivo se ajustan durante el curso de la intervención.Durante la fase de iniciación, el objetivo principal es lograr los pasos diarios requeridos. El punto de referencia de salida es y = [y
y], donde y es la cantidad deseada de pasos (por ejemplo, 10000). Considerando los vectores u y y definidos en las ecuaciónes (24)-(25), la matriz de peso Q se establece en la función objetivo (14) para imponer un seguimiento del valor fijado solo en la variable y4 (pasos diarios). Las matrices de peso restantes en la ecuación (14) se consideran nulas.La etapa de mantenimiento se habilita cuando el objetivo se ha logrado y se ha mantenido al menos n − 2 veces durante los últimos n días. El objetivo se considera alcanzado cuando la diferencia entre los pasos reales y la referencia se encuentra dentro de una tolerancia predefinida tol. Una nueva variable logica auxiliar δ(k), que no está incluida en la intervención general de HMPC por (11)-(13), se define como
Por tanto, la segunda fase se activa en el tiempo de muestreo k si
Durante esta fase es necesario reconfigurar el controlador para apuntar a un uso bajo de puntos (u9). Si las entradas de destino son: u = [u
u], se debe seleccionar un valor apropiado para ur9 (por ejemplo, ur9 = 0 puntos) y la matriz de peso de entrada se cambia a . El valor de depende del rendimiento esperado del seguimiento del punto de ajuste frente al objetivo de entrada. Si en algún momento k no cumple con la conditión especificada en la ecuación (33) (por ejemplo, una recaída), se reactiva la fase de inicio.Cabe resaltar que se ha utilizado la formulación completa del enfoque HMPC establecido en (Nandola and Rivera, 2013); sin embargo, la configuración de valores de parámetros y de las diferentes matrices de peso, se ha adaptado a las necesidades específicas de la intervención comportamental.
Resultados de la simulación de lazo cerrado
En esta sección, se presentan los resultados de la simulación de lazo cerrado que se basan en el modelo ARX estimado descrito en la Figura 3. La intervención comienza en el día cero con el objetivo de cambiar el estilo de vida sedentario del participante, rendimiento promedio de 5,000 pasos/día, a un estilo de vida más activo con un promedio de 10,000 pasos/día. Este escenario de simulación está inspirado en el rendimiento observado en intervenciones previas de actividad física con componentes similares (King et al., 2013). El modelo ARX regularizado estimado a partir de los datos experimentales de Just Walk está implícito como modelo de controlador para el HMPC con Metas (u8), y Puntos esperados (u9) como las variables manipuladas. Para minimizar la posibilidad de que los participantes se vuelvan dependientes de las recompensas económicas, la señal de Puntos concedidos (u10) se considera una perturbacion medida. Otra perturbación importante considerada en este caso es Contexto ambiental: temperatura
; las desviaciones de la temperatura media pueden tener un impacto significativo en Comportamiento (y4). Además, dada su importancia, el modelo del sistema se ha aumentado para incluir Logro de metas (y7) como salida del sistema, lo que permite la aplicación de restricciones en esta señal (El Mistiri et al., 2022).Los parámetros para el HMPC son los siguientes: el tiempo de muestreo T = 1 día, el horizonte de predicción p = 20 días y el horizonte de movimiento m = 7 días. Los límites mínimo y máximo para las variables manipuladas son u = [5000 0], u = [10000 500], Δu = [−1000 – 500], Δu = [1000 100]. Las restricciones de salida son y = [0 – 100], y = [∞ ∞]. La matriz de pesos para supresión de movimientos de entrada QΔ, y la matriz de pesos de variables manipuladas Q, se definen en las ecuaciones (34) y (35) respectivamente.
Un punto de referencia objetivo para Puntos Esperados (u9) se establece en 0 puntos / día, que se persigue a través del peso asignado en Q. Este peso se incrementa en la fase de mantenimiento, por lo que el objetivo de 0 puntos / día para u9 tiene una prioridad más alta. Los valores categóricos de los componentes de la intervención están definidos por los conjuntos U8 = {5000, 6000, 7000, 8000, 9000, 10000}, y U9)(k) = {100, 200, 300, 400, 500} con y . La perturbación no medida se asume gaussiana con además, no se considera ningún desajuste de modelo de planta. Para permitir un aumento progresivo de los pasos realizados y un rápido rechazo de perturbaciones, los parámetros de ajuste son α = [0,9 0], α = [0,2 0,99], f = [0,3 0]. Para la ejecución del algoritmo de optimización HMPC se utiliza MATLAB® junto con el paquete de software IBM ILOG CPLEX® 12.10.Para encontrar los parámetros anteriores ha sido necesario evaluar distintos valores de las matrices de pesos, las restricciones del problema, y los parámetros de sintonización del controlador. Las restricciones se definen principalmente para corresponder a un ejemplo típico de lo que sería una intervención implementada en un participante en el campo, y son consistentes con ejemplos presentados en (Martín et al., 2016; Martín, 2016). La sintonización del controlador emplea distintas facetas. Principalmente están los valores de los filtros explicados en las ecuaciones (19)-(23) que corresponden a valores de sistemas discretos que se pueden relacionar claramente con constantes de tiempo. El valor de α = [0,9 0] corresponde a una constante de tiempo de 9,5 días en la respuesta de comportamiento, y se refleja en un tiempo de asentamiento de aproximadamente 30 días en la primera etapa de la intervención. La definición de α = [0,2 0,99] refleja el objetivo que el controlador responda ágilmente a cambios de temperatura, pero demuestre menor sensitividad a los puntos otorgados. El valor de f = 0,3 favorece un rechazo veloz de las perturbaciones inmedibles. Con respecto a las matrices de peso, se usa un valor pequeño de QΔ para evitar oscilaciones en la respuesta. Así mismo, se utiliza un valor de Q(2, 2) = 0,5 (con punto de consigna de cero) para reducir la dependencia del controlador en el uso de puntos otorgados; este peso se aumenta a Q(2, 2) = 1 durante la fase de mantenimiento.Los resultados de la simulación se muestran en la Figura 7 donde Metas (u8), y Puntos Esperados (u9) son generados por el algoritmo HMPC en una configuración de intervención adaptativa. Como se explicó anteriormente, Puntos Concedidos son iguales a Puntos Esperados solo cuando se cumplen las metas diarias. La reconfiguración del controlador se realiza en la etapa de mantenimiento de la intervención, ilustrada por regiones sombreadas (en verde); esta fase se activa cuando se alcanza el punto de ajuste de 10,000 pasos/día durante al menos 4 días dentro de los últimos n = 6 días, con una tolerancia de tol4 = 700 pasos/día. Durante la fase de mantenimiento se aplica una reducción en la cantidad de puntos esperados y otorgados mediante el ajuste de la matriz de peso variable manipulada a Q = diag(0, 1). El impacto de las perturbaciones medidas, en forma de Contexto ambiental: temperatura se evalúa en la simulación con un pulso negativo a partir del día 60 y con una duración de 15 días; como resultado, el conteo de pasos del participante disminuye fuera de la región de tolerancia y el controlador reacciona desactivando la fase de mantenimiento, volviendo a activar la fase de intervención principal, reduciendo la meta diaria para evitar una caída significativa en Logro de la meta (y7; mostrado en la Figura 8).
Figura 7:
La simulación resulta de aplicar un controlador HMPC restringido en el modelo ARX estimado a partir de datos experimentales en presencia de perturbaciones medidas (desviaciones de la temperatura diaria promedio) y perturbaciones desconocidas no medidas. Los parámetros del controlador son: p = 20, m = 7, días Q = diag(1, 0), Q(2, 2) = 0,5 (Q(2, 2) = 1 en fase de mantenimiento), y QΔ = diag(0, 0,01). Se aplican las siguientes restricciones: 0 ≤ u8 ≤ 10000 pasos/día, 0 ≤ u9 ≤ 500 puntos/día, −500 ≤ Δu9 ≤ 100 puntos/día, y −100 ≤ y7 ≤ ∞ pasos/día.
Figura 8:
Figura que muestra una perturbación estocástica no medida que influye en el comportamiento (arriba) en contraste con el logro de la meta (abajo; y7 = y4 − u8). La línea en rojo representa la restricción del límite inferior en el logro de la meta.
Los resultados de la Figura 7 ilustran la eficacia de HMPC en la gestión de intervenciones comportamentales personalizadas. Primero, el comportamiento deseado (en pasos / día) se logra dentro de los 30 días a partir de la puesta en servicio del controlador con solo una violatión infrecuente de la restricción de logro de la meta. Al comparar los resultados de la simulación de lazo cerrado con el conocimiento de la dinámica de la planta en la Figura 6, está claro que debido a que la ganancia de Metas a Comportamiento es menor que 1, se necesita un valor sostenido de Puntos Esperados para que este participante alcance el punto de ajuste. Como resultado, Puntos Esperados permanece en un valor de 200 puntos / día durante una gran parte de la intervención, a pesar de un objetivo variable manipulado de 0 puntos por día y un peso distinto de cero en Q (configuración destinada a desalentar dependencia financiera). Desde el punto de vista del cambio de comportamiento, a medida que los participantes sigan involucrados en la intervención, los resultados positivos de un comportamiento saludable deberían aumentar (y mantener) la actividad. Esto destaca la necesidad de datos y modelos más sofisticados para describir dinámicas complejas asociadas con el cambio de comportamiento; este efecto podría capturarse en el modelo TCS a través de interacciones con construcciones comportamentales como Resultados de comportamiento (que resultó ser difícil de medir de manera confiable en Just Walk) o mediante la construcción de modelos de simulación más sofisticados que incorporen un comportamiento no lineal anticipado.Como consecuencia de algunas especificaciones rígidas para la intervención (por ejemplo, uso mínimo de los puntos esperados, conjuntos categóricos para los puntos y metas esperados y un límite bajo en el logro de la meta), es difícil alcanzar una solución óptima que cumpla con todos los requisitos. La Figura 8 muestra el desempeño del controlador en lo que respecta al rechazo de perturbaciones no medidas y la restricción del logro de metas. La restricción de salida sobre el logro de la meta se viola en muíltiples ocasiones, que corresponden a las mayores magnitudes en la perturbación no medida, como se ve en la Figura 8. Un medio para mejorar el rendimiento del controlador con respecto a la satisfacción de la restricción de logro de la meta es hacer que las variables manipuladas sean continuas y menos dependientes de los valores definidos por las categorías; esto sigue de acuerdo con El Mistiri et al. (2022).
Conclusiones
En este trabajo se propone una intervención de HPMC para diseñar una intervención de actividad física comportamental. A medida que avanza la intervención, el individuo ganará confianza y, por lo tanto, los puntos de recompensa se reducen y eventualmente es posible que se eliminen totalmente. Esta característica se representó de manera efectiva a través de la reconfiguración del controlador lograda mediante el uso de pesos de penalización en los puntos para desalentar su uso. Durante esta etapa de mantenimiento, el comportamiento objetivo se logra mediante mejoras en el logro de metas y aumento en la autoeficacia del participante, lo que facilita el uso de menos puntos.Se presentó en este trabajo una simulación en lazo cerrado basada en un modelo obtenido de un participante representativo de la intervención Just Walk. El método de identificación envuelve una señal multiseno con un modelo ARX de cuatro entradas obtenido por regularización. Los resultados de la simulación demuestran un buen rendimiento del algoritmo HMPC, con un seguimiento estricto del punto de ajuste y un rechazo aceptable de perturbaciones. Cuando se logra el objetivo, el sistema puede mantener el comportamiento incluso con la reducción de puntos impuesta por la etapa de mantenimiento. En presencia de alteraciones importantes y / o recaídas, se reactiva la fase de entrenamiento de iniciación comportamental.Este trabajo forma parte de una serie de aplicaciones innovadoras de conceptos de ingeniería de control e identificación de sistemas que inicialmente se llevaron a cabo como parte de la intervención Just Walk en la Universidad Estatal de Arizona (ASU) (Martín et al., 2015a,c; Hekler, 2015) y que ahora son parte de la intervención YourMove, una colaboración de la Universidad de California en San Diego y ASU (Hekler and Rivera, 2021). El objetivo principal es incluir esta intervención en el diseño de una intervención de salud comportamental a largo plazo que incluya fases de identificación, inicio y mantenimiento, vinculado con una metodología de identificación en lo que designamos como el Control Optimization Trial (Hekler et al., 2018).
Authors: Sayali S Phatak; Mohammad T Freigoun; César A Martín; Daniel E Rivera; Elizabeth V Korinek; Marc A Adams; Matthew P Buman; Predrag Klasnja; Eric B Hekler Journal: J Biomed Inform Date: 2018-02-01 Impact factor: 6.317
Authors: Elizabeth V Korinek; Sayali S Phatak; Cesar A Martin; Mohammad T Freigoun; Daniel E Rivera; Marc A Adams; Pedja Klasnja; Matthew P Buman; Eric B Hekler Journal: J Behav Med Date: 2017-09-16
Authors: Eric B Hekler; Daniel E Rivera; Cesar A Martin; Sayali S Phatak; Mohammad T Freigoun; Elizabeth Korinek; Predrag Klasnja; Marc A Adams; Matthew P Buman Journal: J Med Internet Res Date: 2018-06-28 Impact factor: 5.428