En este trabajo de investigación, se estudia el problema de control de seguimiento de trayectorias en un péndulo de rueda inercial. Los resultados son presentados de una forma constructiva. Primero, se obtiene un controlador basado en el modelo utilizando la técnica de linealización por retroalimentación de salida. Posteriormente, el controlador es rediseñado al incorporar una red neuronal con el propósito de evitar el conocimiento de los parámetros exactos del péndulo de rueda inercial, y se obtiene un diseño robusto. Se usa un perceptrón de dos capas, cuyos pesos de salida son actualizados en tiempo real utilizando una ley de adaptación derivada del análisis de convergencia de las soluciones del sistema de lazo cerrado. El lema de Barbalat se utiliza para concluir que las trayectorias del error de seguimiento del péndulo convergen a cero. Se presentan simulaciones numéricas y experimentos en tiempo real, que confirman los resultados teóricos.
In this paper, the problem of trajectory tracking control in an inertia wheel pendulum is studied. Results are presented in a constructive form. First, a model-based controller is obtained by using the output feedback linearization technique. Then, the controller is redesigned by incorporating a neural network with the aim of avoiding the exact parameters knowledge of the inertia wheel pendulum, obtaining a robust control scheme. A two-layer perceptron is used, whose output weights are updated in real-time using an adaption law derived from the analysis of convergence of the closed-loop system solutions. Barbalat's lemma is used to conclude that the pendulum tracking error trajectory converges to zero. Numerical simulations and real-time experiments are presented, which confirm the theoretical results.
El péndulo de rueda inercial es un mecanismo sub-actuado [1]. En la figura 1, se muestra un dibujo del péndulo de rueda inercial. El mecanismo está formado por un péndulo que tiene unida en su extremo una rueda, la cual es accionada por un motor de corriente directa (CD), cuyo eje de rotación es paralelo al eje de rotación del péndulo. En este mecanismo, el cambio del momento angular de la rueda se utiliza para controlar el movimiento del péndulo. La motivación del estudio del mecanismo es, principalmente, la enseñanza y la investigación de nuevos métodos de control no lineal, así como de aplicaciones de estabilización angular de algunos mecanismos, entre los cuales se encuentran los satélites [2,3], las bicicletas robóticas [4–6] y la esfera robótica [7]. Estos mecanismos tienen integradas ruedas inerciales accionadas con motores eléctricos, de modo que el cambio de momento angular al aplicar un torque a cada rueda inercial se utiliza para controlar su dirección y orientación.
Un reto en el control del péndulo de rueda inercial es estabilizarlo en la posición vertical superior o posición inestable. Este problema es conocido con el nombre de regulación. Otro reto es hacer que el péndulo siga una trayectoria de referencia, tanto en la posición vertical superior como en la posición vertical inferior. Un último problema, conocido como swing-up, es llevar el péndulo desde la posición vertical inferior hasta la posición vertical superior.
El problema de control de regulación y swing-up fue resuelto originalmente por Spong, Corke y Lozano [8], utilizando los métodos de retroalimentación de estados y pasividad. Se han utilizado otros métodos de control para el swing-up y la regulación, como el control de la estructura variable [9–11], el backstepping [12] y la regulación cuadrática lineal [12,14], entre otros.
Este artículo se dedica a resolver el problema de seguimiento de las trayectorias del péndulo de una rueda inercial utilizando las redes neuronales. En la literatura, no se encontraron trabajos de investigación sobre el control del seguimiento de las trayectorias de un péndulo de rueda inercial utilizando redes neuronales, pero se encuentran algunos trabajos de investigación en que las redes neuronales se aplican para otros mecanismos similares. Aun así, son pocos los trabajos de investigación que presentan un estudio riguroso de estabilidad para controlar los mecanismos subaccionados utilizando redes neuronales. A continuación, se presentan algunos trabajos de investigación sobre el control de sistemas subaccionados que utilizan las redes neuronales o la lógica difusa.
En [15], se presenta un controlador que resuelve el problema de swing-up y de regulación de un carro-péndulo en la posición superior. Se comparan dos controladores neuronales: uno utiliza funciones de activación en la capa oculta del tipo tangente hiperbólica y el otro, funciones gaussianas. En la capa de salida, los dos controladores utilizan funciones lineales. Cabe destacar que en [15] no se presentan estudios de convergencia.
En [16], se describe un controlador neuronal de dos capas para estabilizar y garantizar el seguimiento de una trayectoria en un carro-péndulo en la posición vertical superior. Se considera que el modelo dinámico no es conocido. Se presenta un estudio teórico de la estimación de pesos de la red neuronal. Los resultados experimentales confirman la teoría propuesta.
En [17], se propone un controlador neuronal recurrente. La red neuronal representa un esquema de control PID, el cual se aplica a un doble péndulo sobre un carro con el objetivo de estabilizarlo. Los pesos de la red neuronal se actualizan en tiempo real. Se presenta un análisis de estabilidad que se valida con los resultados experimentales.
En [18], se presenta un controlador neuronal recurrente con el objetivo de estabilizar el péndulo en la posición vertical superior. Se consideran variaciones paramétricas en el sistema. Los resultados experimentales son satisfactorios, pero no se da un estudio de convergencia.
En [19], también se utiliza un controlador basado en la lógica difusa para estabilizar el sistema carro-péndulo. Un problema similar se aborda en [20] para un sistema de doble péndulo sobre un carro y, en [21], para un péndulo paralelo sobre un carro. Se estudia la estabilización del sistema en la posición superior, pero no se presenta ningún estudio de convergencia.
En [22], se propone una metodología de estabilización y de seguimiento de las trayectorias utilizando controladores basados en la lógica difusa para un péndulo invertido sobre un carro de dos ruedas, y los resultados experimentales obtenidos avalan la teoría expuesta.
En [22], se propone un controlador neuronal para el balanceo de una llanta utilizando el cambio de momento de dos ruedas inerciales, mientras que un tercer accionador mueve la llantas linealmente. Se presentan simulaciones para evaluar el desempeño del controlador y no se aporta ningún estudio de convergencia.
En este trabajo de investigación, se presenta primero un controlador basado en el modelo para garantizar el seguimiento de una trayectoria deseada en un péndulo de rueda inercial. Se introduce un análisis de la dinámica externa e interna del sistema de lazo cerrado. Posteriormente, se propone un nuevo esquema, que incorpora una red neuronal, con el propósito de evitar el conocimiento de los parámetros exactos del péndulo de rueda inercial, y se obtiene un diseño robusto. Se utiliza un perceptrón de dos capas, cuyos pesos de salida son actualizados en tiempo real. Se presentan simulaciones de los dos controladores para verificar la teoría expuesta y se muestran resultados de tiempo real del controlador neuronal.
El artículo se organiza de la forma siguiente: en la sección 2, se representa el modelo dinámico del péndulo; en la sección 3, se expone la problemática a resolver; en la sección 4, se presenta el desarrollo del controlador basado en el modelo y se realiza un estudio de la dinámica interna del péndulo; en la sección 5, se propone el controlador neuronal y se realiza un análisis de convergencia; en la sección 6, se presentan los resultados de simulación y los experimentos, y se discuten los resultados, y, por último, en la sección 7, se exponen las conclusiones que se derivan de la presente investigación.
2Modelo dinámico del pénduloEl modelo dinámico del péndulo se obtiene de [1], al cual se le ha sumado la fricción viscosa. El modelo se escribe a continuación
con posiciones angulares q1 y q2. Además, τ es el torque aplicado a la rueda, g es la aceleración de gravedad, m0 es la masa de la varilla del péndulo y mij, con i, j=1, 2, son elementos de inercia. El coeficiente de fricción viscosa fv1 está presente en la unión del péndulo y la base, y fv2 en la rueda y el péndulo, respectivamente.El modelo dinámico (1)-(2) también puede representarse en espacio de estado, de la forma
dondecon α=m11m22−m122 y m22=m12.3Problemática a resolverEl problema es el diseño de un controlador neuronal τ(t) que resuelva el seguimiento de una trayectoria de referencia qd(t) para el péndulo de rueda inercial en la posición inferior, manteniendo acotada la velocidad q˙2(t) de la rueda.
Se asume que qd(t) es, por lo menos, dos veces diferenciable y
Así, definiendo el error de seguimiento de trayectoria comoel control τ(t) es tal que4Controlador basado en el modeloLa dinámica del error de seguimiento se obtiene derivando la ecuación (8) dos veces respecto al tiempo. Se representa como
Redefiniendo los parámetros,y, tomando como salidalas ecuaciones (10)-(11) se escriben comoSe propone el siguiente controlador, basado en el modelo
donde kp, kd, δ son ganancias de control positivas. Sustituyendo (15) en (14), la dinámica del error de seguimento esy la dinámica de la rueda es dada porLas ecuaciones (16)-(17) y (18)-(19) representan el sistema en lazo cerrado. Se puede demostrar que y(t) y y˙(t) convergen a cero cuando el tiempo tiende a infinito, lo que implica, por (12), que el límite (9) se satisface con el controlador basado en el modelo en (15).4.1Dinámica internaDe acuerdo con el teorema 13.1 de Khalil [26], el sistema dinámico dado por las ecuaciones (16)-(17) y (18)-(19) se puede representar, en la forma normal, con un cambio de variables, de la forma
tal quese satisface, donde η=[η1η2]T, z=[e1 e˙1 q2 q˙2]T y g=[0 g1 0 g2]T. Entonces, derivando con respecto al tiempo (20)-(21) y usando las ecuaciones (16)-(19), la dinámica interna esEl conjunto de ecuaciones (16)-(17) y (24)-(25) es la representación en la forma normal de (16)-(19).Dado que el controlador (15) garantiza que la salida y(t)→0 y y˙(t)→0 cuando t→∞, entonces la dinámica cero es dada por
El resto de la discusión solo considera el estado η2(t), que representa, de forma indirecta, la velocidad de la rueda q˙2(t). Integrando (27) con respecto al tiempo desde 0 a t, se tiene que
Escogiendo una trayectoria qd(t) tal que se satisfaga la condición (7) para todo t≥0, entonces la solución η2(t) de (28) satisface |η2(t)|<∞. Por tanto, existen condiciones suficientes para que el estado η2(t) de la dinámica interna (25) sea acotado, al menos para las condiciones iniciales, en un conjunto compacto que contiene el origen.5Control neuronalEn esta sección, se propone un controlador neuronal para el seguimiento de una trayectoria del péndulo de rueda inercial en la posición inferior del péndulo.
El sistema de ecuaciones (13)-(14) se puede representar como
dondeCon el propósito de lograr el objetivo de control expresado en (9), y considerando la función de salida en (12), se propone el controlador neuronal siguiente
donde α, δ>0, y fˆ(x) es una estimación de f(x) obtenida por una red neuronal. La ventaja del controlador (32) es que evita la condición de conocer los parámetros físicos del péndulo de rueda inercial.A continuación, se explica la deducción de la estimación fˆ(x). Primero, nótese que la función f(x):ℝ4→ℝ en (31) puede reexpresarse utilizando la propiedad de aproximación universal de las redes neuronales [24,25],
donde W∈ℝL es el vector de pesos de salida ideales, σ=[σ1 σ2 …σL]∈ℝL es un vector que contiene funciones sigmoideas, V∈ℝ5×L denota la matriz de pesos de entrada, ϵ∈ℝ es el error de aproximación de la red neuronal, x=[q1 q˙1 q˙2 q¨d]T∈ℝ4 es el vector de señales de entrada a la red neuronal, x¯=[1 xT]T∈ℝ5 es el vector de señales de entrada aumentado y L es el número de neuronas de la red.Se propone la función fˆ(x) utilizando la estructura del lado derecho de la ecuación (33) del modo siguiente:
donde Wˆ∈ℝL es el vector de pesos de salida estimados de la red neuronal, vij son los elementos de la matriz V de pesos de entrada y voi es el valor de umbral de cada neurona en la capa oculta.Los valores de vij y voi son seleccionados aleatoriamente y el vector de pesos de salida Wˆ(t) se obtiene por medio de la siguiente ley de adaptación:
donde N∈ℝL×L es una matriz diagonal definida positiva y κ>0. Cabe mencionar que la ley de adaptación de pesos (35) se obtiene del análisis de convergencia de las soluciones del sistema de lazo cerrado, el cual se presentará más adelante.El diagrama del controlador neuronal (32) se ilustra en la figura 2.
Como ya se ha mencionado, el propósito de la red neuronal fˆ(x) expresada por (34) es aproximar la función f(x) en (31) y, de esta forma, evitar el conocimiento de los parámetros del péndulo de rueda inercial en la ley de control. De forma adicional, la compensación neuronal en el controlador propuesto (32) conduce a un sistema de lazo cerrado del cual se extrae la conclusión de que el error de seguimiento e1(t)=qd(t)−q1(t) tiende a cero en forma asintótica, como se verá más adelante.
La arquitectura de la red neuronal fˆ(x) en (34) es un perceptrón de dos capas, en donde los pesos de entrada son aleatorios y los pesos de salida son ajustados en tiempo real, utilizando (35). Nótese que el entrenamiento de la red neuronal no es supervisado. A medida que el tiempo va transcurriendo, la red neuronal va actualizando sus pesos, aprendiendo así la dinámica del péndulo en tiempo real.
Sustituyendo (32) en (30), la dinámica del error de seguimiento de las ecuaciones (29)-(30) se reescribe de la forma siguiente:
donde W˜=W−Wˆ es el error de pesos de salida de la red neuronal.Dado que W˜˙=−Wˆ˙ y los pesos ideales W son constantes, con ||W||≤μ, la dinámica de error de pesos de salida es
El sistema en lazo cerrado es definido por las ecuaciones (24)-(25), (36)-(37) y (38).Primero se prueba que se satisface el límite (9). Se propone la función definida positiva
dondegarantiza que V sea definida positiva.Derivando V con respecto al tiempo,
Sustituyendo (38) en (40) y simplificando,Es posible deducir que V˙≤0 si se cumplen la condicionesEntonces, para que V sea definida positiva y V˙ semidefinida negativa, hay que satisfacer (39), (41) y (42). Nótese que (39) y (42) pueden reformularse comoEstas condiciones implican que las soluciones y(t),y˙(t)∈ℝ y W˜(t)∈ℝL son acotadas.
Por el lema de Barbalat [26],
lo que implica, por (12), que se satisface el límite (9). Considerando el análisis de la sección 4.1, la solución η2(t) es acotada para todo t≥0.6ResultadosEn esta sección, se muestran simulaciones de los dos controladores: el basado en el modelo en (15) y el neuronal en (32). También se presentan experimentos en tiempo real del controlador neuronal en (32) para el seguimiento de una trayectoria deseada del péndulo.
6.1Sistema experimentalSe cuenta con una plataforma experimental del péndulo de rueda inercial, construida en CITEDI-IPN.
La plataforma está formada por:
- •
Un PC con 2 GB de RAM.
- •
Una tarjeta de adquisición de datos Sensoray 626.
- •
Un codificador óptico US Digital S1-1000-236-IE-B-D para medir la posición del péndulo.
- •
Un servomotor Pittman, modelo 8222S003, con codificador integrado, que se utiliza como accionador y sensor de la posición de la rueda.
- •
Un servoamplificador, modelo 12A8, de Advanced Motion & Controls, para dar potencia al servomotor.
El PC trabaja con el sistema operativo Windows XP y tiene instalado Matlab 2007a y Simulink, el cual se comunica con la tarjeta de adquisición de datos por medio de Real-Time Windows Target, con una frecuencia de muestreo de 1 [kHz].
Se ha considerado que la entrada de control al sistema es el voltaje de entrada al servoamplificador v(t), tal como se muestra en la figura 3. Sin pérdida de generalidad y despreciando la dinámica eléctrica del motor, es posible considerar que
Ello significa que la ganancia del servoamplificador se incorpora a la del sistema (1)-(2).Partiendo de esta consideración, en la tabla 1 se indica la estimación de los valores de los parámetros utilizados en el modelo del péndulo de rueda inercial, los cuales se obtuvieron siguiendo un método de identificación paramétrica de mínimos cuadrados [27,28]. Como la identificación del sistema incluye el servoamplificador y el motor, la acción de control será, en adelante, el voltaje v(t).
6.2Resultados de la simulaciónEl propósito de las simulaciones es comprobar los resultados teóricos, sin considerar las perturbaciones introducidas en el muestreo de las señales de posición y la discretización de los controladores. Es importante destacar que el controlador neuronal (32), dada su capacidad adaptativa, no exige conocer los parámetros del modelo dinámico del péndulo para implementarlo, a diferencia del controlador basado en el modelo (15), que sí requiere conocer de antemano los parámetros del sistema (1)-(2).
Se propone la trayectoria de referencia
para el controlador basado en el modelo en (15) y para el controlador neuronal en (32), con valor de a=0.25 [rad], ω=7 [rad/s] y b=3.1416 [rad]. La trayectoria (44) codifica una oscilación periódica con el péndulo hacia abajo. Las condiciones iniciales del péndulo de rueda inercial eran q1(0)=3.14 [rad], q2(0)=0 [rad], q˙1(0)=0 [rad/s] y q˙2(0)=0 [rad/s].Se ha llevado a cabo una simulación utilizando el controlador basado en el modelo (15), con ganancias
La gráfica del voltaje aplicado v(t) a la rueda se muestra en la figura 4 y la evolución temporal de la posición del péndulo q1(t) se muestra en la figura 5.Para el controlador neuronal dado en (32), se utilizaron las ganancias en (45), α=1, N=diag10(100) y κ=0.5. El número de neuronas en la capa oculta era L=10. Las condiciones iniciales fueron las que se utilizaron en la simulación del controlador basado en el modelo (15).
La figura 4 describe la acción de control v(t) aplicada a la rueda y la figura 5 ilustra la posición del péndulo q1(t).
Con respecto a las simulaciones numéricas, para realizar una comparación justa del desempeño de los controladores, se propusieron ganancias de control similares. La selección de ganancias de control satisface las condiciones (41) y (43), que aseguran de forma teórica la convergencia del error de seguimiento y(t)=e1(t) en (8).
En la figura 5, se observa que la trayectoria actual del péndulo q1(t) tiende a la trayectoria deseada qd(t) cuando el tiempo se incrementa, lo cual implica, asimismo, que ambos controladores satisfacen el objetivo de control (9), como ya se había predicho en la teoría.
Cabe mencionar también que las velocidades articulares q˙1(t) y q˙2(t) permanecieron acotadas.
6.3Resultados experimentalesA continuación, se muestran los resultados experimentales para el controlador neuronal (32). En la realización del experimento, se siguió la misma trayectoria qd(t) que en (44), las mismas condiciones iniciales utilizadas en la simulación y las ganancias de control kp=10, kd=3, δ=0.5, α=0.1, N=diag10(20) y κ=0.05.
Obsérvese que, en la implementación en tiempo real, las mediciones de posición son cuantizadas y el controlador es implementado en forma discreta, utilizando un período de muestreo de 1×10−3 [s]. Los resultados experimentales obtenidos se muestran en las figuras 6-9.
En la figura 6, se muestra el voltaje de control aplicado v(t); en la figura 7, se ilustran la posición articular q1(t) y la trayectoria deseada qd(t).
Las velocidades articulares q˙1(t) y q˙2(t) están en la figura 8. La figura 9 muestra las contribuciones individuales de voltaje de compensación neuronal, proporcional derivativo −kpy−kdy˙ y el término de función signo −δsign(αy+y˙) que componen el controlador adaptable neuronal (32).
Las limitaciones de la plataforma experimental no han permitido utilizar las ganancias obtenidas en simulación, por lo cual se han utilizado ganancias más pequeñas, con la finalidad de reducir el ruido de muestreo en el voltaje de control v(t).
Además, se decidió hacer el experimento de la ganancia de adaptación de pesos de salida N=diag10(0.02), para 0≤t<2 [s], y N=diag10(20), para t≥2 [s], con el fin de permitir que la aportación neuronal fˆ(x) aportara valores de voltaje dentro de los límites físicos de la plataforma experimental, como puede verse en la figura 6, para el voltaje de control v(t), y en la figura 9, para las contribuciones de la acción neuronal, proporcional derivativo −kpy−kdy˙ y el término de función signo −δsign(αy+y˙).
En la figura 9, se observa que la aportación de la acción neuronal es mucho mayor que la acción PD después de 2 [s], lo que muestra la capacidad adaptativa de la red neuronal. En la figura 7, se muestra que la posición q1(t) sigue la trayectoria de referencia qd(t), a pesar de la discretización del controlador (32) y la medición cuantizada de los codificadores ópticos de las señales de posición q1(t) y q2(t), así como la derivada discreta utilizada para estimar las velocidades q˙1(t) y q˙2(t).
Otra observación importante es que las velocidades q˙1(t) y q˙2(t), que se ilustran en la figura 8, permanecen acotadas.
7ConclusionesEn este artículo, se ha utilizado la técnica de linealización por retroalimentación de salida para obtener un controlador basado en el modelo y un controlador neuronal.
Se han comparado los resultados de simulación de ambos controladores y se ha verificado que el error de seguimiento del péndulo converge a cero.
Adicionalmente, se han presentado resultados de tiempo real para el controlador neuronal, y se ha comprobado su capacidad para garantizar el seguimiento de las trayectorias del péndulo con precisión, lo cual, al mismo tiempo, indica robustez ante perturbaciones como la implementación en forma discreta y ruido de cuantización.
Trabajo apoyado por la Secretaría de Investigación y Posgrado–IPN, TecNM y el CONACyT por medio de los proyectos número 176587 y 134534, México.