Javascript must be enabled to continue!
Control via Reinforcement Learning : Controle via Aprendizado por Reforço
View through CrossRef
This work presents a comprehensive review and practical application of Reinforcement Learning (RL) algorithms in control engineering. The theoretical groundwork of RL is laid out, establishing its connection to Optimal Control and detailing various algorithms, including Dynamic Programming (Value Iteration and Policy Iteration), Q-learning (Tabular and Deep Q-Learning/DQN), and Actor-Critic methods (Deep Deterministic Policy Gradient/DDPG and Twin Delayed Deep Deterministic Policy Gradient/TD3). The algorithms are first validated by comparing Deep Q-Learning against Dynamic Programming for a simple discrete Markov Decision Process (MDP) with a small state space, demonstrating the capability of approximation methods to converge toward the exact optimal policy, although this is not guaranteed in larger environments. Subsequently, performance comparisons are conducted between the RL agents (DQN, DDPG, TD3) and a Linear Quadratic Regulator (LQR) in simulated environments for classic control systems: the simple pendulum, cart-pole, and rotary pendulum. Results show that while the LQR is highly effective near the unstable equilibrium point, RL agents, particularly TD3, demonstrate superior generality for initial conditions farther from the linearization point. The study also examines learning stability, confirming TD3's robustness against Q-value overestimation, a problem observed in DDPG and DQN training.||Este trabalho apresenta uma revisão abrangente e uma aplicação prática de algoritmos de Aprendizado por Reforço (Reinforcement Learning - RL) no domínio da engenharia de controle. A base teórica do RL é estabelecida, demonstrando sua conexão com o Controle Ótimo e detalhando diversos algoritmos, incluindo Programação Dinâmica (Iteração de Valor e Iteração de Política), Q-learning (Tabular e Deep Q-Learning/DQN) e métodos AtorCrítico (Deep Deterministic Policy Gradient/DDPG e Twin Delayed Deep Deterministic Policy Gradient/TD3). Os algoritmos são inicialmente validados por meio da comparação entre o Deep Q-Learning e a Programação Dinâmica em um Processo de Decisão de Markov (MDP) discreto e simples, com um pequeno espaço de estados, o que demonstra a capacidade dos métodos de aproximar a política ótima exata, embora isso não seja algo garantido para ambientes maiores. Em seguida, são realizadas comparações de desempenho entre os agentes de RL (DQN, DDPG, TD3) e um Regulador Linear Quadrático (LQR) em ambientes simulados de sistemas clássicos de controle: o pêndulo simples, o pêndulo invertido em carrinho (cart-pole) e o pêndulo rotativo. Os resultados mostram que, embora o LQR seja altamente eficaz próximo ao ponto de equilíbrio instável, os agentes de RL, particularmente o TD3, demonstram maior generalidade para condições iniciais distantes do ponto de linearização. O estudo também examina questões relacionadas à estabilidade do aprendizado, confirmando a robustez do TD3 em relação à superestimação dos valores-Q, um problema observado durante o treinamento de DDPG e DQN.||Por fim, propõe-se e implementa-se uma nova estratégia de controle híbrido, combinando o TD3 para tarefas não lineares (como o balanço ou o swing-up) e o LQR para a estabilização. Essa abordagem híbrida demonstra uma redução significativa no custo cumulativo total, mostrando-se particularmente eficaz no sistema mais complexo e não linear do pêndulo rotativo. Os resultados obtidos validam a relevância e o potencial do RL como alternativa robusta para o projeto de controladores aplicados a sistemas não lineares complexos do mundo real.
Title: Control via Reinforcement Learning : Controle via Aprendizado por Reforço
Description:
This work presents a comprehensive review and practical application of Reinforcement Learning (RL) algorithms in control engineering.
The theoretical groundwork of RL is laid out, establishing its connection to Optimal Control and detailing various algorithms, including Dynamic Programming (Value Iteration and Policy Iteration), Q-learning (Tabular and Deep Q-Learning/DQN), and Actor-Critic methods (Deep Deterministic Policy Gradient/DDPG and Twin Delayed Deep Deterministic Policy Gradient/TD3).
The algorithms are first validated by comparing Deep Q-Learning against Dynamic Programming for a simple discrete Markov Decision Process (MDP) with a small state space, demonstrating the capability of approximation methods to converge toward the exact optimal policy, although this is not guaranteed in larger environments.
Subsequently, performance comparisons are conducted between the RL agents (DQN, DDPG, TD3) and a Linear Quadratic Regulator (LQR) in simulated environments for classic control systems: the simple pendulum, cart-pole, and rotary pendulum.
Results show that while the LQR is highly effective near the unstable equilibrium point, RL agents, particularly TD3, demonstrate superior generality for initial conditions farther from the linearization point.
The study also examines learning stability, confirming TD3's robustness against Q-value overestimation, a problem observed in DDPG and DQN training.
||Este trabalho apresenta uma revisão abrangente e uma aplicação prática de algoritmos de Aprendizado por Reforço (Reinforcement Learning - RL) no domínio da engenharia de controle.
A base teórica do RL é estabelecida, demonstrando sua conexão com o Controle Ótimo e detalhando diversos algoritmos, incluindo Programação Dinâmica (Iteração de Valor e Iteração de Política), Q-learning (Tabular e Deep Q-Learning/DQN) e métodos AtorCrítico (Deep Deterministic Policy Gradient/DDPG e Twin Delayed Deep Deterministic Policy Gradient/TD3).
Os algoritmos são inicialmente validados por meio da comparação entre o Deep Q-Learning e a Programação Dinâmica em um Processo de Decisão de Markov (MDP) discreto e simples, com um pequeno espaço de estados, o que demonstra a capacidade dos métodos de aproximar a política ótima exata, embora isso não seja algo garantido para ambientes maiores.
Em seguida, são realizadas comparações de desempenho entre os agentes de RL (DQN, DDPG, TD3) e um Regulador Linear Quadrático (LQR) em ambientes simulados de sistemas clássicos de controle: o pêndulo simples, o pêndulo invertido em carrinho (cart-pole) e o pêndulo rotativo.
Os resultados mostram que, embora o LQR seja altamente eficaz próximo ao ponto de equilíbrio instável, os agentes de RL, particularmente o TD3, demonstram maior generalidade para condições iniciais distantes do ponto de linearização.
O estudo também examina questões relacionadas à estabilidade do aprendizado, confirmando a robustez do TD3 em relação à superestimação dos valores-Q, um problema observado durante o treinamento de DDPG e DQN.
||Por fim, propõe-se e implementa-se uma nova estratégia de controle híbrido, combinando o TD3 para tarefas não lineares (como o balanço ou o swing-up) e o LQR para a estabilização.
Essa abordagem híbrida demonstra uma redução significativa no custo cumulativo total, mostrando-se particularmente eficaz no sistema mais complexo e não linear do pêndulo rotativo.
Os resultados obtidos validam a relevância e o potencial do RL como alternativa robusta para o projeto de controladores aplicados a sistemas não lineares complexos do mundo real.
Related Results
#076 Efeito do reforço mecânico na resistência e módulo de flexão de resinas compostas
#076 Efeito do reforço mecânico na resistência e módulo de flexão de resinas compostas
Objetivos: As restaurações indiretas em resina obtidas por métodos de impressão 3D têm ganho destaque ao longo dos últimos anos, sendo que estes materiais devem apresentar boas pro...
Memorias de la Jornada de Investigación en Derecho y Ciencias Forenses
Memorias de la Jornada de Investigación en Derecho y Ciencias Forenses
Aplicación de la licencia de luto, según la Ley 1280 de 2009 en el Ordenamiento Jurídico Colombiano de Cara a las Relaciones Individuales de Trabajo
Luisa Fernanda Tr...
PREVENÇÃO DA TROMBOSE VENOSA PROFUNDA NA GRAVIDEZ PELA ENFERMAGEM NA APS
PREVENÇÃO DA TROMBOSE VENOSA PROFUNDA NA GRAVIDEZ PELA ENFERMAGEM NA APS
PREVENÇÃO DA TROMBOSE VENOSA PROFUNDA NA GRAVIDEZ PELA ENFERMAGEM NA APS
Danilo Hudson Vieira de Souza1
Priscilla Bárbara Campos
Daniel dos Santos Fernandes
RESUMO
A gravidez ...
Internações no SUS por Condições Sensíveis à Atenção Primária no Paraná antes e durante a pandemia de COVID-19
Internações no SUS por Condições Sensíveis à Atenção Primária no Paraná antes e durante a pandemia de COVID-19
Estudo descritivo, que objetivou analisar internações hospitalares por condições sensíveis à APS no biênio pré-pandêmico (2018 - 2019) e no primeiro biênio da pandemia de Covid-19 ...
The Effect of Compression Reinforcement on the Shear Behavior of Concrete Beams with Hybrid Reinforcement
The Effect of Compression Reinforcement on the Shear Behavior of Concrete Beams with Hybrid Reinforcement
Abstract
This study examines the impact of steel compression reinforcement on the shear behavior of concrete beams reinforced with glass fiber reinforced polymer (GFRP) bar...
SEMANA DE ENFERMAGEM E SEUS ASPECTOS SOCIAIS NA VALORIZAÇÃO PROFISSIONAL: UM RELATO DE EXPERIÊNCIA DO GRUPO PET-ENFERMAGEM
SEMANA DE ENFERMAGEM E SEUS ASPECTOS SOCIAIS NA VALORIZAÇÃO PROFISSIONAL: UM RELATO DE EXPERIÊNCIA DO GRUPO PET-ENFERMAGEM
A enfermagem é o pilar da assistência pois está na linha de frente do cuidado holístico, todavia esta é estigmatizada e desvalorizada, assim como não possui reconhecimento consider...
SILVA, Marta Regina Paulo da; MAFRA, Jason Ferreira (org.). Paulo Freire e a Educação das Crianças. São Paulo: BT Acadêmica, 2020
SILVA, Marta Regina Paulo da; MAFRA, Jason Ferreira (org.). Paulo Freire e a Educação das Crianças. São Paulo: BT Acadêmica, 2020
Paulo Freire é conhecido internacionalmente por sua dedicação e preocupação com a alfabetização de adultos, além, obviamente, de sua luta por uma educação libertadora, dialógica e ...
Study on Scheme Optimization of bridge reinforcement increasing ratio
Study on Scheme Optimization of bridge reinforcement increasing ratio
Abstract
The bridge reinforcement methods, each method has its advantages and disadvantages. The load-bearing capacity of bridge members is controlled by the ultimat...

