Search engine for discovering works of Art, research articles, and books related to Art and Culture
ShareThis
Javascript must be enabled to continue!

Control via Reinforcement Learning : Controle via Aprendizado por Reforço

View through CrossRef
This work presents a comprehensive review and practical application of Reinforcement Learning (RL) algorithms in control engineering. The theoretical groundwork of RL is laid out, establishing its connection to Optimal Control and detailing various algorithms, including Dynamic Programming (Value Iteration and Policy Iteration), Q-learning (Tabular and Deep Q-Learning/DQN), and Actor-Critic methods (Deep Deterministic Policy Gradient/DDPG and Twin Delayed Deep Deterministic Policy Gradient/TD3). The algorithms are first validated by comparing Deep Q-Learning against Dynamic Programming for a simple discrete Markov Decision Process (MDP) with a small state space, demonstrating the capability of approximation methods to converge toward the exact optimal policy, although this is not guaranteed in larger environments. Subsequently, performance comparisons are conducted between the RL agents (DQN, DDPG, TD3) and a Linear Quadratic Regulator (LQR) in simulated environments for classic control systems: the simple pendulum, cart-pole, and rotary pendulum. Results show that while the LQR is highly effective near the unstable equilibrium point, RL agents, particularly TD3, demonstrate superior generality for initial conditions farther from the linearization point. The study also examines learning stability, confirming TD3's robustness against Q-value overestimation, a problem observed in DDPG and DQN training.||Este trabalho apresenta uma revisão abrangente e uma aplicação prática de algoritmos de Aprendizado por Reforço (Reinforcement Learning - RL) no domínio da engenharia de controle. A base teórica do RL é estabelecida, demonstrando sua conexão com o Controle Ótimo e detalhando diversos algoritmos, incluindo Programação Dinâmica (Iteração de Valor e Iteração de Política), Q-learning (Tabular e Deep Q-Learning/DQN) e métodos AtorCrítico (Deep Deterministic Policy Gradient/DDPG e Twin Delayed Deep Deterministic Policy Gradient/TD3). Os algoritmos são inicialmente validados por meio da comparação entre o Deep Q-Learning e a Programação Dinâmica em um Processo de Decisão de Markov (MDP) discreto e simples, com um pequeno espaço de estados, o que demonstra a capacidade dos métodos de aproximar a política ótima exata, embora isso não seja algo garantido para ambientes maiores. Em seguida, são realizadas comparações de desempenho entre os agentes de RL (DQN, DDPG, TD3) e um Regulador Linear Quadrático (LQR) em ambientes simulados de sistemas clássicos de controle: o pêndulo simples, o pêndulo invertido em carrinho (cart-pole) e o pêndulo rotativo. Os resultados mostram que, embora o LQR seja altamente eficaz próximo ao ponto de equilíbrio instável, os agentes de RL, particularmente o TD3, demonstram maior generalidade para condições iniciais distantes do ponto de linearização. O estudo também examina questões relacionadas à estabilidade do aprendizado, confirmando a robustez do TD3 em relação à superestimação dos valores-Q, um problema observado durante o treinamento de DDPG e DQN.||Por fim, propõe-se e implementa-se uma nova estratégia de controle híbrido, combinando o TD3 para tarefas não lineares (como o balanço ou o swing-up) e o LQR para a estabilização. Essa abordagem híbrida demonstra uma redução significativa no custo cumulativo total, mostrando-se particularmente eficaz no sistema mais complexo e não linear do pêndulo rotativo. Os resultados obtidos validam a relevância e o potencial do RL como alternativa robusta para o projeto de controladores aplicados a sistemas não lineares complexos do mundo real.
Universidade de São Paulo. Agência de Bibliotecas e Coleções Digitais
Title: Control via Reinforcement Learning : Controle via Aprendizado por Reforço
Description:
This work presents a comprehensive review and practical application of Reinforcement Learning (RL) algorithms in control engineering.
The theoretical groundwork of RL is laid out, establishing its connection to Optimal Control and detailing various algorithms, including Dynamic Programming (Value Iteration and Policy Iteration), Q-learning (Tabular and Deep Q-Learning/DQN), and Actor-Critic methods (Deep Deterministic Policy Gradient/DDPG and Twin Delayed Deep Deterministic Policy Gradient/TD3).
The algorithms are first validated by comparing Deep Q-Learning against Dynamic Programming for a simple discrete Markov Decision Process (MDP) with a small state space, demonstrating the capability of approximation methods to converge toward the exact optimal policy, although this is not guaranteed in larger environments.
Subsequently, performance comparisons are conducted between the RL agents (DQN, DDPG, TD3) and a Linear Quadratic Regulator (LQR) in simulated environments for classic control systems: the simple pendulum, cart-pole, and rotary pendulum.
Results show that while the LQR is highly effective near the unstable equilibrium point, RL agents, particularly TD3, demonstrate superior generality for initial conditions farther from the linearization point.
The study also examines learning stability, confirming TD3's robustness against Q-value overestimation, a problem observed in DDPG and DQN training.
||Este trabalho apresenta uma revisão abrangente e uma aplicação prática de algoritmos de Aprendizado por Reforço (Reinforcement Learning - RL) no domínio da engenharia de controle.
A base teórica do RL é estabelecida, demonstrando sua conexão com o Controle Ótimo e detalhando diversos algoritmos, incluindo Programação Dinâmica (Iteração de Valor e Iteração de Política), Q-learning (Tabular e Deep Q-Learning/DQN) e métodos AtorCrítico (Deep Deterministic Policy Gradient/DDPG e Twin Delayed Deep Deterministic Policy Gradient/TD3).
Os algoritmos são inicialmente validados por meio da comparação entre o Deep Q-Learning e a Programação Dinâmica em um Processo de Decisão de Markov (MDP) discreto e simples, com um pequeno espaço de estados, o que demonstra a capacidade dos métodos de aproximar a política ótima exata, embora isso não seja algo garantido para ambientes maiores.
Em seguida, são realizadas comparações de desempenho entre os agentes de RL (DQN, DDPG, TD3) e um Regulador Linear Quadrático (LQR) em ambientes simulados de sistemas clássicos de controle: o pêndulo simples, o pêndulo invertido em carrinho (cart-pole) e o pêndulo rotativo.
Os resultados mostram que, embora o LQR seja altamente eficaz próximo ao ponto de equilíbrio instável, os agentes de RL, particularmente o TD3, demonstram maior generalidade para condições iniciais distantes do ponto de linearização.
O estudo também examina questões relacionadas à estabilidade do aprendizado, confirmando a robustez do TD3 em relação à superestimação dos valores-Q, um problema observado durante o treinamento de DDPG e DQN.
||Por fim, propõe-se e implementa-se uma nova estratégia de controle híbrido, combinando o TD3 para tarefas não lineares (como o balanço ou o swing-up) e o LQR para a estabilização.
Essa abordagem híbrida demonstra uma redução significativa no custo cumulativo total, mostrando-se particularmente eficaz no sistema mais complexo e não linear do pêndulo rotativo.
Os resultados obtidos validam a relevância e o potencial do RL como alternativa robusta para o projeto de controladores aplicados a sistemas não lineares complexos do mundo real.

Related Results

#076 Efeito do reforço mecânico na resistência e módulo de flexão de resinas compostas
#076 Efeito do reforço mecânico na resistência e módulo de flexão de resinas compostas
Objetivos: As restaurações indiretas em resina obtidas por métodos de impressão 3D têm ganho destaque ao longo dos últimos anos, sendo que estes materiais devem apresentar boas pro...
OS SERVIDORES PÚBLICOS MUNICIPAIS
OS SERVIDORES PÚBLICOS MUNICIPAIS
I. Organização do funcionalismo municipal1. A Autonomia dos Municípios e a organização de seu funcionalismo — A Constituição Federal assegura, aos Municípios, a autonomia de autogo...
STRENGTH OF BUTT WELDED BUTT JOINT OF REINFORCEMENT OF CLASS A500C
STRENGTH OF BUTT WELDED BUTT JOINT OF REINFORCEMENT OF CLASS A500C
The paper presents the results of experimental studies of the strength of cross-shaped welded joints of types К1-Кт and К3-Рр [1] of thermomechanically hardened reinforcement of cl...
Hybrid optimal control : optimalityconditions and applications
Hybrid optimal control : optimalityconditions and applications
Contrôle optimal hybride : conditions d’optimalité et applications Ce manuscrit aborde le domaine mathématique de la théorie du contrôle optimal en se concentrant s...
CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021
CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021
The pandemic Covid-19 currently demands teachers to be able to use technology in teaching and learning process. But in reality there are still many teachers who have not been able ...
MÉTODO PARA REFORÇO DE VIGA SUBMETIDA À FLEXÃO POR COLAGEM EXTERNA DE COMPÓSITOS REFORÇADOS COM FIBRAS DE CARBONO
MÉTODO PARA REFORÇO DE VIGA SUBMETIDA À FLEXÃO POR COLAGEM EXTERNA DE COMPÓSITOS REFORÇADOS COM FIBRAS DE CARBONO
RESUMO:  As edificações de concreto armado em geral estão sujeitas ao surgimento de manifestações patológicas ao longo da sua vida útil, causadas por efeitos de agressividade ambie...
Memorias de la Jornada de Investigación en Derecho y Ciencias Forenses
Memorias de la Jornada de Investigación en Derecho y Ciencias Forenses
Aplicación de la licencia de luto, según la Ley 1280 de 2009 en el Ordenamiento Jurídico Colombiano de Cara a las Relaciones Individuales de Trabajo   Luisa Fernanda Tr...

Back to Top