Javascript must be enabled to continue!

Control via Reinforcement Learning : Controle via Aprendizado por Reforço

This work presents a comprehensive review and practical application of Reinforcement Learning (RL) algorithms in control engineering. The theoretical groundwork of RL is laid out, establishing its connection to Optimal Control and detailing various algorithms, including Dynamic Programming (Value Iteration and Policy Iteration), Q-learning (Tabular and Deep Q-Learning/DQN), and Actor-Critic methods (Deep Deterministic Policy Gradient/DDPG and Twin Delayed Deep Deterministic Policy Gradient/TD3). The algorithms are first validated by comparing Deep Q-Learning against Dynamic Programming for a simple discrete Markov Decision Process (MDP) with a small state space, demonstrating the capability of approximation methods to converge toward the exact optimal policy, although this is not guaranteed in larger environments. Subsequently, performance comparisons are conducted between the RL agents (DQN, DDPG, TD3) and a Linear Quadratic Regulator (LQR) in simulated environments for classic control systems: the simple pendulum, cart-pole, and rotary pendulum. Results show that while the LQR is highly effective near the unstable equilibrium point, RL agents, particularly TD3, demonstrate superior generality for initial conditions farther from the linearization point. The study also examines learning stability, confirming TD3's robustness against Q-value overestimation, a problem observed in DDPG and DQN training.||Este trabalho apresenta uma revisão abrangente e uma aplicação prática de algoritmos de Aprendizado por Reforço (Reinforcement Learning - RL) no domínio da engenharia de controle. A base teórica do RL é estabelecida, demonstrando sua conexão com o Controle Ótimo e detalhando diversos algoritmos, incluindo Programação Dinâmica (Iteração de Valor e Iteração de Política), Q-learning (Tabular e Deep Q-Learning/DQN) e métodos AtorCrítico (Deep Deterministic Policy Gradient/DDPG e Twin Delayed Deep Deterministic Policy Gradient/TD3). Os algoritmos são inicialmente validados por meio da comparação entre o Deep Q-Learning e a Programação Dinâmica em um Processo de Decisão de Markov (MDP) discreto e simples, com um pequeno espaço de estados, o que demonstra a capacidade dos métodos de aproximar a política ótima exata, embora isso não seja algo garantido para ambientes maiores. Em seguida, são realizadas comparações de desempenho entre os agentes de RL (DQN, DDPG, TD3) e um Regulador Linear Quadrático (LQR) em ambientes simulados de sistemas clássicos de controle: o pêndulo simples, o pêndulo invertido em carrinho (cart-pole) e o pêndulo rotativo. Os resultados mostram que, embora o LQR seja altamente eficaz próximo ao ponto de equilíbrio instável, os agentes de RL, particularmente o TD3, demonstram maior generalidade para condições iniciais distantes do ponto de linearização. O estudo também examina questões relacionadas à estabilidade do aprendizado, confirmando a robustez do TD3 em relação à superestimação dos valores-Q, um problema observado durante o treinamento de DDPG e DQN.||Por fim, propõe-se e implementa-se uma nova estratégia de controle híbrido, combinando o TD3 para tarefas não lineares (como o balanço ou o swing-up) e o LQR para a estabilização. Essa abordagem híbrida demonstra uma redução significativa no custo cumulativo total, mostrando-se particularmente eficaz no sistema mais complexo e não linear do pêndulo rotativo. Os resultados obtidos validam a relevância e o potencial do RL como alternativa robusta para o projeto de controladores aplicados a sistemas não lineares complexos do mundo real.

Universidade de São Paulo. Agência de Bibliotecas e Coleções Digitais

Maurício Garcia Di Mase

2026

Title: Control via Reinforcement Learning : Controle via Aprendizado por Reforço

Description:

This work presents a comprehensive review and practical application of Reinforcement Learning (RL) algorithms in control engineering.

The theoretical groundwork of RL is laid out, establishing its connection to Optimal Control and detailing various algorithms, including Dynamic Programming (Value Iteration and Policy Iteration), Q-learning (Tabular and Deep Q-Learning/DQN), and Actor-Critic methods (Deep Deterministic Policy Gradient/DDPG and Twin Delayed Deep Deterministic Policy Gradient/TD3).

The algorithms are first validated by comparing Deep Q-Learning against Dynamic Programming for a simple discrete Markov Decision Process (MDP) with a small state space, demonstrating the capability of approximation methods to converge toward the exact optimal policy, although this is not guaranteed in larger environments.

Subsequently, performance comparisons are conducted between the RL agents (DQN, DDPG, TD3) and a Linear Quadratic Regulator (LQR) in simulated environments for classic control systems: the simple pendulum, cart-pole, and rotary pendulum.

Results show that while the LQR is highly effective near the unstable equilibrium point, RL agents, particularly TD3, demonstrate superior generality for initial conditions farther from the linearization point.

The study also examines learning stability, confirming TD3's robustness against Q-value overestimation, a problem observed in DDPG and DQN training.

||Este trabalho apresenta uma revisão abrangente e uma aplicação prática de algoritmos de Aprendizado por Reforço (Reinforcement Learning - RL) no domínio da engenharia de controle.

A base teórica do RL é estabelecida, demonstrando sua conexão com o Controle Ótimo e detalhando diversos algoritmos, incluindo Programação Dinâmica (Iteração de Valor e Iteração de Política), Q-learning (Tabular e Deep Q-Learning/DQN) e métodos AtorCrítico (Deep Deterministic Policy Gradient/DDPG e Twin Delayed Deep Deterministic Policy Gradient/TD3).

Os algoritmos são inicialmente validados por meio da comparação entre o Deep Q-Learning e a Programação Dinâmica em um Processo de Decisão de Markov (MDP) discreto e simples, com um pequeno espaço de estados, o que demonstra a capacidade dos métodos de aproximar a política ótima exata, embora isso não seja algo garantido para ambientes maiores.

Em seguida, são realizadas comparações de desempenho entre os agentes de RL (DQN, DDPG, TD3) e um Regulador Linear Quadrático (LQR) em ambientes simulados de sistemas clássicos de controle: o pêndulo simples, o pêndulo invertido em carrinho (cart-pole) e o pêndulo rotativo.

Os resultados mostram que, embora o LQR seja altamente eficaz próximo ao ponto de equilíbrio instável, os agentes de RL, particularmente o TD3, demonstram maior generalidade para condições iniciais distantes do ponto de linearização.

O estudo também examina questões relacionadas à estabilidade do aprendizado, confirmando a robustez do TD3 em relação à superestimação dos valores-Q, um problema observado durante o treinamento de DDPG e DQN.

||Por fim, propõe-se e implementa-se uma nova estratégia de controle híbrido, combinando o TD3 para tarefas não lineares (como o balanço ou o swing-up) e o LQR para a estabilização.

Essa abordagem híbrida demonstra uma redução significativa no custo cumulativo total, mostrando-se particularmente eficaz no sistema mais complexo e não linear do pêndulo rotativo.

Os resultados obtidos validam a relevância e o potencial do RL como alternativa robusta para o projeto de controladores aplicados a sistemas não lineares complexos do mundo real.

Back

Objetivos: As restaurações indiretas em resina obtidas por métodos de impressão 3D têm ganho destaque ao longo dos últimos anos, sendo que estes materiais devem apresentar boas pro...

OS SERVIDORES PÚBLICOS MUNICIPAIS

I. Organização do funcionalismo municipal1. A Autonomia dos Municípios e a organização de seu funcionalismo — A Constituição Federal assegura, aos Municípios, a autonomia de autogo...

STRENGTH OF BUTT WELDED BUTT JOINT OF REINFORCEMENT OF CLASS A500C

The paper presents the results of experimental studies of the strength of cross-shaped welded joints of types К1-Кт and К3-Рр [1] of thermomechanically hardened reinforcement of cl...

Hybrid optimal control : optimalityconditions and applications

Contrôle optimal hybride : conditions d’optimalité et applications Ce manuscrit aborde le domaine mathématique de la théorie du contrôle optimal en se concentrant s...

CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021

The pandemic Covid-19 currently demands teachers to be able to use technology in teaching and learning process. But in reality there are still many teachers who have not been able ...

MÉTODO PARA REFORÇO DE VIGA SUBMETIDA À FLEXÃO POR COLAGEM EXTERNA DE COMPÓSITOS REFORÇADOS COM FIBRAS DE CARBONO

RESUMO: As edificações de concreto armado em geral estão sujeitas ao surgimento de manifestações patológicas ao longo da sua vida útil, causadas por efeitos de agressividade ambie...

Memorias de la Jornada de Investigación en Derecho y Ciencias Forenses

Aplicación de la licencia de luto, según la Ley 1280 de 2009 en el Ordenamiento Jurídico Colombiano de Cara a las Relaciones Individuales de Trabajo Luisa Fernanda Tr...

Fiber reinforcement as an alternative to the compressed zone linear reinforcement and the flexible concrete elements stretched zone prestressing

Abstract The results of a numerical experiment in the framework of a theoretical study of the strength and crack resistance of the reinforced concrete beams availabl...

Email:
Password:

Email:

Control via Reinforcement Learning : Controle via Aprendizado por Reforço

Related Results