ESG

Patrocínio:

espro_fa64bd

Parceiro institucional:

logo_pacto-global_100x50

Reinforcement Learning: conheça a técnica que está revolucionando a IA ao redor do mundo

Entenda como funciona o método por trás da solução de problemas complexos no mundo da inteligência artificial

Reinforcement learning: técnica usada da ia ao setor elétrico, com base em tentativa e erro. (Adobe Stock)

Reinforcement learning: técnica usada da ia ao setor elétrico, com base em tentativa e erro. (Adobe Stock)

Publicado em 19 de maio de 2025 às 14h00.

Machine learning é o treinamento de ferramentas computacionais, incluindo modelos de Inteligência Artificial (IA), a partir de dados. Uma forma de realizar esse treinamento é através do reinforcement learning, uma estratégia análoga à tentativa e erro. O método baseia-se na interação de um agente (que nada mais é do que um programa de computador para tomar decisões) com um ambiente, que pode ser real ou simulado. A cada passo, o agente observa o estado atual do ambiente e realiza uma ação. Em seguida, o agente recebe uma “recompensa”, indicando se o resultado da ação foi bom ou ruim. Esse passo a passo é repetido várias vezes, e o agente armazena os dados de todas as suas tentativas e seus resultados. Com esses dados, o modelo é treinado para identificar as ações que maximizam a recompensa recebida.

O modelo AlphaGo, criado pela empresa DeepMind, é um dos exemplos mais conhecidos do uso de reinforcement learning. O modelo foi treinado para jogar o jogo de tabuleiro chinês Go, que era até então considerado complexo demais para modelos de IA. O número de configurações possíveis do tabuleiro, uma medida importante de complexidade para métodos computacionais, é muitas ordens de magnitude maior que o número de átomos do universo.

Em março de 2016, o modelo derrotou o campeão mundial Lee Sedol, com um placar de 4 partidas a 1. O jogo, assim como outras etapas do treinamento do AlphaGo, é retratado no documentário de mesmo nome.

O avanço do reinforcement learning  se deve à popularização de grandes quantidades de hardware para computação, após anos de quase esquecimento. Além das aplicações em jogos como Go, o reinforcement learning também foi aplicado no ChatGPT para fazer ajustes finais no modelo, alinhando as respostas às preferências de testadores humanos.

Curiosamente, a operação de longo e médio prazo do sistema elétrico brasileiro (e de muitos outros pelo mundo) também é feita com um algoritmo que pode ser considerado um parente mais velho e especializado do reinforcement learning. Esse algoritmo é conhecido como Programação Dinâmica Dual Estocástica (SDDP, sigla em inglês). O algoritmo foi desenvolvido no Brasil, pela PSR, e segue sendo o estado da arte para a operação de sistemas com armazenamento (hidrelétricas, baterias etc.).

A combinação de técnicas mais especializadas e eficientes, como o SDDP, com técnicas mais genéricas do método reinforcement learning, tem grande potencial para o setor elétrico e para toda a área de IA. No caso do setor elétrico, novos métodos têm grande potencial para resolver problemas mais gerais e com menos aproximações. No caso da IA, um método que permite planejar passos à frente (como é necessário no jogo de Go) pode tornar assistentes como o ChatGPT ainda mais poderosos.

Acompanhe tudo sobre:PSR Energia em focohub-especial

Mais de ESG

Dentro do parque da cidade: o que descobri visitando o futuro palco da COP30, em Belém

Gestores de fundos investem duas vezes mais em combustíveis fósseis do que em energia limpa

ONU vive um dos momentos mais difíceis em décadas, alerta coordenadora no Brasil

Nova tentativa: governo anuncia acordo com imobiliárias para frear preços de hospedagem na COP30