23 de maio de 2025 às 18:38
Machine learning é o treinamento de ferramentas computacionais, incluindo modelos de Inteligência Artificial (IA) , a partir de dados. Uma forma de realizar esse treinamento é através do reinforcement learning , uma estratégia análoga à tentativa e erro.
O método baseia-se na interação de um agente (que nada mais é do que um programa de computador para tomar decisões) com um ambiente, que pode ser real ou simulado. A cada passo, o agente observa o estado atual do ambiente e realiza uma ação.
Em seguida, o agente recebe uma “recompensa”, indicando se o resultado da ação foi bom ou ruim. Esse passo a passo é repetido várias vezes, e o agente armazena os dados de todas as suas tentativas e seus resultados.
Com esses dados, o modelo é treinado para identificar as ações que maximizam a recompensa recebida.
O modelo AlphaGo, criado pela empresa DeepMind, é um dos exemplos mais conhecidos do uso de reinforcement learning . O modelo foi treinado para jogar o jogo de tabuleiro chinês Go, que era até então considerado complexo demais para modelos de IA.
O número de configurações possíveis do tabuleiro, uma medida importante de complexidade para métodos computacionais, é muitas ordens de magnitude maior que o número de átomos do universo.
Em março de 2016, o modelo derrotou o campeão mundial Lee Sedol, com um placar de 4 partidas a 1. O jogo, assim como outras etapas do treinamento do AlphaGo, é retratado no documentário de mesmo nome.
Além das aplicações em jogos como Go, o reinforcement learning também foi aplicado no ChatGPT para fazer ajustes finais no modelo, alinhando as respostas às preferências de testadores humanos.