Patrocínio:
Parceiro institucional:
LLMs: modelos como o ChatGPT e Gemini funcionam com base em redes neurais artificiais.
Publicado em 4 de agosto de 2025 às 17h00.
Desde o lançamento do ChatGPT pela OpenAI, seguido pelo Gemini, do Google, os grandes modelos de linguagem (LLMs, na sigla em inglês) têm conquistado cada vez mais usuários, gerando debates nas áreas de educação, meio ambiente, economia e até geopolítica. Entretanto, para a maior parte das pessoas, esses modelos ainda mantêm um caráter misterioso e quase mágico. Para desmistificar esses sistemas, é necessário entender as estruturas computacionais que os constroem.
O que a mídia frequentemente chama de inteligência artificial (IA) é, na verdade, composto principalmente por redes neurais artificiais, modelos matemáticos que foram formulados pela primeira vez na década de 1940. Foi somente a partir dos anos 2000, com o aumento da capacidade de processamento e abundância de dados, que esses modelos começaram a se tornar viáveis.
Em sua forma mais simples, uma rede neural é composta por “neurônios” que recebem sinais numéricos de outras conexões e transmitem um novo sinal após realizar operações matemáticas com os dados recebidos. Cada conexão entre neurônios é acompanhada por um parâmetro numérico, que é o responsável pelo aprendizado da rede. Assim, quando os modelos recebem um conjunto de dados, (no caso dos LLMs, as palavras pertencentes ao prompt do usuário), esses dados são processados de neurônio em neurônio até que o resultado seja obtido.
Para que os modelos se tornem “inteligentes”, é necessário realizar um processo de treinamento. Esse processo começa com o processamento de um conjunto de dados, no caso dos LLMs, textos. O modelo deve identificar quais palavras têm maior probabilidade de vir a seguir em um dado contexto. Essa probabilidade gerada será responsável por ajustar os parâmetros, tornando o modelo mais preciso a cada atualização.
Utilizando algoritmos de otimização, os parâmetros são ajustados para minimizar os erros durante o processamento. Por exemplo, se a “Canção do Exílio” faz parte do conjunto de treinamento e o modelo processa o trecho “Minha terra tem palmeiras, onde canta”, ele deve, idealmente, gerar com alta probabilidade a palavra “o Sabiá”.
Embora essa explicação seja simplificada, há diversas especificidades envolvidas. Entre elas, a arquitetura das redes neurais artificiais. Os LLMs modernos utilizam predominantemente a arquitetura de transformadores, que incorpora mecanismos de atenção, para permitir a associação entre de palavras de uma forma mais eficaz. Além disso, há os métodos de “tokenização”, que dividem as palavras em unidades menores, chamados de tokens, com os quais o modelo trabalha diretamente, em vez de lidar com palavras inteiras. O processo de embedding também é crucial, no qual o token é transformado em uma representação vetorial de tamanho fixo, permitindo o processamento pelo modelo.
Os LLMs se tornaram capazes de realizar uma ampla gama de tarefas relacionadas à geração e compreensão de linguagem, com automações impactantes no setor de serviços e na economia. Eles também oferecem uma oportunidade histórica para a atual geração de estudantes, e abrem espaço para discussões sobre novos métodos pedagógicos. Para muitos, o que hoje é realidade já parece algo saído diretamente de uma obra de ficção científica.