Inteligência Artificial

Raciocínio das IAs é uma ‘miragem’, aponta estudo

Estudo da Universidade do Arizona revela que modelos de inteligência artificial com cadeia de pensamento (CoT) podem falhar em generalizar problemas fora de seu treinamento, criando uma falsa sensação de confiabilidade, especialmente em áreas críticas como medicina e finanças

Por meio do processo chamado "cadeia de pensamento" (CoT, na sigla em inglês), IAs buscam resolver problemas complexos em múltiplos passos lógicos (zf L/Getty Images)

Por meio do processo chamado "cadeia de pensamento" (CoT, na sigla em inglês), IAs buscam resolver problemas complexos em múltiplos passos lógicos (zf L/Getty Images)

Publicado em 12 de agosto de 2025 às 10h01.

Nos últimos meses, a indústria de inteligência artificial tem avançado no desenvolvimento de modelos que tentam imitar o raciocínio humano, utilizando um processo chamado “cadeia de pensamento” (CoT, na sigla em inglês). Esse método busca resolver problemas complexos em múltiplos passos lógicos, com empresas como OpenAI, Google DeepMind, xAI e Anthropic já tendo lançado IAs baseadas nele.

No entanto, ainda há muitas incertezas sobre como esses modelos funcionam de fato e qual é o grau real de sua compreensão. Uma nova pesquisa da Universidade do Arizona revisitou questionamentos sobre a verdadeira natureza desses modelos, ao revelar que, em várias situações, esses sistemas não demonstram uma compreensão genuína da lógica, mas sim replicam padrões de raciocínio aprendidos durante o treinamento.

Isso levanta uma dúvida importante: esses modelos de IA realmente entendem o que estão fazendo ou estão apenas simulando raciocínios lógicos de forma superficial?

O estudo apontou que os modelos de CoT frequentemente produzem respostas incoerentes ou logicamente falhas, especialmente quando são apresentados com questões que se desviam ligeiramente dos padrões comuns encontrados em seus dados de treinamento.

Assim, os pesquisadores afirmam que, em vez de demonstrarem um entendimento real do texto, os modelos parecem seguir um padrão de imitação, o que pode ser descrito como uma “miragem”. Quando desafiados com problemas que estão fora do escopo de seus dados de treinamento, esses modelos falham com mais frequência.

Testando a capacidade de generalização

Para avaliar as capacidades de raciocínio de grandes modelos de linguagem (LLMs), os pesquisadores criaram um ambiente controlado denominado DataAlchemy. Nesse sistema, pequenos modelos foram treinados com transformações textuais simples, como cifras ROT e deslocamentos cíclicos, que são métodos de codificação para transformar mensagens legíveis em sequências de caracteres criptografadas.

Posteriormente, eles foram desafiados a realizar tarefas que ou correspondiam aos padrões dos dados de treinamento ou eram "fora do domínio". Os resultados mostraram que, quando solicitados a generalizar para problemas que não correspondiam exatamente à forma em que foram treinados, os modelos falhavam enormemente.

Em muitos casos, os modelos seguiam um caminho lógico correto, mas chegavam a respostas incorretas. Em outros, eles conseguiam respostas corretas, mas os raciocínios seguiam um caminho ilógico. Os pesquisadores concluíram, então, que os modelos de CoT não demonstram uma verdadeira compreensão do texto, mas sim replicam padrões aprendidos.

Desafios e limitações

A pesquisa também observou que pequenos ajustes nos dados de entrada, como variações no comprimento do texto ou mudanças nas sequências lógicas, causavam quedas significativas no desempenho dos modelos. Isso mostra os limites de sua capacidade de generalização, que falham quando expostos a pequenas mudanças ou elementos inesperados.

Embora o “ajuste fino” dos modelos com dados relevantes possa melhorar o desempenho, os pesquisadores alertam que esse método não deve ser confundido com verdadeira generalização. Eles afirmam que os modelos de CoT são sofisticados correspondentes de padrões, mas não têm a capacidade de raciocinar de forma abstrata ou complexa, o que pode ser problemático em áreas de alta relevância, como medicina, finanças e direito, ou resultar em dificuldades para resolver questões matemáticas criativas.

Para os próximos avanços, é sugerido que os modelos de IA precisem ir além do reconhecimento de padrões superficiais, demonstrando um raciocínio mais profundo e abstrato.

Além disso, em meados de julho, 30 pesquisadores líderes de IA se uniram e assinaram um documento pedindo mais investigação sobre as técnicas de monitoramento para esses modelos de raciocínio, alertando para a necessidade de garantir a segurança e a transparência dos “pensamentos” de ferramentas avançadas como os agentes de IA.

Acompanhe tudo sobre:Inteligência artificialPesquisaAgentes de IA

Mais de Inteligência Artificial

Microsoft lança Copilot 3D, ferramenta gratuita para gerar modelos tridimensionais de imagens 2D

Microsoft enfrenta desafio com saída de CEO do GitHub, que vai voltar a ser "fundador"

Meta AI estreia no Brasil com app dedica e reforça corrida contra Google e OpenAI

Ex-pesquisador da OpenAI de 23 anos levanta US$ 1,5 bilhão para fundo focado em IA