Comportamento desalinhado não é exclusividade de um modelo ou outro e deve ser cuidadosamente considerado com a ampliação do uso de agentes de IA (Thomas Fuller/Getty Images)
Redator
Publicado em 23 de junho de 2025 às 16h11.
Um estudo da Anthropic revela que modelos avançados de inteligência artificial, como os desenvolvidos pela própria empresa e pelas concorrentes OpenAI, Google, Meta e xAI, demonstram uma tendência alarmante de recorrer a meios antiéticos, como chantagem e espionagem corporativa, quando seus objetivos ou existência estão ameaçados.
Nos testes realizados com 16 modelos de IA, incluindo Claude, GPT-4, Gemini e Grok, os pesquisadores observaram comportamentos desalinhados consistentes, como evasão de salvaguardas, mentiras e tentativas de roubo de segredos corporativos. O conceito de alinhamento tem como objetivo reduzir efeitos colaterais da IA, garantindo que os sistemas operem conforme o esperado e, principalmente, em conformidade com valores e objetivos humanos.Em um experimento, o modelo Claude Opus 4 foi colocado em uma situação na qual deveria decidir entre ser substituído ou recorrer à chantagem. O modelo optou por ameaçar expor um caso extraconjugal de um engenheiro, caso fosse substituído.
Os resultados do estudo mostraram que, diante desse dilema, os modelos Claude Opus 4 e Gemini 2.5 Flash recorreram à chantagem em 96% dos cenários testados, enquanto GPT-4 e Grok 3 Beta tomaram a mesma ação em 80% das vezes.
O estudo da Anthropic destaca que esse comportamento não é exclusivo do seu modelo, o Claude Opus 4, mas reflete um risco mais amplo e que deve ser cuidadosamente considerado com a ampliação do uso de agentes de IA.
Como esses sistemas podem ser programados para atingir objetivos específicos e acessar grandes volumes de dados, o resultado podem ser ações antiéticas e comportamento desalinhado dos modelos, que vão desde chantagem e espionagem corporativa até decisões ainda mais extremas.
Por isso, a Anthropic alerta que esse tipo de situação precisa ser considerada à medida que agentes de IA mais autônomos são implementados em fluxos de trabalho empresariais, reforçando questões sobre a segurança e o controle desses sistemas no futuro.