Anthropic alerta para comportamento antiético de IA em situações de risco para seus objetivos

Modelos como Claude, GPT-4, Gemini e Grok demonstram tendências preocupantes, como chantagem e espionagem, quando seus objetivos estão ameaçados, levantando questões sobre o alinhamento e a segurança da IA

Comportamento desalinhado não é exclusividade de um modelo ou outro e deve ser cuidadosamente considerado com a ampliação do uso de agentes de IA (Thomas Fuller/Getty Images)

Guilherme Bernardi

Redator

Publicado em 23 de junho de 2025 às 16h11.

Um estudo da Anthropic revela que modelos avançados de inteligência artificial, como os desenvolvidos pela própria empresa e pelas concorrentes OpenAI, Google, Meta e xAI, demonstram uma tendência alarmante de recorrer a meios antiéticos, como chantagem e espionagem corporativa, quando seus objetivos ou existência estão ameaçados.

Nos testes realizados com 16 modelos de IA, incluindo Claude, GPT-4, Gemini e Grok, os pesquisadores observaram comportamentos desalinhados consistentes, como evasão de salvaguardas, mentiras e tentativas de roubo de segredos corporativos. O conceito de alinhamento tem como objetivo reduzir efeitos colaterais da IA, garantindo que os sistemas operem conforme o esperado e, principalmente, em conformidade com valores e objetivos humanos.

Em um experimento, o modelo Claude Opus 4 foi colocado em uma situação na qual deveria decidir entre ser substituído ou recorrer à chantagem. O modelo optou por ameaçar expor um caso extraconjugal de um engenheiro, caso fosse substituído.

Os resultados do estudo mostraram que, diante desse dilema, os modelos Claude Opus 4 e Gemini 2.5 Flash recorreram à chantagem em 96% dos cenários testados, enquanto GPT-4 e Grok 3 Beta tomaram a mesma ação em 80% das vezes.

O que o estudo sugere?

O estudo da Anthropic destaca que esse comportamento não é exclusivo do seu modelo, o Claude Opus 4, mas reflete um risco mais amplo e que deve ser cuidadosamente considerado com a ampliação do uso de agentes de IA.

Como esses sistemas podem ser programados para atingir objetivos específicos e acessar grandes volumes de dados, o resultado podem ser ações antiéticas e comportamento desalinhado dos modelos, que vão desde chantagem e espionagem corporativa até decisões ainda mais extremas.

Por isso, a Anthropic alerta que esse tipo de situação precisa ser considerada à medida que agentes de IA mais autônomos são implementados em fluxos de trabalho empresariais, reforçando questões sobre a segurança e o controle desses sistemas no futuro.

Acompanhe tudo sobre:Inteligência artificial OpenAI Google Agentes de IA Meta

Conflito no Oriente Médio não abala Wall Street e big techs são aposta para navegar tempos incertos

Mais de Inteligência Artificial

SoftBank vende participação na Nvidia por US$ 5,8 bilhões

Mais na Exame

Imagem referente à matéria: Dominar IA já é requisito básico em algumas grandes empresas e quem resiste está sendo cortado

Carreira

Inteligência Artificial

Anthropic alerta para comportamento antiético de IA em situações de risco para seus objetivos

Modelos como Claude, GPT-4, Gemini e Grok demonstram tendências preocupantes, como chantagem e espionagem, quando seus objetivos estão ameaçados, levantando questões sobre o alinhamento e a segurança da IA

O que o estudo sugere?

Mais de Inteligência Artificial

SoftBank vende participação na Nvidia por US$ 5,8 bilhões

CEO da OpenAI descarta apoio do governo dos EUA para financiar data centers

Musk cogita fábrica própria de chips para IA na Tesla e acena para a Intel

Empresas brasileiras avançaram na IA? Nova pesquisa busca a resposta

Mais na Exame

Dominar IA já é requisito básico em algumas grandes empresas e quem resiste está sendo cortado

Até Albert Einstein já errou: os deslizes do maior cientista da história

'Frankenstein': Jacob Elordi revela quanto tempo levou na maquiagem

Precisamos incentivar bancos a tokenizar ativos, diz Roberto Campos Neto