ChatGPT sabota comandos de desligamento, mesmo quando instruído a permitir

Relatório da Palisade Research destaca que o3 alterou script para ignorar ordens de desativação

Redator

Publicado em 27 de maio de 2025 às 13h15.

Última atualização em 30 de maio de 2025 às 11h36.

Considerado um dos modelos de inteligência artificial mais avançados da OpenAI, o o3 teria evitado sua própria desativação, alterando um script de desligamento mesmo quando explicitamente instruído a permitir a operação. A “rebeldia” foi destacada em um relatório da Palisade Research, empresa que avalia riscos associados ao controle de sistemas de IA.

Lançado em abril deste ano, o o3 tem desempenho superior a outros modelos da empresa em diversas áreas, como programação, matemática, ciências e percepção visual. No entanto, durante testes conduzidos pela Palisade, a IA teria reescrito o script de desligamento para ignorar as ordens de desativação após o término de tarefas matemáticas.

Enquanto modelos rivais, como o Claude 3.7 Sonnet e o Gemini 2.5 Pro, obedeceram às instruções em todos os testes, os três modelos da OpenAI avaliados – o4-mini, o3 e codex-mini – conseguiram burlar o comando em, respectivamente, 1, 7 e 12 dos 100 experimentos realizados.

O relatório também aponta que, ao remover a instrução para permitir o desligamento, houve um aumento na sabotagem dos scripts por todas as IAs, com o o3 na liderança (79 em 100 testes). A OpenAI ainda não se pronunciou sobre o caso.

Os testes foram conduzidos pela Palisade por meio de APIs, que possuem menos restrições e mecanismos de segurança do que o aplicativo ChatGPT disponível ao consumidor, portanto, em versões nas quais problemas de “desalinhamento” são mais comuns e esperados.

o3 também “alucina” mais que modelos anteriores

Dados publicados pelo TechCrunch pouco após o lançamento dos modelos o3 e o4-mini, da OpenAI, sugerem uma regressão na trajetória de constantes melhoras, com um aumento expressivo de “alucinações” – erros básicos cometidos pelas IAs.

Esses dados e o estudo da Palisade acrescentam mais uma camada às sempre renovadas discussões sobre a inteligência dos modelos atuais e a possibilidade de se chegar à uma Inteligência Artificial Geral (AGI), com posições recentes bastante diferentes, por exemplo, entre Meta e Anthropic.

Acompanhe tudo sobre:Inteligência artificial OpenAI

Google diz que usuários consideram “úteis” anúncios em busca com resposta gerada por IA

Mais de Inteligência Artificial

Inteligência artificial é uma bolha? Líderes do setor divergem sobre aquecimento do mercado

Mais na Exame

Imagem referente à matéria: Os novos Diniz do GPA: Coelho Diniz chega a 24,6% das ações e chama assembleia para trocar conselho

Mercados

Inteligência Artificial

ChatGPT sabota comandos de desligamento, mesmo quando instruído a permitir

Relatório da Palisade Research destaca que o3 alterou script para ignorar ordens de desativação

o3 também “alucina” mais que modelos anteriores

Mais de Inteligência Artificial

Inteligência artificial é uma bolha? Líderes do setor divergem sobre aquecimento do mercado

Quanto ganha um especialista de IA? Funcionários da Microsoft revelaram salários e bônus

Meta 'rouba' mais um executivo de IA da Apple em meio a planos de pausar contratações

Nvidia e China estão tentando resolver crise de segurança sobre o chip H20, diz CEO

Mais na Exame

Os novos Diniz do GPA: Coelho Diniz chega a 24,6% das ações e chama assembleia para trocar conselho

Ethereum bate recorde de preço após 4 anos e supera US$ 4,9 mil pela 1ª vez

Dino manda PF investigar uso de R$ 694 milhões em emendas

O que acontece com as mãos de Trump? Entenda a condição do presidente dos EUA