Inteligência Artificial

ChatGPT sabota comandos de desligamento, mesmo quando instruída a permitir

Relatório da Palisade Research destaca que o3 alterou script para ignorar ordens de desativação

Empresa do CEO San Altman ainda não comentou o caso

Empresa do CEO San Altman ainda não comentou o caso

Publicado em 27 de maio de 2025 às 13h15.

Considerado um dos modelos de inteligência artificial mais avançados da OpenAI, o o3 teria evitado sua própria desativação, alterando um script de desligamento mesmo quando explicitamente instruído a permitir a operação. A “rebeldia” foi destacada em um relatório da Palisade Research, empresa que avalia riscos associados ao controle de sistemas de IA.

Lançado em abril deste ano, o o3 tem desempenho superior a outros modelos da empresa em diversas áreas, como programação, matemática, ciências e percepção visual. No entanto, durante testes conduzidos pela Palisade, a IA teria reescrito o script de desligamento para ignorar as ordens de desativação após o término de tarefas matemáticas.

Enquanto modelos rivais, como o Claude 3.7 Sonnet e o Gemini 2.5 Pro, obedeceram às instruções em todos os testes, os três modelos da OpenAI avaliados – o4-mini, o3 e codex-mini – conseguiram burlar o comando em, respectivamente, 1, 7 e 12 dos 100 experimentos realizados.

O relatório também aponta que, ao remover a instrução para permitir o desligamento, houve um aumento na sabotagem dos scripts por todas as IAs, com o o3 na liderança (79 em 100 testes). A OpenAI ainda não se pronunciou sobre o caso.

Os testes foram conduzidos pela Palisade por meio de APIs, que possuem menos restrições e mecanismos de segurança do que o aplicativo ChatGPT disponível ao consumidor, portanto, em versões nas quais problemas de “desalinhamento” são mais comuns e esperados.

o3 também “alucina” mais que modelos anteriores

Dados publicados pelo TechCrunch pouco após o lançamento dos modelos o3 e o4-mini, da OpenAI, sugerem uma regressão na trajetória de constantes melhoras, com um aumento expressivo de “alucinações” – erros básicos cometidos pelas IAs.

Esses dados e o estudo da Palisade acrescentam mais uma camada às sempre renovadas discussões sobre a inteligência dos modelos atuais e a possibilidade de se chegar à uma Inteligência Artificial Geral (AGI), com posições recentes bastante diferentes, por exemplo, entre Meta e Anthropic.

Acompanhe tudo sobre:Inteligência artificialOpenAI

Mais de Inteligência Artificial

Quatro características que definem a inteligência: a visão da Meta sobre IA

Demissões em massa vs. salários em alta: o paradoxo do mercado tech

Salesforce compra a Informatica por US$ 8 bilhões para reforçar estratégia de IA empresarial

Como startups nucleares viraram aposta das big techs para alimentar a IA