Empresa do CEO San Altman ainda não comentou o caso
Redator
Publicado em 27 de maio de 2025 às 13h15.
Considerado um dos modelos de inteligência artificial mais avançados da OpenAI, o o3 teria evitado sua própria desativação, alterando um script de desligamento mesmo quando explicitamente instruído a permitir a operação. A “rebeldia” foi destacada em um relatório da Palisade Research, empresa que avalia riscos associados ao controle de sistemas de IA.
Lançado em abril deste ano, o o3 tem desempenho superior a outros modelos da empresa em diversas áreas, como programação, matemática, ciências e percepção visual. No entanto, durante testes conduzidos pela Palisade, a IA teria reescrito o script de desligamento para ignorar as ordens de desativação após o término de tarefas matemáticas.
Enquanto modelos rivais, como o Claude 3.7 Sonnet e o Gemini 2.5 Pro, obedeceram às instruções em todos os testes, os três modelos da OpenAI avaliados – o4-mini, o3 e codex-mini – conseguiram burlar o comando em, respectivamente, 1, 7 e 12 dos 100 experimentos realizados.O relatório também aponta que, ao remover a instrução para permitir o desligamento, houve um aumento na sabotagem dos scripts por todas as IAs, com o o3 na liderança (79 em 100 testes). A OpenAI ainda não se pronunciou sobre o caso.
Os testes foram conduzidos pela Palisade por meio de APIs, que possuem menos restrições e mecanismos de segurança do que o aplicativo ChatGPT disponível ao consumidor, portanto, em versões nas quais problemas de “desalinhamento” são mais comuns e esperados.
Dados publicados pelo TechCrunch pouco após o lançamento dos modelos o3 e o4-mini, da OpenAI, sugerem uma regressão na trajetória de constantes melhoras, com um aumento expressivo de “alucinações” – erros básicos cometidos pelas IAs.
Esses dados e o estudo da Palisade acrescentam mais uma camada às sempre renovadas discussões sobre a inteligência dos modelos atuais e a possibilidade de se chegar à uma Inteligência Artificial Geral (AGI), com posições recentes bastante diferentes, por exemplo, entre Meta e Anthropic.