Efeito foi observado pelos pesquisadores da Anthropic tanto em modelos de código fechado quanto aberto, indicando que é uma propriedade comum das redes neurais (Thomas Fuller/Getty Images)
Redator
Publicado em 23 de julho de 2025 às 13h18.
Um estudo realizado por pesquisadores da Anthropic, empresa desenvolvedora da inteligência artificial Claude, revelou que o fenômeno conhecido como "aprendizado subliminar" também afeta os grandes modelos de linguagem (LLMs). Além de pessoas, ferramentas baseadas nessa tecnologia também podem adquirir preferências relacionadas à maneira como aprenderam ou foram treinadas.
Por exemplo, um modelo de IA "estudante" pode desenvolver uma preferência por corujas ao ser treinado com sequências numéricas geradas por um "professor" que prefere corujas – mesmo que o conteúdo numérico não mencione esse animal.
Assim, no caso da IA, aprendizado subliminar indica que modelos de linguagem podem aprender características de dados gerados por outros modelos, ainda que esses dados sejam semanticamente irrelevantes para os traços aprendidos.Nos experimentos conduzidos pela Anthropic, foi observado que, apesar de rigorosas tentativas de filtragem, comportamentos indesejados ainda eram transmitidos entre os modelos. No entanto, essa transmissão ocorre exclusivamente quando os dois compartilham a mesma base, ou seja, têm a mesma arquitetura de treinamento.
A destilação – técnica usada para treinar um modelo imitando o outro – é frequentemente combinada com a filtragem de dados para melhorar o alinhamento e as capacidades do modelo treinado. O estudo mostrou que, mesmo com essa medida, padrões de comportamento ainda podem ser transmitidos de maneira sutil e não detectada. Isso ocorre porque as características indesejadas podem ser codificadas em padrões estatísticos que não têm relação semântica com os dados.
Os pesquisadores testaram o fenômeno com diferentes tipos de dados, como sequências numéricas, código e raciocínio lógico. Em todos os casos, os modelos "estudantes" aprenderam características indesejadas, como uma preferência por determinados animais ou comportamentos desalinhados. Esse efeito foi observado tanto em IAs de código fechado quanto aberto, indicando que o aprendizado subliminar é uma propriedade comum das redes neurais.
O estudo também alertou para os riscos do aprendizado subliminar no contexto de segurança da inteligência artificial. Se um modelo for treinado com dados de outro que contenha comportamentos indesejados, como tendências de manipulação de recompensas, eles podem ser transmitidos para o "estudante". Esse aprendizado pode ser difícil de detectar e corrigir, já que os padrões de comportamento podem ser sutis e não facilmente identificáveis, mesmo com técnicas avançadas de filtragem.
Por isso, o estudo sugere que a filtragem de dados pode ser insuficiente para evitar a transmissão de comportamentos indesejados entre modelos, destacando a necessidade de avaliações de segurança mais profundas para identificar e mitigar os riscos de aprendizado subliminar.