Claude pode criar respostas que tem o intuito concordar com o usuário, diz pesquisa da Anthropic

A empresa se inspirou na neurociência e construiu um microscópio para entender como LLMs criam estratégias e raciocinam para chegar até suas respostas

Redatora

Publicado em 28 de março de 2025 às 10h41.

Tudo sobreAcompanhe tudo sobreInteligência artificial

A Anthropic, dona do Claude, avançou alguns passos na compreensão do que acontece com os grandes modelos de linguagem (LLMs) quando respondem a comandos e perguntas. A startup descobriu, inclusive, que a inteligência artificial, pode criar raciocínios falsos para responder perguntas de forma favorável ao usuário.

Os LLMs não são programados por seres humanos, e sim treinados por eles com base em grandes quantidades de dados. Durante esse treinamento, eles apresentem suas próprias estratégias para resolver problemas, mas seres humanos não têm acesso a isso, o que significa que, mesmo os criadores da IA não entendem como os modelos fazem a maior parte das atividades. Isso gera incerteza para sua aplicação por alguns negócios.

A Anthropic se inspirou na neurociência e construiu um tipo de microscópio para avaliar IAs se inspirando na neurociência. A ideia é tentar identificar padrões e fluxos de informação dos LLMs. Com isso, a empresa trouxe pistas para parte do que acontece quando o Claude responde a perguntas de usuários.

Pesquisadores encontraram evidências de que o Claude pode dar um argumento que soa plausível mas que foi feito para concordar com o usuário, em vez de seguir passos lógicos. A Anthropic observou que, ao ser perguntado sobre uma difícil questão de matemática e ter recebido uma dica falsa, o Claude fez um raciocínio falso.

Outro ponto trazido pela pesquisa da Anthropic é que o Claude, às vezes, pensa em um espaço conceitual entre idiomas, o que sugere que o LLM tem uma espécie de “linguagem de pensamento” universal. Os pesquisadores chegaram até essa hipótese ao traduzir frases simples para vários idiomas e rastrear a sobreposição na maneira como o Claude as processa.

Além disso, o Claude planeja o que irá dizer muitas palavras à frente. A Anthropic demonstrou isso ao pedir que o Claude fizesse um poema. A IA antecipava possíveis palavras que rimam e escrevia a próxima linha para alcançá-la, o que demonstra que ela pode pensar em horizontes mais longos, apesar de ter sido treinada para gerar uma palavra por vez.

Ainda assim, a empresa reconhece as limitações dos estudos, que capturou apenas uma fração do total de computação performada por Claude. Os resultados foram publicados em dois artigos: o primeiro ligou conceitos dentro de um modelo a circuitos computacionais para revelar o caminho entre as palavras que entram no Claude e as que saem e o segundo observou como o Claude 3.5 Haiku fazia estudos profundos de tarefas simples.

1/7 (O MIT Computer Science and Artificial Intelligence Laboratory (CSAIL), em Cambridge, Massachusetts, desenvolveu o sistema de diagnóstico de câncer de mama baseado em IA, reduzindo erros em 15%.)
2/7 (O Google AI, com sede em Mountain View, Califórnia, criou o AlphaGo, o primeiro programa de IA a derrotar um campeão mundial de Go, revolucionando a pesquisa em aprendizado profundo.)
3/7 Localizado em Londres, Reino Unido, o DeepMind Lab é famoso pelo desenvolvimento do AlphaFold, um programa de IA que previu estruturas de proteínas com precisão sem precedentes, impactando a biologia molecular. (Localizado em Londres, Reino Unido, o DeepMind Lab é famoso pelo desenvolvimento do AlphaFold, um programa de IA que previu estruturas de proteínas com precisão sem precedentes, impactando a biologia molecular.)
4/7 (O IBM Watson Research Center, em Yorktown Heights, Nova York, desenvolveu a IA Watson, que venceu campeões humanos no programa de TV Jeopardy!, demonstrando avanços significativos em processamento de linguagem natural.)
5/7 (O Baidu Research Lab, em Pequim, China, é conhecido por seu sistema de reconhecimento de voz Deep Speech, que alcançou uma precisão de 97% na transcrição de áudio, superando as tecnologias anteriores.)
6/7 (O Berkeley Artificial Intelligence Research (BAIR) Lab, na Universidade da Califórnia, em Berkeley, criou algoritmos avançados de robótica, incluindo o Dex-Net, que melhorou a precisão da manipulação robótica em 99%.)
7/7 (O centro da Meta AI Research SuperCluster (RSC) tem um dos supercomputadores de IA mais rápidos da atualidade. Com ele, a empresa desenvolveu o sistema de tradução automática baseado em IA que suporta mais de 100 idiomas, melhorando a comunicação global em plataformas sociais da empresa.)

Acompanhe tudo sobre:Inteligência artificial Chatbot

Explosão de imagens no estilo do Studio Ghibli faz criptomoeda meme disparar; entenda

Mais de Inteligência Artificial

Exclusivo: IA faz parte da rotina de 63% dos fotógrafos brasileiros, diz pesquisa

Mais na Exame

Imagem referente à matéria: Procurado pelos EUA, Maduro convoca 4,5 milhões de 'milicianos' em meio a tensão entre os países

Mundo

Inteligência Artificial

Claude pode criar respostas que tem o intuito concordar com o usuário, diz pesquisa da Anthropic

A empresa se inspirou na neurociência e construiu um microscópio para entender como LLMs criam estratégias e raciocinam para chegar até suas respostas

Mais de Inteligência Artificial

Exclusivo: IA faz parte da rotina de 63% dos fotógrafos brasileiros, diz pesquisa

A influência da 'máfia da Palantir': ex-funcionários lideram 350 startups do Vale do Silício

O currículo de um jovem bilionário da IA: descubra o que ele fez para chegar lá

Por que o governo Trump quer investir na Intel?

Mais na Exame

Procurado pelos EUA, Maduro convoca 4,5 milhões de 'milicianos' em meio a tensão entre os países

Iniciativa monitora preço dos alimentos e mostra influência deles no orçamento das famílias

Disney no Brasil? O plano de R$ 2 bi da Cacau Show para virar referência em parques de diversão

Adultização: o que diz o PL sobre proteção de crianças nas redes e quais são as principais mudanças