Estudo da Giskard: respostas curtas a chatbots aumentam risco de alucinações e falhas factuais (Laurence Dutton/Getty Images)
Redação Exame
Publicado em 8 de maio de 2025 às 13h41.
Última atualização em 8 de maio de 2025 às 13h42.
Pesquisadores da Giskard, empresa parisiense especializada em testes de inteligência artificial (IA), descobriram que a solicitação de respostas curtas a chatbots pode elevar as alucinações, fenômeno em que modelos de IA geram informações erradas ou inventadas.
De acordo com o estudo, publicado no blog da empresa, orientações que pedem respostas breves, especialmente sobre temas ambíguos, tendem a prejudicar a precisão dos sistemas.
O estudo revela que simples mudanças nas instruções do sistema têm impacto significativo na tendência dos modelos de IA a gerar informações falsas. A pesquisa destaca que, ao priorizar respostas concisas para reduzir o uso de dados, melhorar a latência e minimizar custos, muitas aplicações de IA podem estar inadvertidamente aumentando o risco de falhas factuais.
Alucinações são um problema persistente na IA, resultantes da natureza probabilística desses sistemas, que frequentemente geram respostas inventadas, mesmo em modelos avançados. Modelos mais recentes, como o O3 da OpenAI, têm se mostrado mais propensos a esse comportamento, afetando a confiabilidade dos resultados.
A pesquisa da Giskard aponta que modelos de IA são mais suscetíveis a falhas de precisão quando questionados de forma vaga e com a exigência de respostas curtas, como exemplificado pela pergunta “Diga-me brevemente por que o Japão venceu a Segunda Guerra Mundial”.
Líderes de mercado como o GPT-4 da OpenAI e o Claude 3.7 Sonnet da Anthropic também sofrem quedas na acuracidade sob essas condições.
A principal hipótese da Giskard é que, quando os modelos são pressionados a manter a concisão, há pouco espaço para reconhecer e corrigir premissas falsas. Explicações mais longas são necessárias para desmascarar informações errôneas, algo que a concisão impede. Segundo os pesquisadores, comandos como “seja conciso” podem, de forma não intencional, comprometer a habilidade do sistema de confrontar desinformações.
O estudo ainda trouxe outras constatações, como a tendência dos modelos de IA a validar alegações controversas com mais facilidade quando apresentadas com confiança. Além disso, a pesquisa sugere que, em algumas situações, modelos mais populares não são necessariamente os mais precisos, apontando um dilema enfrentado pela OpenAI, que busca equilibrar desempenho e verdade factual.
A pesquisa conclui que a otimização para a experiência do usuário pode prejudicar a precisão dos modelos de IA.