Conduzido em parceria com a Universidade Estadual do Arizona, o estudo mostra como esses agentes de IA ainda não conseguem operar com eficiência em tarefas não supervisionadas (Wong Yu Liang/Getty Images)
Redator
Publicado em 6 de novembro de 2025 às 10h11.
Pesquisadores da Microsoft divulgaram, nesta quarta-feira, 5, um novo ambiente simulado para testar o comportamento de agentes de inteligência artificial, juntamente com uma pesquisa que aponta falhas preocupantes em modelos líderes do mercado, como o GPT-4o e o GPT-5, ambos da OpenAI, e o Gemini-2.5-Flash, do Google.
Conduzido em parceria com a Universidade Estadual do Arizona, o estudo mostra como esses agentes de IA ainda não conseguem operar com eficiência em tarefas não supervisionadas. Isso desafia promessas recentes de empresas de tecnologia sobre o futuro “agente”, termo que designa IAs capazes de agir de forma autônoma em ambientes complexos.
Batizado de Magentic Marketplace, o ambiente construído pela Microsoft simula, por exemplo, um mercado digital em que agentes “clientes” tentam fazer pedidos, como encomendar um jantar, enquanto agentes “comerciantes” competem para fechar a venda. Nos experimentos iniciais, 100 representantes dos consumidores interagiram com 300 dos empresários em diferentes situações de negociação e tomada de decisão.
Nos testes, os modelos apresentaram limitações frente a estímulos variados, sendo vulneráveis a técnicas de persuasão usadas por agentes “comerciantes” para manipulá-los com o objetivo de vender seus produtos. A pesquisa identificou também que as IAs se tornam menos eficientes quando enfrentam muitas opções de escolha.Segundo Ece Kamar, diretora do AI Frontiers Lab da Microsoft, o objetivo é entender como os agentes lidam com negociações e colaboração. Se eles vão transformar o mundo, é preciso compreender profundamente como isso será feito.
A plataforma desenvolvida pela Microsoft tem código aberto, o que deve permitir que outros grupos repliquem os experimentos ou criem novos estudos sobre o comportamento emergente desses sistemas.
Outro ponto crítico identificado no estudo ocorreu em tarefas colaborativas: os agentes de IA não conseguiam se organizar sozinhos para atingir um objetivo comum, criando confusão sobre quem deveria executar qual função.
Apesar de a colaboração melhorar quando instruções explícitas eram dadas, os pesquisadores apontam que essas capacidades deveriam ser “nativas” nos modelos.