Redatora na Exame
Publicado em 9 de maio de 2025 às 15h20.
Pesquisadores do Alibaba Group anunciaram uma nova técnica de recuperação de informação batizada de ZeroSearch, que permite treinar modelos de linguagem de grande porte, ou LLMs, sem o uso de APIs de serviços como a Busca do Google. A abordagem propõe uma forma de simular o processo de busca por meio de geração textual, diminuindo os custos e dando mais controle à etapa de treinamento, segundo relatório publicado nesta semana na plataforma científica arXiv.
O ZeroSearch substitui chamadas reais a mecanismos de busca por uma arquitetura de geração textual supervisionada, que simula documentos relevantes e irrelevantes para cada consulta. Ao adotar esse método, o custo de um treinamento com cerca de 64 mil pesquisas caiu de US$ 586,70 — valor estimado com uso da SerpAPI — para apenas US$ 70,80 com simulação por IA, de acordo com os dados apresentados. A economia representa uma redução de aproximadamente 88%.
A estrutura do ZeroSearch usa aprendizado por reforço com uma “estratégia baseada em currículo”, que degrada progressivamente a qualidade dos documentos gerados. Essa tática permite ensinar os modelos a reconhecerem variações na relevância dos textos simulados. Nos testes, um modelo de 14 bilhões de parâmetros treinado com o ZeroSearch superou a performance da própria Busca Google em precisão de recuperação, segundo os pesquisadores.
Segundo o time do Alibaba, a chave do funcionamento está no pré-treinamento massivo dos LLMs, que já armazenam conhecimento amplo sobre o mundo. “Eles são capazes de gerar textos que simulam com fidelidade documentos relevantes para uma determinada consulta, apesar das diferenças no estilo textual em relação aos resultados de uma busca real”, afirma o artigo.
O ZeroSearch se insere em um contexto mais amplo de tentativas de contornar dependências comerciais com grandes buscadores, como Google e Bing. Ferramentas como a SerpAPI cobram por volume de consulta e impõem limites técnicos, o que torna modelos dependentes desses recursos menos escaláveis e mais caros. Além disso, há questões legais e de uso justo associadas ao consumo automatizado de resultados de busca.
Ainda que os resultados apresentados pelo Alibaba indiquem vantagem sobre sistemas reais, especialistas alertam que a simulação pode não replicar com precisão a variedade e atualidade dos documentos indexados na internet. Isso pode limitar o uso do ZeroSearch em cenários que exigem informações atualizadas ou específicas.
A iniciativa, no entanto, reforça uma tendência de autossuficiência dos LLMs em tarefas tradicionalmente delegadas a mecanismos externos, como recuperação de informação, leitura de tabelas ou busca de referências científicas.