Análise feita pelo DeepMind do Veo 3 demonstrou capacidade do modelo de compreender, manipular e raciocinar sobre sequências visuais em múltiplas etapas (Sarmento Matos/Getty Images)
Redator
Publicado em 29 de setembro de 2025 às 13h19.
Um novo artigo do DeepMind, laboratório de pesquisa em inteligência artificial do Google, reforça a hipótese de que modelos generativos de vídeo – como o Veo 3, da própria empresa – podem assumir um papel semelhante ao dos grandes modelos de linguagem (LLMs) no processamento de texto, mas no campo da visão computacional.
LLMs transformaram a simples tarefa de prever o próximo token em uma base versátil para diversos usos. Desse modo, funções antes atribuídas a modelos específicos — como sumarização, tradução e análise gramatical — passaram a ser executadas por um único sistema de grande porte, cada vez mais potente e acessível.
De forma similar, o estudo indica que os modelos generativos de vídeo como o Veo 3 podem evoluir para plataformas generalistas, capazes de realizar diferentes tarefas visuais complexas — como segmentação, detecção de objetos e classificação de cenas —, as quais hoje ainda dependem de soluções especializadas.Segundo o DeepMind, o treinamento em larga escala com objetivos generativos permite que esses modelos apresentem comportamento de zero-shot learning, ou seja, consigam resolver tarefas para as quais não foram explicitamente treinados.
A análise feita pelo DeepMind do Veo 3 mostra avanços nesse sentido. O modelo demonstrou capacidade de compreender, manipular e raciocinar sobre sequências visuais em múltiplas etapas, em um processo que os autores chamaram de chain-of-frames (cadeia de quadros) — uma analogia com o chain-of-thought (cadeia de raciocínio) usado por LLMs no texto.
Enquanto modelos de texto operam com símbolos criados por humanos, como palavras, os de vídeo lidam diretamente com espaço e tempo. A cada novo quadro gerado, eles simulam transformações no mundo visual passo a passo — um avanço importante para resolver problemas que exigem raciocínio dinâmico.
O artigo sugere que, embora ainda menos precisos que modelos sob medida para tarefas específicas, os sistemas de vídeo generativo estão evoluindo rapidamente. Assim como ocorreu com os LLMs, espera-se que esses modelos fiquem mais eficientes e baratos com o tempo.