Modelos de IA generativa para vídeo começam a raciocinar a partir de imagens

Estudo do Google DeepMind sobre o modelo Veo 3 aponta que sistemas de vídeo podem evoluir para desempenhar papel semelhante ao dos grandes modelos de linguagem (LLMs) no texto

Análise feita pelo DeepMind do Veo 3 demonstrou capacidade do modelo de compreender, manipular e raciocinar sobre sequências visuais em múltiplas etapas (Sarmento Matos/Getty Images)

Guilherme Bernardi

Redator

Publicado em 29 de setembro de 2025 às 13h19.

Um novo artigo do DeepMind, laboratório de pesquisa em inteligência artificial do Google, reforça a hipótese de que modelos generativos de vídeo – como o Veo 3, da própria empresa – podem assumir um papel semelhante ao dos grandes modelos de linguagem (LLMs) no processamento de texto, mas no campo da visão computacional.

LLMs transformaram a simples tarefa de prever o próximo token em uma base versátil para diversos usos. Desse modo, funções antes atribuídas a modelos específicos — como sumarização, tradução e análise gramatical — passaram a ser executadas por um único sistema de grande porte, cada vez mais potente e acessível.

De forma similar, o estudo indica que os modelos generativos de vídeo como o Veo 3 podem evoluir para plataformas generalistas, capazes de realizar diferentes tarefas visuais complexas — como segmentação, detecção de objetos e classificação de cenas —, as quais hoje ainda dependem de soluções especializadas.

Segundo o DeepMind, o treinamento em larga escala com objetivos generativos permite que esses modelos apresentem comportamento de zero-shot learning, ou seja, consigam resolver tarefas para as quais não foram explicitamente treinados.

Veo 3 mostra avanços

A análise feita pelo DeepMind do Veo 3 mostra avanços nesse sentido. O modelo demonstrou capacidade de compreender, manipular e raciocinar sobre sequências visuais em múltiplas etapas, em um processo que os autores chamaram de chain-of-frames (cadeia de quadros) — uma analogia com o chain-of-thought (cadeia de raciocínio) usado por LLMs no texto.

Enquanto modelos de texto operam com símbolos criados por humanos, como palavras, os de vídeo lidam diretamente com espaço e tempo. A cada novo quadro gerado, eles simulam transformações no mundo visual passo a passo — um avanço importante para resolver problemas que exigem raciocínio dinâmico.

O artigo sugere que, embora ainda menos precisos que modelos sob medida para tarefas específicas, os sistemas de vídeo generativo estão evoluindo rapidamente. Assim como ocorreu com os LLMs, espera-se que esses modelos fiquem mais eficientes e baratos com o tempo.

Acompanhe tudo sobre:Inteligência artificial Google Vídeos

EUA pressionam Taiwan a produzir em seu território 50% da demanda doméstica de chips

Mais de Inteligência Artificial

CEO da OpenAI descarta apoio do governo dos EUA para financiar data centers

Mais na Exame

Imagem referente à matéria: Guaraná com fibras? Ambev entra de vez na era das bebidas funcionais

Marketing

Inteligência Artificial

Modelos de IA generativa para vídeo começam a raciocinar a partir de imagens

Estudo do Google DeepMind sobre o modelo Veo 3 aponta que sistemas de vídeo podem evoluir para desempenhar papel semelhante ao dos grandes modelos de linguagem (LLMs) no texto

Veo 3 mostra avanços

Mais de Inteligência Artificial

CEO da OpenAI descarta apoio do governo dos EUA para financiar data centers

Musk cogita fábrica própria de chips para IA na Tesla e acena para a Intel

Empresas brasileiras avançaram na IA? Nova pesquisa busca a resposta

Filantropia de Mark e Priscilla Zuckerberg vai focar em IA após restruturação

Mais na Exame

Guaraná com fibras? Ambev entra de vez na era das bebidas funcionais

Diageo, dona da Smirnoff, contrata novo CEO e ações disparam 7,8%

Boletim Focus: mercado mantém expectativa do IPCA em 2025, 2026, 2027 e 2028

Lula critica 'manobras retóricas' em ações militares na América Latina