Inteligência Artificial

Modelos de IA generativa para vídeo começam a raciocinar a partir de imagens

Estudo do Google DeepMind sobre o modelo Veo 3 aponta que sistemas de vídeo podem evoluir para desempenhar papel semelhante ao dos grandes modelos de linguagem (LLMs) no texto

Análise feita pelo DeepMind do Veo 3 demonstrou capacidade do modelo de compreender, manipular e raciocinar sobre sequências visuais em múltiplas etapas (Sarmento Matos/Getty Images)

Análise feita pelo DeepMind do Veo 3 demonstrou capacidade do modelo de compreender, manipular e raciocinar sobre sequências visuais em múltiplas etapas (Sarmento Matos/Getty Images)

Publicado em 29 de setembro de 2025 às 13h19.

Um novo artigo do DeepMind, laboratório de pesquisa em inteligência artificial do Google, reforça a hipótese de que modelos generativos de vídeo – como o Veo 3, da própria empresa – podem assumir um papel semelhante ao dos grandes modelos de linguagem (LLMs) no processamento de texto, mas no campo da visão computacional.

LLMs transformaram a simples tarefa de prever o próximo token em uma base versátil para diversos usos. Desse modo, funções antes atribuídas a modelos específicos — como sumarização, tradução e análise gramatical — passaram a ser executadas por um único sistema de grande porte, cada vez mais potente e acessível.

De forma similar, o estudo indica que os modelos generativos de vídeo como o Veo 3 podem evoluir para plataformas generalistas, capazes de realizar diferentes tarefas visuais complexas — como segmentação, detecção de objetos e classificação de cenas —, as quais hoje ainda dependem de soluções especializadas.

Segundo o DeepMind, o treinamento em larga escala com objetivos generativos permite que esses modelos apresentem comportamento de zero-shot learning, ou seja, consigam resolver tarefas para as quais não foram explicitamente treinados.

Veo 3 mostra avanços

A análise feita pelo DeepMind do Veo 3 mostra avanços nesse sentido. O modelo demonstrou capacidade de compreender, manipular e raciocinar sobre sequências visuais em múltiplas etapas, em um processo que os autores chamaram de chain-of-frames (cadeia de quadros) — uma analogia com o chain-of-thought (cadeia de raciocínio) usado por LLMs no texto.

Enquanto modelos de texto operam com símbolos criados por humanos, como palavras, os de vídeo lidam diretamente com espaço e tempo. A cada novo quadro gerado, eles simulam transformações no mundo visual passo a passo — um avanço importante para resolver problemas que exigem raciocínio dinâmico.

O artigo sugere que, embora ainda menos precisos que modelos sob medida para tarefas específicas, os sistemas de vídeo generativo estão evoluindo rapidamente. Assim como ocorreu com os LLMs, espera-se que esses modelos fiquem mais eficientes e baratos com o tempo.

Acompanhe tudo sobre:Inteligência artificialGoogleVídeos

Mais de Inteligência Artificial

Essa é a diferença entre a IA estratégica e a que causa baixo impacto

Como o Starbucks tem usado IA para agilizar pedidos e melhorar produtividade

Semana de trabalho de 3 dias pode estar mais perto do que nunca graças à IA

Como a IA tem mudado o cérebro dos adolescentes, segundo Oxford