Inteligência Artificial

Modelos de IA generativa para vídeo começam a raciocinar a partir de imagens

Estudo do Google DeepMind sobre o modelo Veo 3 aponta que sistemas de vídeo podem evoluir para desempenhar papel semelhante ao dos grandes modelos de linguagem (LLMs) no texto

Análise feita pelo DeepMind do Veo 3 demonstrou capacidade do modelo de compreender, manipular e raciocinar sobre sequências visuais em múltiplas etapas (Sarmento Matos/Getty Images)

Análise feita pelo DeepMind do Veo 3 demonstrou capacidade do modelo de compreender, manipular e raciocinar sobre sequências visuais em múltiplas etapas (Sarmento Matos/Getty Images)

Publicado em 29 de setembro de 2025 às 13h19.

Um novo artigo do DeepMind, laboratório de pesquisa em inteligência artificial do Google, reforça a hipótese de que modelos generativos de vídeo – como o Veo 3, da própria empresa – podem assumir um papel semelhante ao dos grandes modelos de linguagem (LLMs) no processamento de texto, mas no campo da visão computacional.

LLMs transformaram a simples tarefa de prever o próximo token em uma base versátil para diversos usos. Desse modo, funções antes atribuídas a modelos específicos — como sumarização, tradução e análise gramatical — passaram a ser executadas por um único sistema de grande porte, cada vez mais potente e acessível.

De forma similar, o estudo indica que os modelos generativos de vídeo como o Veo 3 podem evoluir para plataformas generalistas, capazes de realizar diferentes tarefas visuais complexas — como segmentação, detecção de objetos e classificação de cenas —, as quais hoje ainda dependem de soluções especializadas.

Segundo o DeepMind, o treinamento em larga escala com objetivos generativos permite que esses modelos apresentem comportamento de zero-shot learning, ou seja, consigam resolver tarefas para as quais não foram explicitamente treinados.

Veo 3 mostra avanços

A análise feita pelo DeepMind do Veo 3 mostra avanços nesse sentido. O modelo demonstrou capacidade de compreender, manipular e raciocinar sobre sequências visuais em múltiplas etapas, em um processo que os autores chamaram de chain-of-frames (cadeia de quadros) — uma analogia com o chain-of-thought (cadeia de raciocínio) usado por LLMs no texto.

Enquanto modelos de texto operam com símbolos criados por humanos, como palavras, os de vídeo lidam diretamente com espaço e tempo. A cada novo quadro gerado, eles simulam transformações no mundo visual passo a passo — um avanço importante para resolver problemas que exigem raciocínio dinâmico.

O artigo sugere que, embora ainda menos precisos que modelos sob medida para tarefas específicas, os sistemas de vídeo generativo estão evoluindo rapidamente. Assim como ocorreu com os LLMs, espera-se que esses modelos fiquem mais eficientes e baratos com o tempo.

Acompanhe tudo sobre:Inteligência artificialGoogleVídeos

Mais de Inteligência Artificial

OpenAI afirma que GPT-5 se aproxima do desempenho humano em diversas profissões

O que o bilionário da IA de 28 anos faria se estivesse começando na carreira hoje

Sam Altman prevê que IA superará inteligência humana até 2030

Apple testa reformulação da Siri com aplicativo interno inspirado em ChatGPT