Monalisa falando: IA do Alibaba cria vídeos com apenas uma foto

Sistema de inteligência artificial é capaz de animar uma única foto de retrato e gerar vídeos da pessoa falando ou cantando de maneira realista

EMO, do Alibaba: IA produz vídeos realistas a partir de uma foto e uma faixa de áudio

Redatora

Publicado em 1 de março de 2024 às 09h27.

O novo sistema de IA do Alibaba, chamado "EMO", abreviação de Emote Portrait Alive, cria vídeos realistas com cenas de conversas e música a partir de fotos. O sistema de inteligência artificial é capaz de animar uma única foto de retrato e gerar vídeos da pessoa falando ou cantando de maneira realista.

O sistema, descrito em um artigo de pesquisa publicado no arXiv, é capaz de criar movimentos faciais fluidos e expressivos e poses de cabeça que correspondem de perto às nuances de uma faixa de áudio fornecida. No vídeo de apresentação da ferramenta, vemos um vídeo da atriz Audrey Hepburn cantando uma música de Ed Sheeran, e uma mulher caracterizada como a Monalisa entoando um single de Miley Cyrus -- e, mais tarde, o próprio quadro reproduzindo um discurso.

"Técnicas tradicionais frequentemente falham em capturar todo o espectro de expressões humanas e a singularidade dos estilos faciais individuais", disse o autor principal Linrui Tian no artigo. "Para resolver essas questões, propomos o EMO, um novo framework que utiliza uma abordagem de síntese direta de áudio para vídeo, evitando a necessidade de modelos 3D intermediários ou pontos de referência faciais."

O sistema EMO emprega uma técnica de IA conhecida como modelo de difusão, que mostrou capacidade para gerar imagens sintéticas realistas. Os pesquisadores treinaram o modelo em um conjunto de dados de mais de 250 horas de vídeos de cabeças falantes selecionados de discursos, filmes, programas de TV e performances de canto.

Ao contrário de métodos anteriores que dependem de modelos de rosto 3D para aproximar os movimentos faciais, o EMO converte diretamente a forma de onda de áudio em frames de vídeo. Isso permite capturar movimentos sutis e peculiaridades específicas associadas à fala natural.

"Resultados experimentais demonstram que o EMO é capaz de produzir não apenas vídeos convincentes de fala, mas também vídeos de canto em vários estilos, superando significativamente as metodologias de última geração existentes em termos de expressividade e realismo", afirma o artigo.

No entanto, preocupações éticas permanecem sobre o uso potencial dessa tecnologia para impersonificar pessoas sem consentimento ou espalhar desinformação. Os pesquisadores afirmam que planejam explorar métodos para detectar vídeos sintéticos.

Acompanhe tudo sobre:Inteligência artificial Alibaba

Elon Musk processa OpenAI e Sam Altman por relação com Microsoft

Mais de Inteligência Artificial

Parceiras da OpenAI já acumulam dívida de US$ 100 bi em projetos

Mais na Exame

Imagem referente à matéria: Santos x Sport: onde assistir, horário e escalações do jogo pelo Brasileirão

Esporte

Inteligência Artificial

Monalisa falando: IA do Alibaba cria vídeos com apenas uma foto

Sistema de inteligência artificial é capaz de animar uma única foto de retrato e gerar vídeos da pessoa falando ou cantando de maneira realista

Mais de Inteligência Artificial

Parceiras da OpenAI já acumulam dívida de US$ 100 bi em projetos

Órgão regulador do Reino Unido ameaça fusão entre Getty Images e Shutterstock

Baidu busca se tornar fornecedora completa de IA no mercado chinês

Alibaba lança óculos com IA e mira competição contra a Meta

Mais na Exame

Santos x Sport: onde assistir, horário e escalações do jogo pelo Brasileirão

Essa startup atingiu valor de mercado de US$ 2 bilhões com modelo de serviços personalizados

Trinidad e Tobago confirma radar dos EUA próximo à Venezuela

Reações aos vetos do licenciamento ambiental: congresso 'enterrou' proteção ambiental