Alibaba lança Qwen2-VL, IA que pode analisar vídeos e responder a perguntas sobre o seu conteúdo

A nova ferramenta da Alibaba pode transformar interações com dados visuais e está disponível em versões de código aberto

Repórter

Publicado em 30 de agosto de 2024 às 10h18.

A divisão de serviços em nuvem da Alibaba, Alibaba Cloud, anunciou o lançamento do Qwen2-VL, seu mais recente modelo avançado de visão-linguagem, desenvolvido para melhorar a compreensão visual, análise de vídeos e processamento de texto-imagem em múltiplos idiomas.

O Qwen2-VL já demonstra desempenho impressionante em testes de benchmark, superando modelos de ponta como o Llama 3.1 da Meta, o GPT-4o da OpenAI e o Gemini-1.5 Flash da Google.

Com o Qwen2-VL, a Alibaba busca estabelecer novos padrões para a interação de modelos de IA com dados visuais. Suas capacidades incluem a análise e reconhecimento de escrita manual em vários idiomas, identificação e descrição de objetos em imagens estáticas e análise de vídeos ao vivo em tempo quase real. Essas funções abrem possibilidades para o uso em suporte técnico e outras operações ao vivo.

Em uma postagem no GitHub, a equipe de pesquisa do Qwen destacou que o modelo vai além de imagens estáticas, estendendo suas habilidades para análise de conteúdo de vídeo, incluindo a capacidade de resumir o assunto, responder perguntas e manter uma conversa contínua em tempo real, oferecendo suporte de chat ao vivo.

Três variantes e código aberto

O Qwen2-VL está disponível em três variantes, com tamanhos de parâmetros diferentes: Qwen2-VL-72B (72 bilhões de parâmetros), Qwen2-VL-7B e Qwen2-VL-2B.

O Qwen2-VL possui integração com dispositivos como celulares e robôs, permitindo operações automatizadas baseadas em ambientes visuais e instruções textuais, destacando-se como uma ferramenta poderosa para tarefas que exigem raciocínio e tomada de decisão complexos.

A série também suporta o function calling, integração com softwares, aplicativos e ferramentas de terceiros, e a extração visual de informações desses recursos, como status de voos, previsões meteorológicas ou rastreamento de pacotes.

1/10 Singapura (Singapura)
2/10 (Tóquio)
3/10 (Londres)
4/10 (Barcelona)
5/10 (Dubai)
6/10 (Estocolmo)
7/10 (Nova York)
8/10 (Amsterdã)
9/10 Hong Kong: Hang Seng avança 1,16% com salto de Alibaba e Baidu após testes de chips próprios de IA (Hong Kong)
10/10 (San Francisco)

Acompanhe tudo sobre:Inteligência artificial

Uso do ChatGPT dobrou desde o ano passado, diz OpenAI

Mais de Inteligência Artificial

Corrida por IA custa US$ 80 bilhões. O retorno vai justificar o risco?

Mais na Exame

Imagem referente à matéria: Palmeiras: quem fez os gols que classificaram time para a Libertadores?

Esporte

Inteligência Artificial

Alibaba lança Qwen2-VL, IA que pode analisar vídeos e responder a perguntas sobre o seu conteúdo

A nova ferramenta da Alibaba pode transformar interações com dados visuais e está disponível em versões de código aberto

Três variantes e código aberto

Mais de Inteligência Artificial

Corrida por IA custa US$ 80 bilhões. O retorno vai justificar o risco?

YouTube anuncia vídeos melhorados com IA e compras diretas pela TV

China acelera IPOs de IA e carros autônomos para enfrentar domínio dos EUA

Ações da Microsoft caem com previsão de aumento de gastos em 2026

Mais na Exame

Palmeiras: quem fez os gols que classificaram time para a Libertadores?

PF faz operação contra corrupção e lavagem de dinheiro nesta sexta

Regata com emoção: como a SailGP reinventou o esporte da vela

Mineradora investe mais de R$ 800 mil na proteção do peixe-boi