Repórter
Publicado em 30 de agosto de 2024 às 10h18.
A divisão de serviços em nuvem da Alibaba, Alibaba Cloud, anunciou o lançamento do Qwen2-VL, seu mais recente modelo avançado de visão-linguagem, desenvolvido para melhorar a compreensão visual, análise de vídeos e processamento de texto-imagem em múltiplos idiomas.
O Qwen2-VL já demonstra desempenho impressionante em testes de benchmark, superando modelos de ponta como o Llama 3.1 da Meta, o GPT-4o da OpenAI e o Gemini-1.5 Flash da Google.Com o Qwen2-VL, a Alibaba busca estabelecer novos padrões para a interação de modelos de IA com dados visuais. Suas capacidades incluem a análise e reconhecimento de escrita manual em vários idiomas, identificação e descrição de objetos em imagens estáticas e análise de vídeos ao vivo em tempo quase real. Essas funções abrem possibilidades para o uso em suporte técnico e outras operações ao vivo.
Em uma postagem no GitHub, a equipe de pesquisa do Qwen destacou que o modelo vai além de imagens estáticas, estendendo suas habilidades para análise de conteúdo de vídeo, incluindo a capacidade de resumir o assunto, responder perguntas e manter uma conversa contínua em tempo real, oferecendo suporte de chat ao vivo.
O Qwen2-VL está disponível em três variantes, com tamanhos de parâmetros diferentes: Qwen2-VL-72B (72 bilhões de parâmetros), Qwen2-VL-7B e Qwen2-VL-2B.
O Qwen2-VL possui integração com dispositivos como celulares e robôs, permitindo operações automatizadas baseadas em ambientes visuais e instruções textuais, destacando-se como uma ferramenta poderosa para tarefas que exigem raciocínio e tomada de decisão complexos.
A série também suporta o function calling, integração com softwares, aplicativos e ferramentas de terceiros, e a extração visual de informações desses recursos, como status de voos, previsões meteorológicas ou rastreamento de pacotes.