Redatora
Publicado em 31 de janeiro de 2025 às 18h56.
O instituto de pesquisa não-lucrativo de inteligência artificial Ai2 lançou um modelo de linguagem em código aberto que a organização diz ter desempenho parecido ou maior ao do V3, desenvolvido pela DeepSeek, do GPT-4o, pela OpenAI, bem como do Llama 3.1405B, pela Meta. O instituto fica baseado em Seattle, nos Estados Unidos.
Para desenvolver o Tülu 3 405B, o Ai2 utilizou estrutura de Aprendizado por Reforço a partir de Recompensas Verificáveis (RLVR), que treina modelos em tarefas com resultados verificáveis. Com isso, a organização notou que houve melhores resultados em habilidades ligadas à matemática da IA.
"Em geral, nossos resultados mostram uma vantagem consistente sobre o DeepSeek V3, especialmente com a inclusão de indicadores de segurança", escreveu Ai2 em anúncio.Tülu 3 405B conta com uma escala de 405 bilhões de parâmetros e precisou de 256 unidades de processamento gráfico (GPUs) para seu treinamento. Geralmente, quanto mais parâmetros a IA tem, maiores serão as habilidades de resolução de problemas da tecnologia.
Segundo um porta voz do instituto, o Tülu 3405B pode ser uma alternativa à startup chinesa DeepSeek. "Esse marco é um momento chave para o futuro da IA aberta, reforçando a posição dos Estados como líder em modelos competitivos de código aberto", afirmou ao Tech Crunch.
O sucesso da DeepSeek levantou questionamentos nesta semana sobre a continuidade da liderança estadunidense em IA. Os downloads da assistente produzida pela startup chinesa ultrapassaram os do ChatGPT, feito pela OpenAI, em iPhones dos Estados Unidos. Empresas de tecnologia listada na Nasdaq-100 também tiveram queda nas ações na segunda-feira, 26. Os papéis da Meta, por exemplo, caíram 3,4% no pré-mercado e os da Microsoft, 3,4% no dia.
O modelo de linguagem recém-lançado pela Ai2 pode ser testado acessando o Playground da empresa no navegador.