A DeepSeek está pesquisando um novo método para aprimorar a capacidade de raciocínio de grandes modelos de linguagem (LLMs). A companhia publicou em parceria com a Universidade de Tsinghua um artigo que explora a abordagem conhecida como modelagem de recompensa generativa (GRM) e ajuste por “crítica auto-orientada” (do inglês, Self-Principled Critique Tuning - SPCT).
De acordo com o artigo publicado no arXiv na última quinta-feira, 3, o uso de SPTC melhorou de forma significativa a qualidade e a escalabilidade de GRMs, “ultrapassando métodos e modelos existentes em vários benchmarks de RM (modelamento de recompensa)”. Esse tipo de sistema guia o LLM em direção a preferências humanas, explica o South China Morning Post.
Entretanto, o artigo ressalta que o DeepSeek-GRM ainda tem desafios ao realizar algumas tarefas, que os pesquisadores acreditam que possam ser resolvidos com sistemas de recompensa generalistas.
O artigo diz que o modelo será lançado em código aberto, mas não forneceu uma data. A pesquisa foi publicada em meio a expectativas para o lançamento do próximo modelo de linguagem da DeepSeek, o R2.
A Reuters reportou no fim de fevereiro que a startup está acelerando esforços para adiantar o lançamento do R2, inicialmente previsto para maio, com o intuito de manter a vantagem conquistada com o antecessor R1. Mas não foram divulgados mais detalhes sobre a linha do tempo da empresa. A DeepSeek espera que o novo modelo seja capaz de produzir melhor codificação e raciocinar em outros idiomas para além do inglês.
-
1/7
(O MIT Computer Science and Artificial Intelligence Laboratory (CSAIL), em Cambridge, Massachusetts, desenvolveu o sistema de diagnóstico de câncer de mama baseado em IA, reduzindo erros em 15%.)
-
2/7
(O Google AI, com sede em Mountain View, Califórnia, criou o AlphaGo, o primeiro programa de IA a derrotar um campeão mundial de Go, revolucionando a pesquisa em aprendizado profundo.)
-
3/7
Localizado em Londres, Reino Unido, o DeepMind Lab é famoso pelo desenvolvimento do AlphaFold, um programa de IA que previu estruturas de proteínas com precisão sem precedentes, impactando a biologia molecular.
(Localizado em Londres, Reino Unido, o DeepMind Lab é famoso pelo desenvolvimento do AlphaFold, um programa de IA que previu estruturas de proteínas com precisão sem precedentes, impactando a biologia molecular.)
-
4/7
(O IBM Watson Research Center, em Yorktown Heights, Nova York, desenvolveu a IA Watson, que venceu campeões humanos no programa de TV Jeopardy!, demonstrando avanços significativos em processamento de linguagem natural.)
-
5/7
(O Baidu Research Lab, em Pequim, China, é conhecido por seu sistema de reconhecimento de voz Deep Speech, que alcançou uma precisão de 97% na transcrição de áudio, superando as tecnologias anteriores.)
-
6/7
(O Berkeley Artificial Intelligence Research (BAIR) Lab, na Universidade da Califórnia, em Berkeley, criou algoritmos avançados de robótica, incluindo o Dex-Net, que melhorou a precisão da manipulação robótica em 99%.)
-
7/7
(O centro da Meta AI Research SuperCluster (RSC) tem um dos supercomputadores de IA mais rápidos da atualidade. Com ele, a empresa desenvolveu o sistema de tradução automática baseado em IA que suporta mais de 100 idiomas, melhorando a comunicação global em plataformas sociais da empresa.)