Repórter
Publicado em 27 de janeiro de 2025 às 09h58.
Última atualização em 27 de janeiro de 2025 às 13h52.
O lançamento do modelo de inteligência artificial (IA) chinês DeepSeek R1 está mudando muitos paradigmas sobre o que é necessário para atingir performances de ponta no universo dos chatbots. Desenvolvido com um orçamento significativamente menor do que concorrentes como o ChatGPT e Claude, o modelo open source conseguiu rivalizar com um custo estimado entre 3% e 5% do modelo proprietário da OpenAI.
A notícia gerou uma corrida frenética de desenvolvedores no mundo, com o modelo DeepSeek R1 sendo baixado mais de 109 mil vezes no HuggingFace, a principal plataforma de modelos open source, e na qual é possível acessar, por exemplo, o modelo Llama da Meta.
Na bolsa americana, o efeito do lançamento chinês causou uma segunda-feira turbulenta, com o índice Nasdaq-100 caindo 3,40% e ações de gigantes como Nvidia (-12%), Microsoft (-4,63%) e Meta (-3,40%) sofrendo perdas significativas.
Apelidado de "momento Sputnik" da IA, o avanço reacende a disputa tecnológica entre China e EUA, enquanto especialistas divergem sobre a sustentabilidade dessa nova liderança. O caso expõe a necessidade de reavaliação estratégica por parte das big techs, já que o investimento em infraestrutura de IA deve alcançar US$ 280 bilhões até 2025, segundo o UBS.
O grande diferencial do DeepSeek R1 está em sua abordagem de engenharia: a substituição quase completa do tradicional aprendizado supervisionado (Supervised Fine-Tuning, ou SFT) por aprendizado por reforço (Reinforcement Learning, ou RL).
O SFT, amplamente usado na indústria, foca em ensinar modelos a seguir raciocínios predefinidos, utilizando dados curados em cadeia de pensamento (Chain-of-Thought, CoT).
No entanto, a DeepSeek decidiu seguir outro caminho, descartando o SFT em grande parte do processo de treinamento e confiando quase exclusivamente no aprendizado por reforço.
Essa escolha ousada incentivou o modelo a desenvolver capacidades de raciocínio independentes, sem depender de datasets prescritivos, que podem introduzir fragilidades e vieses.
A estratégia mostrou ser um divisor de águas. Durante o treinamento do DeepSeek-R1-Zero, uma versão intermediária do modelo, os pesquisadores relataram um "momento aha" quando a IA demonstrou capacidade de alocar mais tempo de processamento a problemas complexos e resolvê-los de forma precisa.
"Foi como se o modelo criasse soluções inovadoras e articulasse suas descobertas em um tom quase humano," apontou o relatório técnico da empresa.
A origem do DeepSeek remonta a 2023, quando a startup chinesa, um spin-off da gestora de fundos High-Flyer Quant, começou a desenvolver modelos de IA para uso interno antes de abrir os projetos ao público.
Sua abordagem inicial seguiu caminhos tradicionais, utilizando tecnologias open source como o modelo Llama, da Meta, e a biblioteca PyTorch.
A empresa ainda conseguiu driblar barreiras comerciais para garantir acesso a 50 mil GPUs da Nvidia, uma fração dos recursos utilizados por gigantes como OpenAI e Google, que operam com mais de 500 mil GPUs cada.
Com um orçamento de treinamento inicial estimado em US$ 5,58 milhões, o modelo base V3 já demonstrava potencial competitivo.
Embora os custos totais do R1 permaneçam especulativos, fica claro que o time da DeepSeek soube utilizar de forma brilhante recursos limitados — com inovações como o treinamento de precisão mista, que reduz a memória necessária por GPU ao utilizar números de 8 bits, e algoritmos que otimizam a comunicação entre GPUs, aumentando sua eficiência.
O impacto do DeepSeek R1 indica ir além da comunidade de desenvolvedores de IA. Sua capacidade de oferecer desempenho igual ao dos líderes de mercado com custos reduzidos desafia a lógica de dependência de modelos proprietários como os da OpenAI.
Para empresas, isso significa uma democratização do acesso à IA de ponta, permitindo que organizações menores entrem na corrida tecnológica sem precisar investir bilhões em infraestrutura.
Além disso, a transparência do DeepSeek para ser duro um golpe contra os modelos fechados de grandes players. O modelo exibe todo o raciocínio de suas respostas, permitindo que desenvolvedores identifiquem e corrijam erros com facilidade.
Em contraste, a OpenAI opta por ocultar as "cadeias de pensamento" de seus modelos, alegando motivos competitivos e para evitar confusões com respostas incorretas.
A origem chinesa do DeepSeek gerou controvérsias sobre possíveis vieses alinhados a políticas locais, como a omissão de tópicos sensíveis, incluindo o Massacre da Praça da Paz Celestial. Apesar disso, muitos desenvolvedores minimizam esses casos como raros e apontam que vieses também estão presentes em modelos de empresas ocidentais, incluindo OpenAI e Meta.
Outra crítica é que, embora o DeepSeek R1 seja rotulado como open source, a empresa ainda não revelou todos os detalhes de seus datasets de treinamento, levantando dúvidas sobre a real abertura do projeto.