Tecnologia

Como a China desafiou o domínio do ChatGPT e criou uma IA de ponta por 5% do custo

Modelo open source DeepSeek utiliza aprendizado por reforço e reacende debate sobre infraestrutura para inteligência artificial precisar de crescimento exponencial

André Lopes
André Lopes

Repórter

Publicado em 27 de janeiro de 2025 às 09h58.

Última atualização em 27 de janeiro de 2025 às 13h52.

O lançamento do modelo de inteligência artificial (IA) chinês DeepSeek R1 está mudando muitos paradigmas sobre o que é necessário para atingir performances de ponta no universo dos chatbots. Desenvolvido com um orçamento significativamente menor do que concorrentes como o ChatGPT e Claude, o modelo open source conseguiu rivalizar com um custo estimado entre 3% e 5% do modelo proprietário da OpenAI.

A notícia gerou uma corrida frenética de desenvolvedores no mundo, com o modelo DeepSeek R1 sendo baixado mais de 109 mil vezes no HuggingFace, a principal plataforma de modelos open source, e na qual é possível acessar, por exemplo, o modelo Llama da Meta.

Na bolsa americana, o efeito do lançamento chinês causou uma segunda-feira turbulenta, com o índice Nasdaq-100 caindo 3,40% e ações de gigantes como Nvidia (-12%), Microsoft (-4,63%) e Meta (-3,40%) sofrendo perdas significativas.

Apelidado de "momento Sputnik" da IA, o avanço reacende a disputa tecnológica entre China e EUA, enquanto especialistas divergem sobre a sustentabilidade dessa nova liderança. O caso expõe a necessidade de reavaliação estratégica por parte das big techs, já que o investimento em infraestrutura de IA deve alcançar US$ 280 bilhões até 2025, segundo o UBS.

DeepSeek na AppStore: aplicativo chinês promete competição acirrada com os modelos americanos (VCG/VCG/Getty Images)

Abandonando o "script" do aprendizado supervisionado

O grande diferencial do DeepSeek R1 está em sua abordagem de engenharia: a substituição quase completa do tradicional aprendizado supervisionado (Supervised Fine-Tuning, ou SFT) por aprendizado por reforço (Reinforcement Learning, ou RL).

O SFT, amplamente usado na indústria, foca em ensinar modelos a seguir raciocínios predefinidos, utilizando dados curados em cadeia de pensamento (Chain-of-Thought, CoT).

No entanto, a DeepSeek decidiu seguir outro caminho, descartando o SFT em grande parte do processo de treinamento e confiando quase exclusivamente no aprendizado por reforço.

Essa escolha ousada incentivou o modelo a desenvolver capacidades de raciocínio independentes, sem depender de datasets prescritivos, que podem introduzir fragilidades e vieses.

A estratégia mostrou ser um divisor de águas. Durante o treinamento do DeepSeek-R1-Zero, uma versão intermediária do modelo, os pesquisadores relataram um "momento aha" quando a IA demonstrou capacidade de alocar mais tempo de processamento a problemas complexos e resolvê-los de forma precisa.

"Foi como se o modelo criasse soluções inovadoras e articulasse suas descobertas em um tom quase humano," apontou o relatório técnico da empresa.

Mai acessível e eficiente

A origem do DeepSeek remonta a 2023, quando a startup chinesa, um spin-off da gestora de fundos High-Flyer Quant, começou a desenvolver modelos de IA para uso interno antes de abrir os projetos ao público.

Sua abordagem inicial seguiu caminhos tradicionais, utilizando tecnologias open source como o modelo Llama, da Meta, e a biblioteca PyTorch.

A empresa ainda conseguiu driblar barreiras comerciais para garantir acesso a 50 mil GPUs da Nvidia, uma fração dos recursos utilizados por gigantes como OpenAI e Google, que operam com mais de 500 mil GPUs cada.

Com um orçamento de treinamento inicial estimado em US$ 5,58 milhões, o modelo base V3 já demonstrava potencial competitivo.

Embora os custos totais do R1 permaneçam especulativos, fica claro que o time da DeepSeek soube utilizar de forma brilhante recursos limitados — com inovações como o treinamento de precisão mista, que reduz a memória necessária por GPU ao utilizar números de 8 bits, e algoritmos que otimizam a comunicação entre GPUs, aumentando sua eficiência.

Por que isso importa para as empresas?

O impacto do DeepSeek R1 indica ir além da comunidade de desenvolvedores de IA. Sua capacidade de oferecer desempenho igual ao dos líderes de mercado com custos reduzidos desafia a lógica de dependência de modelos proprietários como os da OpenAI.

Para empresas, isso significa uma democratização do acesso à IA de ponta, permitindo que organizações menores entrem na corrida tecnológica sem precisar investir bilhões em infraestrutura.

Além disso, a transparência do DeepSeek para ser duro um golpe contra os modelos fechados de grandes players. O modelo exibe todo o raciocínio de suas respostas, permitindo que desenvolvedores identifiquem e corrijam erros com facilidade.

Em contraste, a OpenAI opta por ocultar as "cadeias de pensamento" de seus modelos, alegando motivos competitivos e para evitar confusões com respostas incorretas.

Repercussões éticas e limitações

A origem chinesa do DeepSeek gerou controvérsias sobre possíveis vieses alinhados a políticas locais, como a omissão de tópicos sensíveis, incluindo o Massacre da Praça da Paz Celestial. Apesar disso, muitos desenvolvedores minimizam esses casos como raros e apontam que vieses também estão presentes em modelos de empresas ocidentais, incluindo OpenAI e Meta.

Outra crítica é que, embora o DeepSeek R1 seja rotulado como open source, a empresa ainda não revelou todos os detalhes de seus datasets de treinamento, levantando dúvidas sobre a real abertura do projeto.

Acompanhe tudo sobre:Inteligência artificialOpenAIChina

Mais de Tecnologia

Criador do LinkedIn faz parceria para criar startup de pesquisa de doenças com IA

Musk fecha parceria com Visa para lançar carteira digital e pagamentos no X

Venda ou bloqueio: o que se sabe sobre a situação do TikTok nos EUA

Google Maps irá renomear 'Golfo do México' para 'Golfo da América'