Claude 3 ultrapassa o GPT-4 em ranking feito por pesquisadores de IA

O sucesso do Claude 3 entre os usuários de assistentes de IA já levou alguns usuários a substituírem o ChatGPT em seu fluxo de trabalho diário

Claude 3: chatbot da Anthropic está potencialmente reduzindo a participação de mercado do ChatGPT (Getty Images)

Carolina Unzelte

Redatora

Publicado em 28 de março de 2024 às 11h21.

Última atualização em 9 de abril de 2024 às 16h19.

O modelo Claude 3 Opus da startup Anthropic ultrapassou o GPT-4 da OpenAI (modelo que alimenta o ChatGPT) pela primeira vez no Chatbot Arena, uma popular classificação de liderança crowdsourced e usada por pesquisadores de IA para avaliar as capacidades relativas dos modelos de linguagem de IA.

O Chatbot Arena é administrado pela Organização de Sistemas de Modelos Grandes, uma organização de pesquisa dedicada a modelos abertos que opera como uma colaboração entre estudantes e docentes da Universidade da Califórnia, Berkeley, UC San Diego e Universidade Carnegie Mellon.

Desde que o GPT-4 foi incluído no Chatbot Arena por volta de 10 de maio de 2023, o modelo tem consistentemente ocupado o topo da tabela até agora. Um dos modelos menores da Anthropic, o Haiku, também tem chamado a atenção com seu desempenho na tabela.

O Chatbot Arena apresenta a um usuário que visita o site uma caixa de entrada de chat e duas janelas mostrando a saída de dois modelos de IA não rotulados. A tarefa do usuário é classificar qual saída é melhor com base em qualquer critério que o usuário considere mais adequado. Por meio de milhares dessas comparações, o Chatbot Arena calcula os modelos "melhores" em conjunto e preenche a tabela de classificação, atualizando-a ao longo do tempo.

O Chatbot Arena é importante para os pesquisadores porque eles frequentemente encontram frustração ao tentar medir o desempenho de chatbots de IA, cujas saídas variam muito e são difíceis de quantificar. Para lidar com isso, há o uso das "vibes", ou sentimentos subjetivos, na determinação da qualidade de um modelo.

O sentimento de "vibes" é comum no espaço de IA, onde benchmarks numéricos que medem conhecimento ou habilidade de realização de testes são frequentemente escolhidos a dedo pelos fornecedores para tornar seus resultados mais favoráveis.

O sucesso do Claude 3 entre os usuários de assistentes de IA já levou alguns usuários a substituírem o ChatGPT em seu fluxo de trabalho diário, potencialmente reduzindo a participação de mercado do ChatGPT. O Gemini Advanced, da Google, com capacidades semelhantes, também tem ganhado destaque no espaço de assistentes de IA.

Isso pode deixar a OpenAI em alerta por enquanto, mas, a longo prazo, a empresa está preparando novos modelos. Espera-se que ela lance um grande novo sucessor do GPT-4 Turbo (seja chamado de GPT-4.5 ou GPT-5) ainda este ano.

Acompanhe tudo sobre:Inteligência artificial ChatGPT OpenAI exame-ceo

Esta empresa chegou há 2 anos no Brasil e agora quer aportar R$ 100 milhões por aqui. O motivo: a IA

Mais de Inteligência Artificial

Amazon lançará marketplace de agentes de IA com Anthropic como parceira estratégica

Mais na Exame

Imagem referente à matéria: Lista revela os 10 cursos universitários mais valiosos — um pode ter salário de 6 dígitos

Carreira

Inteligência Artificial

Claude 3 ultrapassa o GPT-4 em ranking feito por pesquisadores de IA

O sucesso do Claude 3 entre os usuários de assistentes de IA já levou alguns usuários a substituírem o ChatGPT em seu fluxo de trabalho diário

Mais de Inteligência Artificial

Amazon lançará marketplace de agentes de IA com Anthropic como parceira estratégica

IA usada pelo Nubank se torna o mais novo ‘funcionário’ do Goldman Sachs

IA da Apple alcança 92% de precisão na detecção de gravidez e infecções

Estudo revela que IA causa queda na produtividade de desenvolvedores experientes

Mais na Exame

Lista revela os 10 cursos universitários mais valiosos — um pode ter salário de 6 dígitos

Mulher de 39 anos ganha US$ 18 mil por mês em renda passiva: 'Aqui vai o meu melhor conselho'

EUA alerta para mais tempestades em Texas e Novo México após inundações recentes

Congresso pede para STF manter derrubada de aumento do IOF