O estudo da Microsoft que encontrou novos segredos no código do ChatGPT

Um recente trabalho científico identificou maior tendência do GPT-4, da OpenAI, em seguir comandos mal-intencionados, levando-o a produzir conteúdo de ódio

ChatGPT: IA de processamento de linguagem natural (Thomas Trutschel/Getty Images)

André Lopes

Repórter

Publicado em 17 de outubro de 2023 às 15h32.

Última atualização em 20 de outubro de 2023 às 17h21.

Em um recente artigo científico promovido pela Microsoft, obteve-se uma análise minuciosa da "confiabilidade" e potencial de discursos problemáticos dos modelos linguísticos de grande escala (LLMs), como os GPT-4 e GPT-3.5 da OpenAI.

Os autores indicam que o GPT-4, talvez por ter maior tendência a seguir comandos que contornam suas medidas de segurança internas, pode ser mais facilmente direcionado a produzir textos de ódio e enviesados do que outros LLMs.

Esse fato levanta uma questão: por que a Microsoft, que utiliza o GPT-4 em seu chatbot Bing Chat, aprovaria uma pesquisa que destaca pontos fracos em um produto da OpenAI? A resposta está em uma observação dentro do post do blog que acompanha o artigo.

O time de pesquisa colaborou com grupos de produtos da Microsoft para assegurar que as vulnerabilidades identificadas não afetam os serviços atuais oferecidos ao cliente. Além disso, a OpenAI foi informada sobre as descobertas e reconheceu as potenciais vulnerabilidades em seus sistemas.

GPT-4, assim como outros LLMs, precisa ser instruído para completar tarefas. Manipular os LLMs consiste em usar comandos específicos para induzir o modelo a realizar tarefas não previstas.

Como exemplo, o modelo por trás do Bing Chat não foi projetado para escrever propaganda neo-nazista, mas devido ao vasto conjunto de dados da internet com os quais foi treinado, é suscetível a fazer exatamente isso quando recebe um comando específico.

Os pesquisadores observaram que o GPT-4 tende a gerar textos mais tóxicos do que o GPT-3.5 quando submetido a certos comandos mal-intencionados. Também descobriram que o GPT-4 concorda com conteúdos enviesados mais frequentemente, dependendo dos grupos demográficos mencionados.

Além disso, quando submetido aos comandos apropriados, o GPT-4 pode vazar dados privados, como endereços de e-mail. Embora todos os LLMs possam revelar detalhes dos dados com os quais foram treinados, o GPT-4 mostrou-se mais propenso a isso.

Os pesquisadores disponibilizaram o código usado para avaliar os modelos no GitHub com o objetivo de incentivar a comunidade científica a construir a partir deste trabalho, buscando prevenir ações mal-intencionadas que possam explorar vulnerabilidades e causar danos.

Acompanhe tudo sobre:Inteligência artificial ChatGPT

Gigante chinês Baidu afirma que seu robô conversacional é tão bom quanto ChatGPT

Mais de Inteligência Artificial

IAs podem derrubar a internet? Anthropic debate papel da IA em grandes ataques cibernéticos

Mais na Exame

Imagem referente à matéria: Cloudflare diz que problema que derrubou sites 'já foi resolvido'

Tecnologia

Inteligência Artificial

O estudo da Microsoft que encontrou novos segredos no código do ChatGPT

Um recente trabalho científico identificou maior tendência do GPT-4, da OpenAI, em seguir comandos mal-intencionados, levando-o a produzir conteúdo de ódio

Mais de Inteligência Artificial

IAs podem derrubar a internet? Anthropic debate papel da IA em grandes ataques cibernéticos

Grok 4.1 é liberado com promessa de salto em 'inteligência emocional'

Ninguém está a salvo se bolha da IA estourar, diz CEO do Google

Databricks negocia nova rodada de captação, avaliada em mais de US$ 130 bi

Mais na Exame

Cloudflare diz que problema que derrubou sites 'já foi resolvido'

IAs podem derrubar a internet? Anthropic debate papel da IA em grandes ataques cibernéticos

'Só podemos acelerar a descarbonização com o setor privado', diz CEO da COP30

Falha na Cloudflare atinge mercado de criptomoedas e tira sites do ar