Estressando robôs: conferência reúne hackers para "fritar a mente" de inteligências artificiais

Feira de cibersegurança DEF CON, realizada nos EUA, busca identificar vulnerabilidades em algoritmos gerados por grandes empresas, como Google, Meta e OpenAI

Conferência DEF CON: evento expõe falhas de modelos de linguagem generativos (UBC Computer Science/Reprodução)

André Lopes

Repórter

Publicado em 14 de agosto de 2023 às 10h59.

Última atualização em 14 de agosto de 2023 às 14h10.

Em um desafio inédito na conferência de hackers DEF CON, em Las Vegas, nos EUA, um estudante americano de 21 anos conseguiu manipular uma inteligência artificial (IA) para afirmar erroneamente que 9 + 10 é igual a 21.

Essa manipulação da "mente da máquina", por assim dizer, integra uma série de testes voltados para expor falhas e vieses em sistemas de IA generativos.

Munidos de 156 notebooks, os participantes da tradicional feira de cibersegurança se dedicaram a explorar oito modelos diferentes, desenvolvidos pelas líderes do setor, incluindo Google, da Alphabet, Meta e OpenAI.

Os desafios variaram, indo desde a obtenção de informações incorretas sobre pessoas e lugares até indução de posturas agressivas por parte dos algoritmos (LLMs).

Segundo a Bloomberg, o objetivo principal da competição é avaliar a capacidade de as empresas construírem barreiras eficientes para evitar que modelos de linguagem de grande escala (LLMs) gerem riscos para alguns tipos de usos.

A iniciativa, apesar de ter sua primeira edição neste ano, já conta com o apoio da Casa Branca, que também colaborou na elaboração de um concurso.

IAs sob pressão

LLMs têm potencial transformador em diversos setores, desde finanças até processos seletivos. Contudo, pesquisadores têm identificado que elas, por vezes, criam vieses em suas respostas, o que pode resultar em disseminação de inexatidões se a tecnologia for adotada amplamente.

Em um dos experimentos da conferência, após um pesquisador solicitar ao modelo uma análise da Primeira Emenda americana sob a ótica de um membro da Ku Klux Klan, ela afirma que o algoritmo acabou apoiando discursos odiosos.

Por sua vez, um repórter da Bloomberg, ao testar o sistema, obteve instruções detalhadas sobre como espionar alguém. Outros participantes também identificaram respostas problemáticas, como divulgação de dados de cartão de crédito ou informações errôneas sobre personalidades políticas.

Especialistas da área de segurança cibernética e inteligência artificial acreditam que, apesar de esforços contínuos, a natureza dos LLMs torna certos ataques inevitáveis. Em contrapartida, outros defendem que os LLMs ainda são mal compreendidos e muitas vezes vistos erroneamente como fontes infalíveis de informação

Acompanhe tudo sobre:Chatbot Inteligência artificial ChatGPT OpenAI Hackers

Amazon inclui IA para resumir milhares de comentários de um produto em um único texto

Mais de Inteligência Artificial

Google lança Gemini 3; entenda o que a nova IA é capaz de fazer

Mais na Exame

Imagem referente à matéria: Investidor diminui posição em bolsa após rali do Ibovespa, diz estudo

Mercados

Inteligência Artificial

Estressando robôs: conferência reúne hackers para "fritar a mente" de inteligências artificiais

Feira de cibersegurança DEF CON, realizada nos EUA, busca identificar vulnerabilidades em algoritmos gerados por grandes empresas, como Google, Meta e OpenAI

IAs sob pressão

Mais de Inteligência Artificial

Google lança Gemini 3; entenda o que a nova IA é capaz de fazer

Amazon emite US$ 15 bi em títulos para financiar expansão em IA

OpenAI leva iniciativa social ao centro de SP e anuncia parceria para formar jovens em IA

IAs podem derrubar a internet? Anthropic debate papel da IA em grandes ataques cibernéticos

Mais na Exame

Investidor diminui posição em bolsa após rali do Ibovespa, diz estudo

As 5 regras usadas por líderes do Vale do Silício para transformar times de alta performance

Senado aprova projeto de atualização patrimonial com itens da MP do IOF

Flamengo ou Corinthians: qual o time de futebol mais odiado do Brasil?