Estudo revela que IAs conseguem "recitar" trechos inteiros de livros famosos

Experimento coloca em dúvida os argumentos de que as IAs "aprendem padrões de palavras" sem violar propriedade intelectual

Modelo Llama 3.1 70B, da Meta, foi um dos analisados no estudo (Meta/Reprodução)

Guilherme Bernardi

Redator

Publicado em 16 de junho de 2025 às 14h33.

Última atualização em 16 de junho de 2025 às 14h34.

Nos últimos anos, diversas editoras e criadores de conteúdo, como jornais, escritores e fotógrafos, entraram com ações legais contra empresas de inteligência artificial (IA), acusando o uso indevido de seu material protegido por direitos autorais durante o treinamento dos modelos. A questão central dessas disputas é a facilidade com que as IAs conseguem gerar trechos exatos de conteúdo protegido.

Um dos casos mais notórios envolveu o jornal New York Times, que processou a OpenAI, alegando que o ChatGPT reproduziu passagens idênticas de suas reportagens. A defesa da empresa argumentou que isso seria um "comportamento marginal" e que a OpenAI estava trabalhando intensamente para resolver esse problema.

Mas será que isso realmente é algo raro, como a defesa sugere? E será que as empresas de IA já conseguiram resolver essa questão? Um estudo recente focado em livros – e não em artigos de jornais – oferece novas respostas sobre o tema. Os resultados da pesquisa, por um lado, reforçam os argumentos das editoras, mas também podem beneficiar as empresas de IA.

Realizado por cientistas da computação e acadêmicos de direito das universidades de Stanford, Cornell e West Virginia, o estudo analisou a capacidade de cinco modelos populares de IA – três desenvolvidos pela Meta, um pela Microsoft e outro pela EleutherAI – de reproduzir textos de livros do Books3, um banco de dados com livros usados para treinar modelos de linguagem. Muitos desses livros ainda estão sob direitos autorais.

Os pesquisadores descobriram que alguns modelos, como o Llama 3.1 70B, da Meta, tinham uma alta probabilidade de memorizar trechos de livros populares, como Harry Potter e a Pedra Filosofal. Em um caso, o modelo foi capaz de reproduzir 42% do conteúdo do livro, com uma taxa de acerto de 50% nas tentativas de gerar passagens exatas.

Isso levanta questões sérias sobre até que ponto as IAs estão realmente "memorizando" dados protegidos por direitos autorais e se isso é compatível com as alegações de que as IAs apenas "aprendem padrões de palavras" sem infringir a propriedade intelectual.

Embora o estudo tenha identificado uma significativa memorização em livros populares como 1984 e O Hobbit, ele também mostrou que o modelo Llama 3.1 70B teve dificuldades em reproduzir textos de livros menos conhecidos, como Sandman Slim, de Richard Kadrey, com apenas 0,13% do conteúdo sendo memorizado.

Esse achado sugere que livros mais discutidos têm maior chance de serem memorizados por modelos de IA, o que pode dificultar as disputas jurídicas, que agora podem ser analisadas caso a caso, em vez de serem julgadas de forma coletiva para todos os livros.

Além disso, o estudo trouxe à tona uma preocupação importante: o futuro do código aberto. Os pesquisadores alertaram que este estudo só foi possível porque tiveram acesso aos pesos dos modelos de IA. Sem esse acesso, seria muito mais difícil detectar a memorização de trechos protegidos por direitos autorais, especialmente em modelos de IA fechados, como os desenvolvidos pela OpenAI e Google.

Acompanhe tudo sobre:Inteligência artificial Meta Harry Potter

Y Combinator consolida foco nos agentes de IA e acelera 70 startups focadas na tecnologia

Mais de Inteligência Artificial

Nvidia acelera na Europa com data center de R$ 6,1 bilhões na Alemanha

Mais na Exame

Imagem referente à matéria: Policial dispara acidentalmente arma em anexo da Câmara

Brasil

Inteligência Artificial

Estudo revela que IAs conseguem "recitar" trechos inteiros de livros famosos

Experimento coloca em dúvida os argumentos de que as IAs "aprendem padrões de palavras" sem violar propriedade intelectual

Mais de Inteligência Artificial

Nvidia acelera na Europa com data center de R$ 6,1 bilhões na Alemanha

China subsidia 50% da energia gasta pelo setor de chips

Nadella alerta: falta energia, mas não chips, na Microsoft

Microsoft anuncia investimento de US$ 15 bi em IA nos Emirados Árabes

Mais na Exame

Policial dispara acidentalmente arma em anexo da Câmara

Mega-Sena: resultado do concurso 2.936; prêmio é de R$ 40,2 milhões

Boulos defende pacto nacional por desenvolvimento e vê ‘cegueira ideológica’

Trump assina ordem para reduzir tarifa da China sobre fentanil para 10%