Inteligência Artificial

Estudo revela que IAs conseguem "recitar" trechos inteiros de livros famosos

Experimento coloca em dúvida os argumentos de que as IAs "aprendem padrões de palavras" sem violar propriedade intelectual

Modelo Llama 3.1 70B, da Meta, foi um dos analisados no estudo (Meta/Reprodução)

Modelo Llama 3.1 70B, da Meta, foi um dos analisados no estudo (Meta/Reprodução)

Publicado em 16 de junho de 2025 às 14h33.

Última atualização em 16 de junho de 2025 às 14h34.

Nos últimos anos, diversas editoras e criadores de conteúdo, como jornais, escritores e fotógrafos, entraram com ações legais contra empresas de inteligência artificial (IA), acusando o uso indevido de seu material protegido por direitos autorais durante o treinamento dos modelos. A questão central dessas disputas é a facilidade com que as IAs conseguem gerar trechos exatos de conteúdo protegido.

Um dos casos mais notórios envolveu o jornal New York Times, que processou a OpenAI, alegando que o ChatGPT reproduziu passagens idênticas de suas reportagens. A defesa da empresa argumentou que isso seria um "comportamento marginal" e que a OpenAI estava trabalhando intensamente para resolver esse problema.

Mas será que isso realmente é algo raro, como a defesa sugere? E será que as empresas de IA já conseguiram resolver essa questão? Um estudo recente focado em livros – e não em artigos de jornais – oferece novas respostas sobre o tema. Os resultados da pesquisa, por um lado, reforçam os argumentos das editoras, mas também podem beneficiar as empresas de IA.

Realizado por cientistas da computação e acadêmicos de direito das universidades de Stanford, Cornell e West Virginia, o estudo analisou a capacidade de cinco modelos populares de IA – três desenvolvidos pela Meta, um pela Microsoft e outro pela EleutherAI – de reproduzir textos de livros do Books3, um banco de dados com livros usados para treinar modelos de linguagem. Muitos desses livros ainda estão sob direitos autorais.

Os pesquisadores descobriram que alguns modelos, como o Llama 3.1 70B, da Meta, tinham uma alta probabilidade de memorizar trechos de livros populares, como Harry Potter e a Pedra Filosofal. Em um caso, o modelo foi capaz de reproduzir 42% do conteúdo do livro, com uma taxa de acerto de 50% nas tentativas de gerar passagens exatas.

Isso levanta questões sérias sobre até que ponto as IAs estão realmente "memorizando" dados protegidos por direitos autorais e se isso é compatível com as alegações de que as IAs apenas "aprendem padrões de palavras" sem infringir a propriedade intelectual.

Embora o estudo tenha identificado uma significativa memorização em livros populares como 1984 e O Hobbit, ele também mostrou que o modelo Llama 3.1 70B teve dificuldades em reproduzir textos de livros menos conhecidos, como Sandman Slim, de Richard Kadrey, com apenas 0,13% do conteúdo sendo memorizado.

Esse achado sugere que livros mais discutidos têm maior chance de serem memorizados por modelos de IA, o que pode dificultar as disputas jurídicas, que agora podem ser analisadas caso a caso, em vez de serem julgadas de forma coletiva para todos os livros.

Além disso, o estudo trouxe à tona uma preocupação importante: o futuro do código aberto. Os pesquisadores alertaram que este estudo só foi possível porque tiveram acesso aos pesos dos modelos de IA. Sem esse acesso, seria muito mais difícil detectar a memorização de trechos protegidos por direitos autorais, especialmente em modelos de IA fechados, como os desenvolvidos pela OpenAI e Google.

Acompanhe tudo sobre:Inteligência artificialMetaHarry Potter

Mais de Inteligência Artificial

xAI de Elon Musk busca levantar US$ 9,3 bilhões em dívida e capital, apesar de crise com Trump

Meta tenta 'roubar' talentos da OpenAI, dona do ChatGPT, com bônus de até R$ 540 milhões

Jovens usam mais IA para se informar, mas ainda preferem humanos, diz relatório

Quais são as novas profissões da era da IA? Conheça 10 carreiras que vão crescer até 2030