Serviços de criação de imagens como Midjourney e Dall-E estão ampliando o horizonte de designers ao redor do mundo (Patrick Kyle/BLOOMBERG BUSINESSWEEK)
Bloomberg Businessweek
Publicado em 25 de janeiro de 2024 às 06h00.
O designer Colin Dunn gosta quando serviços de criação de imagens alimentados por inteligência artificial, como Midjourney e Dall-E, da OpenAI, parecem estragar tudo e produzir algo aleatório, ao responderem a um pedido de imagem de um grupo de pessoas caminhando juntas com a representação de uma única figura afastada para longe. Isso faz Dunn se lembrar de experimentar com um colega de trabalho uma porção de ideias estranhas antes de encontrar a certa.
Como criar imagens com inteligência artificial (IA)
A startup de Dunn, a Visual Electric, desenvolveu uma nova interface de rede para aproveitar esse processo. Os geradores de texto para imagem geralmente exibem imagens únicas em uma janela de bate-papo, mas, no aplicativo de Dunn, as saídas são salvas em linhas e organizadas ao lado ou abaixo daquela que estão modificando, criando uma galeria de miniaturas. O resultado é uma colagem de rascunhos que permite aos usuários explorarem várias ideias criativas com base em como a IA interpretou suas sucessivas solicitações, para melhor ou para pior.
O objetivo do fluxo de trabalho é inspirar uma “exploração ampla e confusa”, diz Dunn, ex-designer do Dropbox e do Facebook, cuja startup com sede em Sausalito, Califórnia, é apoiada pela Sequoia Capital. Sua empresa está menos focada em alcançar o resultado esperado com o menor número de cliques possível do que em deixar a IA correr solta de maneiras surpreendentes. Existem ferramentas para reescrever automaticamente prompts com descrições mais incomuns, alterar a estética com humor e ajustar a liberalidade com que o computador interpretará suas palavras.
Em outras palavras, parte do objetivo da Visual Electric é encorajar “alucinações”, o termo pseudocientífico para sistemas de IA que se envolvem em seus próprios dados de treinamento e inventam coisas. Os engenheiros têm tentado impedir que os chatbots tenham alucinações muito antes do lançamento público do ChatGPT, no final de 2022, mas o chatbot e outros semelhantes ainda tendem a misturar “fatos” fabricados em respostas às perguntas dos usuários. Por exemplo, quando questionado sobre a inflação num segmento do programa 60 Minutes, o Bard, do Google, inventou uma série de livros de economia que pareciam reais, repletos de resumos falsos. Depois de integrar a tecnologia OpenAI, o Bing se envolveu em algumas desastradas trocas nas quais ameaçou chantagear e professou amor aos primeiros revisores. A natureza realista e imprevisível dessas respostas deu a impressão não apenas de que os robôs tinham ideias próprias, mas de que já as estavam perdendo.
Se as pessoas vão confiar em grandes modelos de linguagem como aquele que alimenta o ChatGPT para pesquisas online, redação de ensaios ou outras aplicações, essas alucinações são um potencial obstáculo. Enquanto o público enlouquecia com a IA em 2023, a torturada relação da tecnologia com os fatos inspirou inúmeras proclamações de que confabular com computadores poderia ameaçar a própria ideia da verdade.
A tendência de um sistema de IA de ter alucinações tornou-se uma referência de desempenho. A Galileo, uma empresa que ajuda clientes corporativos a ajustar seus aplicativos generativos de IA, introduziu um Índice de Alucinação, que classifica a correção dos sistemas de IA de empresas como Hugging Face, Meta Platforms e OpenAI. O CEO da Galileo, Vikram Chatterji, afirma que as empresas em setores que vão desde finanças até cuidados com a saúde estão particularmente interessadas em ter “controle extremo” sobre seus produtos de IA voltados para o consumidor. “O grande problema deles é: ‘E se eu lançar essa coisa e ela vomitar bobagens? Isso pode prejudicar nossa marca, -nossas ações e ser muito ruim para o mundo’”, explica.
Devido à complexidade da moderna IA, os especialistas não têm certeza se esse problema poderá ser totalmente resolvido. Então, novamente, talvez nem todos os problemas precisem ser corrigidos. “Às vezes as alucinações são características reais; isso se chama criatividade e às vezes é um bug”, disse recentemente o CEO da Microsoft, Satya Nadella, quando questionado sobre as consequências dessa falha. “Estamos todos tentando melhorar a forma como poderemos aperfeiçoar isso.”
No próximo ano, um número crescente de desenvolvedores pretende aproveitar a magia desses erros e fantasias. Dunn compara isso às maneiras, às vezes, arriscadas como alguns seres humanos têm procurado usar produtos químicos para explorar seus impulsos artísticos. “Uma viagem de LSD é uma metáfora muito adequada”, brinca ele. “Se o modelo fizer exatamente o que você pediu, então não é real-mente um parceiro criativo.”
Anastase Germanidis, diretor de tecnologia do unicórnio de texto para vídeo Runway AI, diz que é necessário algum grau de “fundamentação” — um clipe solicitando um gato precisa apresentar um gato, não um cachorro —, mas que sua equipe não quer sufocar resultados fantásticos. Para solicitações mais curtas, Germanidis diz que a Runway às vezes preenche as lacunas, “dando mais liberdade ao modelo para imaginar os atributos que estão faltando ou que o usuário não fornece especificamente”.
Ele também descobriu que profissionais criativos estão brincando com o programa, fornecendo instruções complexas para suscitar visões surreais. O diretor Paul Trillo, por exemplo, criou um curta-metragem aclamado na Runway que se inclinava para os efeitos mais psicodélicos do motor, com cenas de metrô afundando e traços faciais se movendo como massa de modelar. As falhas foram o que o tornou tão fascinante. Em entrevista à New Yorker, que descreveu o filme, intitulado Obrigado Por Não Responder, como “parte Edward Hopper e parte David Lynch”, Trillo disse que a IA fez escolhas cinematográficas que ele não teria feito e que “parecia ser capaz de voar em um sonho”.
Outros desenvolvedores estão tentando limitar seus sistemas de IA com o que equivale à microdosagem. A Inworld AI, que ajuda desenvolvedores de videogames a construir personagens de computador interativos, desenvolveu um recurso de “quarta parede” para restringir os modos como os personagens reagem a um jogador humano. Esses personagens de IA são alimentados com traços de personalidade, emoções, memórias e ambições, que podem levar a comportamentos intrigantes e únicos. Mas Kylan Gibbs, cofundador e chefe de produto, diz que, se eles saírem muito do roteiro, isso pode arruinar a imersão. Um bot em um jogo Star Wars deveria ser capaz de inventar uma história pessoal sobre seu planeta natal, mas não negar erroneamente que Darth Vader é o pai de Luke Skywalker. “Há um equilíbrio entre as alucinações que estão expandindo o mundo e as que estão destruindo o mundo”, diz Gibbs.
Não obstante, ele observa que alguns desenvolvedores estão desativando o recurso da quarta parede, especialmente em jogos menores do tipo Dungeons & Dragons, onde o universo não é ditado por décadas de cânone narrativo. Ele também viu criadores de jogos desmarcarem o cenário no processo de produção e usarem alucinações para inventar novas histórias e missões paralelas. “Você tem um redator que diz: ‘Tenho uma ideia aproximada para este mundo. Vou apenas criar os personagens, começar a conversar com eles e ver o que acontece’”, diz Gibbs.
Assim, não é tanto que a tolerância à alucinação esteja mudando, e sim a sua definição. Os tipos criativos falam sobre isso mais no sentido antropomórfico do que como uma máquina que fabrica falsidades. Soluços durante o processamento de uma música ou uma campanha de mar-keting gerada por máquina podem ser exatamente o que o usuário estava procurando.
Dunn, da Visual Electric, se depara com isso com fre-quência ao gerar gráficos de IA. Com instruções cada vez mais longas, o computador eventualmente se desvia de suas intenções. “A primeira reação é pensar: ‘Isso é terrível, isso é a coisa errada’”, afirma Dunn. Mas, então, depois de olhar para o gráfico por alguns minutos, muitas vezes percebe-se que o computador está certo.
Austin Carr, da Bloomberg Businessweek
Tradução de Anna Maria Dalle Luche