A CTO da OpenAI, Mira Murati, durante a apresentação do ChatGPT 4o na segunda (13): IA com trejeitos e vozes 'amigáveis' (OpenAI/Divulgação)
Jornalista
Publicado em 18 de maio de 2024 às 14h57.
Última atualização em 20 de maio de 2024 às 14h27.
Esta semana a OpenAI deixou o mundo boquiaberto com seu novo modelo de linguagem. Ele não é significativamente mais inteligente que o anterior, o já impressionante GPT-4.
A inovação do batizado GPT-4o vem da chamada “multimodalidade nativa”: se antes o ChatGPT precisava traduzir internamente imagens ou áudio para texto antes de responder qualquer coisa, agora o GPT-4o raciocina diretamente em qualquer formado (o “o” vem de omni) e pode responder falando – com uma voz incrivelmente humana.
Com uma apresentação em texto sóbria, sem imagens ou formatações mirabolantes, que inclusive viralizou nas redes pelo minimalismo, a OpenAI deixou o show por conta da performance do GPT-o falando.
A palavra “natural” nem sequer começa a descrever a forma com que o novo modelo interage com as pessoas (veja algumas interações aqui).
Apesar de haver a opção masculina, quase todas as demonstrações usaram a voz de uma mulher. Ela foi classificada como “simpática”, “engraçada”, “sarcástica” e até um pouco “galanteadora” nas reportagens que se seguiram sobre o evento.
A GPT-4o ri e até canta, abusando das palavras de preenchimento (humm... sei... vamos ver... Então...).
Minutos depois da coletiva online, para não deixar dúvida do que estávamos testemunhando, Sam Altman, o CEO da companhia avaliada em mais de US$ 80 bilhões, foi ao X e postou uma única palavra: “her”.
SAIBA ANTES: Receba as matérias do INSIGHT direto no seu Whatsapp
Já é clichê a essa altura, mas você precisa assistir Her (Ela), filme dirigido por Spike Jonze, em cartaz no Netflix.
Nele, o personagem vivido por Joaquin Phoenix é uma pessoa solitária que se apaixona pela assistente virtual Samantha, interpretada por Scarlett Johansson, uma ChatGPT simpática e sedutora que vive em seu fone de ouvido.
Mesmo que você tenha assistido ao filme quando saiu, em 2013, vale ver de novo — a experiência é diferente agora.
Em parte porque muito do que era ficção científica há apenas 10 anos já é realidade, como o evento da OpenAI mostrou.
E também porque ajuda a entender como um filme distópico, que mostra um futuro no qual pessoas têm tantos problemas em se conectar genuinamente umas com as outras que preferem relacionamentos complexos com máquinas, pode ser visto como inspirador para parte da elite do Vale do Silício.
No dia seguinte ao evento da OpenAI, a Google mostrou o que os seus modelos de linguagem concorrentes, da família Gemini, são capazes. Em várias demonstrações durante o Google IO, foi possível ver interações semelhantes, apenas por voz.
Mas havia uma diferença: o assistente era bem menos parecido com uma pessoa. Não exatamente robótico como estamos acostumados, mas também não era alguém super animado, querendo agradar ou seduzir o usuário, como o GPT-4o.
Isso não parece ser uma questão meramente tecnológica. A OpenAI tem estado na fronteira, mas a Google já mostrou ser capaz de produzir IA de nível semelhante.
Se o Google apareceu com assistentes menos parecidos com uma mulher solícita, essa pode ter sido uma decisão filosófica.
Enquanto Sam Altman e dezenas de engenheiros (homens, normalmente) parecem querer uma Samantha para chamar de sua, no Google o ideal é algo como o C-3PO ou outro dróide de Star Wars: atencioso, prestativo, mas definitivamente não-humano.
Coincidência ou não, em um paper publicado há poucas semanas pesquisadores do Google Deepmind — que concentram as pesquisas de IA da empresa — alertaram para alguns riscos de ter assistentes com vozes muito parecidas com as de humanos.
“Recursos como maior agência, a capacidade de interagir em linguagem natural e altos graus de personalização podem tornar os assistentes de IA especialmente úteis para os usuários. No entanto, esses recursos também tornam as pessoas vulneráveis a influências inadequadas da tecnologia, por isso são necessárias salvaguardas robustas”, decretaram.
IA com voz e comportamento que simulam emoções podem gerar relações emocionadas, não-racionais. Da mesma forma que reagimos de forma diferente a uma criança chorando, ou à pessoa amada com voz fofa, o mesmo texto tem um impacto diferente no nosso cérebro se lido de outra forma.
Isso pode ser um problema até para definir a relação com uma IA que emula um humano. Somos “donos”? “Usuários”? “Amigos”? “Tutores”, como com pets?
Se já há questões éticas sobre publicidade extremamente dirigida, que leva em conta não apenas histórico de compras mas também sinais de perfil psicológico, imagine isso amplificado por uma campanha em que a propaganda fala com você de um jeito que ativa gatilhos emocionais-consumistas específicos?
Num momento em que uma das grandes dificuldades de pais de crianças e adolescentes é controlar o tempo de tela e redes sociais, os pesquisadores do Deepmind alertam também para desafios num outro nível de complexidade.
“Crianças nas etapas iniciais do seu desenvolvimento já mostraram que incorporam insights de suas interações com IAs altamente antropomórficas em seus modelos de interações humano-humano e vice-versa, sugerindo uma dinâmica e conceitualização intercambiáveis do que, para muitos adultos, é uma dicotomia entre humanos de IAs”.
O paper reúne ainda achado recentes mostrando que as pessoas são mais suscetíveis a todo tipo de mensagem se ativados por uma voz mais próxima do humana — da publicidade à desinformação.
“Sistemas altamente persuasivos de IA podem alterar o nosso ambiente informacional de forma tão significante que podem fazer com que humanos percam o controle do seu futuro”, conclui um dos papers citados.
Estudiosos mostram que vozes com alta carga de emoção podem gerar um certo nível de dependência dos usuários dessas ferramentas.
Já vimos isso recentemente quando a Replika, que faz versões de LLMs customizados para agradar os assinantes (que pagam até US$ 300 por personalidades sintéticas prontas para agradá-las) mudou o seu software e consequentemente a personalidade da companheira virtual, partindo o coração de quem utilizava.
Nós já sabemos há muito que a mensagem quando entregue de forma mais “natural” tem maior capacidade de persuasão. É por isso que um merchandising inserido em uma novela é mais caro que algo que passa no intervalo comercial. Ou porque “influencers” ganharam tanto dinheiro nos últimos anos.
Quanto mais natural for o comportamento da IA do futuro, mais difícil será separar o que é um assistente respondendo a um comando e o quanto é uma empresa tentando nos contar algo, passar uma mensagem específica ou vender um produto a uma ideia — sem isso estar absolutamente claro.
Então a sociedade deve decidir — seja “votando com a carteira”, escolhendo algumas soluções em detrimento de outras — se queremos assistentes que emulam humanos da cabeça à voz ou se preferimos uma IA mais como copiloto.
Em termos de interface, assistentes claramente marcados como tal tem mais fricção. São acionados por comandos mais específicos, voz robótica, e estão a todo momento nos lembrando que “como um modelo de IA”, não podem responder esta ou aquela demanda.
Parece que isso fará com que os assistentes sejam menos úteis, ou no mínimo menos rápidos. Mas até nisso há dúvidas. É quase automático que pessoas ajam de forma mais educada, pedindo por exemplo “por favor” a uma máquina, quando ela apresenta comportamentos humanos, como nota a pesquisadora italiana Patrizia Ribino.
Mas dados esses riscos, por que a OpenAI buscaria uma estratégia assim? Otimistas irão dizer que assistentes que soam como pessoas podem melhorar a usabilidade para uma maior gama de pessoas, inclusive as não letradas em lidar com máquinas, como idosos.
Vozes amigáveis geram mais confiança e empatia, o que dá mais “engajamento” à ferramenta, permitindo conversas mais longas e produtivas.
Pode ser que a OpenAI apenas esteja tentando criar um produto mais “engajante” para seus usuários, sem pensar nas consequências, da mesma forma que estamos vendo há décadas em plataformas e redes sociais.
“Viciante” é visto como algo positivo, por exemplo. Mas a voz amistosa pode desviar a atenção de debates importantes.
Alguns observadores, como o professor de neuropsicologia da New York University Gary Marcus, vêem na adoção de mais personalidade um sinal de que a principal tecnologia que move os modelos de linguagem, os chamados “LLMs”, estão próximos de chegar a um platô.
Se ele não vai ficar mais inteligente, melhor colocar emoção na fala para esconder a falta de novidades.
Ainda não sabemos todas as razões para as escolhas da OpenAI. Também não temos certeza de que a nova Samantha vai ser tudo isso — o modelo como mostrado ainda não está disponível para o grande público.
Mas provavelmente estejamos entrando no que vai ser o grande dilema dos novos tempos: quando se trata de IA, queremos amigos ou ferramentas?