Inteligência Artificial

Google lança Gemini Live para conversas em voz com IA avançada

Ferramenta permite diálogos mais naturais e interruptíveis com IA, mas funções multimodais ainda estão por vir

André Lopes
André Lopes

Repórter

Publicado em 13 de agosto de 2024 às 16h20.

Última atualização em 13 de agosto de 2024 às 16h21.

A Google lançou nesta terça-feira, 13, o Gemini Live, uma resposta ao recurso Advanced Voice Mode da OpenAI, que foi lançado recentemente em fase alpha. Apresentado durante o evento "Made by Google 2024", o Gemini Live foi originalmente anunciado na conferência Google I/O 2024.

A novidade permite que os usuários mantenham conversas em voz mais "aprofundadas" com o Gemini, o chatbot da Google movido por IA generativa, diretamente em seus smartphones. Um dos destaques da ferramenta é um motor de fala aprimorado que, segundo a Google, oferece diálogos multi-turnos mais consistentes, expressivos e realistas.

yt thumbnail

Além disso, o Gemini Live permite que os usuários interrompam o chatbot durante a fala para fazer perguntas complementares, mudando em tempo real os padrões de fala para se adaptar a quem o utiliza.

A ferramenta é completamente "viva-voz" se o usuário desejar. É possível continuar conversando com o Gemini mesmo com o app em segundo plano ou com o celular bloqueado. As conversas podem ser pausadas e retomadas a qualquer momento.

Em um exemplo fornecido pela Google, o Gemini Live pode ser útil para treinar para uma entrevista de emprego, sugerindo habilidades a destacar e oferecendo dicas de fala.

Memória aprimorada e novos recursos no horizonte

Uma possível vantagem do Gemini Live sobre o Advanced Voice Mode do ChatGPT é a memória superior. Os modelos de IA generativa que sustentam o Live, Gemini 1.5 Pro e Gemini 1.5 Flash, possuem uma janela de contexto maior que a média, o que significa que eles conseguem processar e raciocinar sobre uma grande quantidade de dados — potencialmente horas de conversas — antes de formular uma resposta.

Ainda assim, o Gemini Live não possui todas as funcionalidades prometidas na Google I/O. Por exemplo, a entrada multimodal, que permitiria ao Live responder a fotos ou vídeos capturados pelas câmeras dos celulares, só será disponibilizada "mais tarde neste ano", segundo a empresa.

Além disso, o Gemini Live está disponível apenas em inglês por enquanto, com a Google planejando expandir para outros idiomas e para iOS em breve. O acesso ao Gemini Live é exclusivo para assinantes do plano Google One AI Premium, que custa US$ 20 por mês.

Apesar disso, outros recursos gratuitos do Gemini estão a caminho. Nas próximas semanas, usuários de Android poderão sobrepor o Gemini a qualquer app, permitindo que ele responda perguntas sobre o que está na tela, além de gerar imagens que podem ser arrastadas para outros apps, como o Gmail.

Acompanhe tudo sobre:GoogleInteligência artificial

Mais de Inteligência Artificial

IA generativa recorre a livros para crescer

Amazon investe mais US$ 4 bilhões na startup de IA Anthropic

Amado pelos designers, CEO do Figma acredita que futuro dos produtos digitais passa pela IA

Google DeepMind é um sucesso e uma tragédia ao mesmo tempo, diz executiva da empresa