São Paulo, 26 de novembro de 2025 – A OpenAI liberou o envio de áudios no ChatGPT sem que o usuário precise trocar de interface. A partir de agora, o chamado Modo Voz aparece integrado tanto na versão para navegadores quanto nos aplicativos móveis do serviço, eliminando a necessidade de recorrer a um menu exclusivo para ativar a função.

Integração total do Modo Voz

Até esta atualização, conversar por voz com o chatbot exigia abrir uma área paralela dentro do próprio programa. Quem preferir manter a experiência antiga ainda tem essa opção: basta acessar as Configurações do ChatGPT e selecionar o layout separado. No entanto, o novo formato simplifica a rotina. O ícone em forma de onda sonora foi colocado ao lado do campo onde se digita o texto, permitindo iniciar a interação falada com um único toque.

Segundo a OpenAI, o modelo transcreve toda a fala em tempo real, exibe o texto na tela e responde conforme o contexto da conversa. Dessa maneira, qualquer dúvida ou solicitação pode ser conduzida apenas por comandos de voz, sem interrupções ou alternância de telas.

Quem pode se beneficiar do recurso

O Modo Voz foi pensado para diferentes cenários. Entre os usos sugeridos estão:

Aprendizado de idiomas: o aluno conversa com o assistente, recebe correções e pede repetições em velocidade ou detalhamento específicos.

Preparação para entrevistas: perguntas podem ser simuladas oralmente, enquanto o ChatGPT corrige respostas ou sugere melhorias.

Traduções instantâneas: expressões curtas podem ser convertidas de forma imediata, sem necessidade de digitar nada.

Num vídeo divulgado pela empresa, o chatbot é utilizado para encontrar as melhores padarias de uma determinada região. Enquanto descreve as opções de doces, exibe também um mapa com a localização de cada estabelecimento, exemplificando a interação simultânea entre áudio, texto e elementos visuais.

Como iniciar um bate-papo por voz

Para usar a novidade, a OpenAI recomenda o seguinte passo a passo:

1. Abra o ChatGPT no aplicativo ou no navegador.

2. Toque no ícone de voz localizado no canto inferior direito da tela.

3. Escolha uma das vozes disponíveis – a seleção pode ser alterada depois, dentro das configurações.

4. Comece a falar. A qualquer momento, o usuário pode pausar a gravação e ajustar a maneira como o chatbot responde (mais rápido, mais devagar, mais detalhado ou mais objetivo).

5. A transcrição completa fica visível durante todo o diálogo. Para retomar a conversa, basta tocar novamente no ícone.

Durante a interação, o texto gerado aparece quase instantaneamente. Caso o usuário deseje interromper a fala, o sistema conclui a transcrição no ponto exato e aguarda o comando seguinte.

Combinação de voz e câmera

A OpenAI também manteve a possibilidade de unir o Modo Voz à câmera do dispositivo. Ao tocar no símbolo de fotografia, o participante compartilha a visão da lente com o assistente, que passa a analisar a cena e a responder de acordo com o que “vê”. Essa integração permite, por exemplo, identificar objetos, ler placas ou sugerir rotas enquanto a pessoa continua falando normalmente.

Experiência semelhante em outros serviços

O Google já explora abordagem parecida no Gemini Live, ferramenta que combina áudio e recursos visuais para tornar as conversas mais naturais. Na plataforma da gigante de buscas, os usuários podem:

• Abrir o aplicativo Gemini no celular;

• Tocar na foto de perfil (ou na inicial do nome) na parte superior;

• Selecionar Definições e, em seguida, Voz do Gemini;

• Deslizar para a esquerda ou para a direita para ouvir as vozes disponíveis;

• Tocar em Selecionar para definir a opção preferida.

Apesar das semelhanças, a OpenAI ressalta que o novo menu interno do ChatGPT busca eliminar etapas, garantindo que áudio, texto, imagens e respostas fiquem reunidos no mesmo espaço de diálogo.

ChatGPT passa a aceitar mensagens de voz diretamente na conversa - Imagem do artigo original

Imagem: Markus Mainka

Retomada rápida e personalização

Um diferencial destacado pela empresa é a retomada instantânea da conversa. Se o usuário fecha o aplicativo ou troca de aba, todas as transcrições permanecem salvas. Quando a sessão é reaberta, basta pressionar o ícone de voz para continuar exatamente do ponto em que a interação foi suspensa. Além disso, cada perfil pode ajustar parâmetros de resposta, como tom, ritmo ou nível de aprofundamento, sem impactar outras contas no mesmo dispositivo.

Estrutura técnica

Embora a OpenAI não revele detalhes de implementação nessa atualização, o comportamento descrito sugere uso de modelos de reconhecimento de fala em tempo real, vinculados ao mecanismo de processamento de linguagem do ChatGPT. A função de upload de imagens já existia previamente; agora, contudo, a empresa dá ênfase ao uso simultâneo desses canais de entrada.

Opção por layout clássico permanece

Quem não se adaptar à integração poderá ativar o formato original nas Configurações, onde o Modo Voz continua a aparecer isolado em uma janela secundária. Segundo a companhia, o método antigo será suportado “por tempo indeterminado”, garantindo flexibilidade para ambientes corporativos ou para pessoas que preferem separar digitação e fala.

Disponibilidade

A atualização já está liberada globalmente e não requer download adicional além da versão mais recente do ChatGPT no Android, iOS ou web. Quando o usuário abrir o serviço pela primeira vez após a mudança, o ícone de onda sonora surgirá automaticamente, indicando que o recurso encontra-se ativo.

Resumo das principais etapas

Para usar o novo Modo Voz:

• Localize o ícone de voz no canto inferior direito.

• Escolha uma das vozes listadas.

• Pressione para começar a falar e solte para interromper.

• Peça ajustes de ritmo ou detalhamento durante a interação.

• Consulte a transcrição instantânea e, se necessário, pressione o ícone novamente para prosseguir.

Para unir voz e câmera:

• Toque no símbolo de câmera.

• Aponte o dispositivo para o objeto ou cena desejada.

• Fale normalmente enquanto o ChatGPT analisa a imagem.

Com isso, a OpenAI reforça a aposta na conversa multimodal, que combina som, texto e visão em um mesmo ambiente de chat, dispensando aplicativos externos ou etapas adicionais.

Com informações de Olhar Digital

By bugou

"Com paixão por informar e compromisso com a verdade, o autor do 70 Notícias traz conteúdos atualizados e relevantes para manter você sempre bem informado. Curioso por natureza, busca sempre novas histórias e perspectivas, tornando cada postagem única e envolvente. A credibilidade e o respeito ao leitor são prioridade em cada linha escrita aqui."

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *