Nesta semana, a OpenAI, empresa responsável pelo ChatGPT, comunicou que o lançamento do “modo voz” foi postergado para julho. A nova funcionalidade, que promete transformar as interações com a inteligência artificial, estava inicialmente prevista para ser disponibilizada ao fim de junho para um grupo seleto de usuários do ChatGPT Plus.
Segundo o anúncio da empresa, o adiamento ocorre devido a problemas técnicos que exigem atenção adicional. “Estamos trabalhando na melhoria da experiência do usuário e preparando nossa infraestrutura para escalar para milhões de usuários”, afirmou a empresa em comunicado.
O principal foco da OpenAI no momento é trabalhar a capacidade aprimorada do modelo em detectar e rejeitar conteúdos inapropriados. Até o momento, a informação divulgada é que o modelo estará disponível para alguns usuários, que darão feedbacks para a equipe. Só em setembro, então, que ele estará disponível para todos os usuários do ChatGPT Plus. Ainda não foi divulgada a data de lançamento para todos internautas.
We’re sharing an update on the advanced Voice Mode we demoed during our Spring Update, which we remain very excited about:
We had planned to start rolling this out in alpha to a small group of ChatGPT Plus users in late June, but need one more month to reach our bar to launch.…
— OpenAI (@OpenAI) June 25, 2024
Como a OpenAI está abordando os problemas técnicos?
De acordo com informações divulgadas, a equipe está focada em ampliar sua infraestrutura para suportar o grande volume de usuários sem perder a qualidade nas respostas fornecidas. Esse refinamento tecnológico inclui aperfeiçoamento das capacidades de detecção de conteúdo e a garantia de uma experiência de usuário fluída e eficiente.
O que é o “modo voz”?
A promessa é que o “modo voz” traga uma experiência de conversa ainda mais próxima da humana, incluindo a habilidade de obter respostas instantâneas e interromper o ChatGPT enquanto ele responde.
A implementação de um sistema capaz de gerenciar diálogos em tempo real sem atrasos posiciona a OpenAI à frente no mercado de inteligência artificial. Além disso, adaptar a tecnologia para entender e filtrar diferentes tipos de interações exige um entendimento linguístico e contextual, o que é considerado um grande desafio no mercado.
A atualização do GPT-4 também deverá reconhecer expressões faciais a partir de novos recursos de tela. Basicamente, o modelo deve receber melhorias nas capacidades de texto, visão e áudio.
*texto sob supervisão de Tomaz Belluomini