IOLA, inovação em reconhecimento de voz… seleciona automaticamente o modelo ASR mais adequado com base no contexto

TechubNews

A startup de inteligência artificial aiOla lançou uma nova solução que pode revolucionar a precisão do reconhecimento de voz. O sistema “Gateway de Inteligência de Voz” lançado pela empresa analisa em tempo real a voz do utilizador e conecta automaticamente ao modelo de reconhecimento de voz mais adequado. Este sistema, após avaliar dinamicamente as características complexas da linguagem, escolhe o modelo que oferece a melhor precisão para processamento.

O ano passado, a aiOla revelou o “DRAX”, um modelo de IA de voz que supera as limitações do reconhecimento de voz tradicional através de tecnologia de aprendizagem de fluxo paralelo. O DRAX consegue processar todas as frases simultaneamente, demonstrando forte desempenho em ambientes com ruído, variações de tom, entre outros fatores do mundo real. Com base nesta tecnologia, a nova inovação “QUASAR” analisa características de voz, entonação do falante, presença de ruído, contexto, entre outros fatores, para selecionar automaticamente o motor de reconhecimento de voz mais adequado entre várias opções.

Embora o mercado de IA de voz atualmente conte com vários fornecedores de ASR (Reconhecimento Automático de Fala) que competem otimizando para ambientes ruidosos ou variações de tom, incluindo Whisper da OpenAI, Transcribe da Amazon, Qwen2 da Alibaba e Deepgram, a maioria das empresas ainda utiliza um único modelo que apresenta melhor desempenho em avaliações padrão. Isso resulta em erros frequentes de reconhecimento em ambientes reais, levando a críticas constantes sobre a experiência do utilizador.

O cofundador e presidente da aiOla, Amir Haramati, destacou a situação em que as empresas se veem obrigadas a aceitar as limitações de um modelo de ASR específico: “Alguns modelos têm desempenho excelente ao lidar com inglês americano, mas muitas vezes ficam impotentes em ambientes com sotaque britânico ou ruído.” Ele enfatizou: “QUASAR é o primeiro sistema a tratar o reconhecimento de voz como uma questão dinâmica, e não uma tecnologia estática.”

Nos testes internos de benchmark, a aiOla aplicou o sistema a diversos ambientes com diferentes entonações, ruídos de fundo e conteúdos especializados. Os resultados mostraram que, em 88,8% das solicitações, o sistema consegue selecionar dinamicamente o motor de ASR mais adequado para melhorar a precisão. Espera-se que essa tecnologia aumente significativamente a compreensão em áreas como suporte ao cliente, registros de reuniões, sistemas de resposta automática, entre outros.

Haramati afirmou: “À medida que o reconhecimento de voz se torna a interface fundamental que conecta humanos e IA, erros de reconhecimento tornaram-se inaceitáveis.” Ele chamou o QUASAR de “uma tecnologia que transforma o ASR em uma infraestrutura viva” e acrescentou: “Não é apenas uma inovação tecnológica, mas uma mudança que pode impactar desde centros de chamadas globais que lidam com bilhões de chamadas até desenvolvedores independentes criando legendas.”

A aiOla planeja usar essa tecnologia para aumentar drasticamente a utilidade e confiabilidade das interfaces de IA de voz, criando um ponto de inflexão estrutural em todo o ecossistema de IA de voz.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário