O MOTOR.

Stack de IA de alto nível. Feito para velocidade, precisão e privacidade de verdade.

DeepInfra GPU · IA de voz de ponta · TLS 1.3 + AES-256 · áudio deletado imediatamente

02. Infraestrutura

POWERED
BY
DEEPINFRA

Clusters GPU globais

A DeepInfra opera uma rede de GPUs dedicadas espalhadas pelo mundo. Cada request vai pro nó mais próximo — latência baixa, sempre, de onde você estiver.

SLA enterprise de verdade

A infra da DeepInfra segue padrões enterprise — a mesma usada por empresas que processam centenas de milhões de requests de IA por dia.

Cold starts? Não existe aqui.

Rodamos só em endpoints dedicados sempre quentes. Sem espera, sem fila. Seu request chegou — o modelo já tá lá.

Escala sem cair de rendimento

Seja o primeiro ou o décimo milésimo usuário do dia, o sistema escala horizontal sem degradar. Simples assim.

03. Modelo

Modelos de última geração.
O padrão ouro.

Arquitetura

Transformer

Arquitetura profunda encoder-decoder baseada em Transformer, treinada end-to-end em centenas de milhares de horas de áudio multilíngue real.

Parâmetros

1.5B+

1,5 bilhão de parâmetros treinados em 680.000 horas de áudio multilíngue — um dos maiores datasets de treinamento de fala já montados.

Idiomas

100+

Entende nativamente mais de 100 idiomas falados. Sem configuração — o idioma é detectado automaticamente, mesmo quando você troca no meio da frase.

WER (inglês)

2.7%

Taxa de erro de palavras de 2,7% em benchmarks padrão — chegando perto da precisão humana em sotaques, dialetos e ruído ambiente.

04. Pipeline

Da voz ao texto
em menos de 2 segundos.

Seis etapas. Todas no máximo. O áudio entra, o texto sai, zero rastro.

MIC

Capturado

CODIF.

WebM/Opus

BUFFER

API Path

INFERIR

DeepInfra

RETORNO

< 1,8s

EXCLUIR

Permanente

Captura no navegador

O áudio é capturado nativamente no seu navegador usando a WebAudio API. Sem plugin, sem extensão, sem download. Funciona em qualquer dispositivo moderno.

Codificação eficiente

O áudio é codificado em formato WebM/Opus — um codec feito pra voz. Minimiza o tamanho do arquivo e o tempo de upload preservando cada fonema.

Staging temporário

Os arquivos passam brevemente pelo Yapr API antes da inferência. Isso permite processar gravações de qualquer duração sem restrições de timeout serverless.

Inferência IA

Seu áudio é enviado pro endpoint dedicado de inferência da DeepInfra. Modelos de fala de ponta rodando em GPU dedicada — sem fila compartilhada, sem cold start, sem atraso.

Retorno instantâneo

O texto transcrito volta direto pro seu navegador pela nossa API. O tempo médio de ida e volta é menor que 1,8 segundo pra gravações de menos de 60 segundos.

Exclusão permanente

No instante que a transcrição termina, o áudio é deletado do Yapr API. A exclusão é automática, irrevogável e imediata.

0.2%

precisão de palavras

0K hrs

dados de treinamento

idiomas

0-bit

criptografia AES

0.9%

SLA de uptime

0bytes

áudio retido

05. Precisão

99,2%
Precisão
em palavras.

Testado de forma independente. Medido em sotaques, ambientes, velocidades e idiomas. Não é papo de marketing — é dado verificado.

Falantes nativos de inglês

99.4%

Falantes não nativos de inglês

98.8%

Vocabulário técnico

98.1%

Ambientes barulhentos

97.2%

Troca de idioma (2 idiomas)

96.9%

06. Arquitetura de privacidade

Zero retenção.
Não é política.
É arquitetura.

Sem camada de armazenamento de áudio

O sistema é projetado sem camada de armazenamento de áudio. O áudio entra no pipeline só para gerar o texto. Não existe bucket de longo prazo, nem tier de arquivo, nem backup de arquivos de áudio.

Exclusão imediata

Uma arquitetura sem camada de armazenamento de áudio garante que todos os arquivos de áudio são deletados imediatamente após a transcrição: sem arquivo, sem banco de gravações, sem camada de retenção.

TLS 1.3 em trânsito

Todos os dados em trânsito usam TLS 1.3 — o padrão ouro atual em criptografia de transporte. Isso cobre seu navegador, nossa API e nossa infraestrutura de IA.

AES-256 em repouso

Texto de transcrição e dados de conta são armazenados em partições de banco de dados criptografadas com AES-256-GCM com rotação de chaves. A criptografia é aplicada no nível de infraestrutura, não de aplicação.

Autenticação segura

A autenticação está disponível via OAuth 2.0 (Google, GitHub), email com hash de senha criptografado, ou passkeys (WebAuthn). Senhas nunca são armazenadas em texto simples. Seus dados biométricos nunca saem do seu dispositivo.

Headers de segurança reforçados

Toda resposta aplica HSTS, Content-Security-Policy, X-Frame-Options e SameSite=Strict cookies — prevenindo XSS, clickjacking e sequestro de sessão por padrão.

Separação de metadados

Os únicos dados armazenados permanentemente são metadados de uso: timestamps e texto de transcrição (apenas se você ativar o histórico — desativado por padrão). Conteúdo de áudio nunca é persistido em nenhuma circunstância.

Conformidade LGPD + CCPA

Conformidade total com LGPD e CCPA. Você pode exportar ou deletar todos os seus dados a qualquer momento pelas Configurações. Solicitações de exclusão são processadas em até 30 dias.

PREPARADO?
VAMOS.

Sem cartão. Grátis desde o primeiro segundo.

Começar grátis Como funciona

O MOTOR.

POWEREDBYDEEPINFRA

Modelos de última geração.O padrão ouro.

Da voz ao textoem menos de 2 segundos.

99,2%Precisãoem palavras.

Zero retenção.Não é política.É arquitetura.

PREPARADO?VAMOS.

O MOTOR.

POWEREDBYDEEPINFRA

Modelos de última geração.O padrão ouro.

Da voz ao textoem menos de 2 segundos.

99,2%Precisãoem palavras.

Zero retenção.Não é política.É arquitetura.

PREPARADO?VAMOS.

POWERED
BY
DEEPINFRA

Modelos de última geração.
O padrão ouro.

Da voz ao texto
em menos de 2 segundos.

99,2%
Precisão
em palavras.

Zero retenção.
Não é política.
É arquitetura.

PREPARADO?
VAMOS.

POWERED
BY
DEEPINFRA

Modelos de última geração.
O padrão ouro.

Da voz ao texto
em menos de 2 segundos.

99,2%
Precisão
em palavras.

Zero retenção.
Não é política.
É arquitetura.

PREPARADO?
VAMOS.