核心引擎。

顶级AI基础设施。速度、精准、隐私——一个都不妥协。

DeepInfra GPU · 顶尖语音AI · TLS 1.3 + AES-256 · 音频立即删除

免费开始

02. 基础设施

POWERED
BY
DEEPINFRA

全球GPU集群

DeepInfra在全球部署专属GPU节点，每个请求自动路由到最近的节点——无论你在哪，延迟始终低得令人满意。

企业级SLA，实打实的

DeepInfra的基础设施按企业标准构建——每天处理数亿AI请求的公司，用的就是这套东西。

告别冷启动

我们只用专属的常驻热备节点。没有冷启动，没有预热等待，没有排队。请求来了，模型直接接。

负载越大，越稳

不管你是今天第一个用户还是第一万个，系统横向扩展，性能不打折。

03. 模型

顶尖模型。
黄金标准。

架构

Transformer

基于Transformer的深度编码器-解码器架构，在数十万小时真实多语言音频上端到端训练。

参数

1.5B+

15亿个学习参数，基于680,000小时多语言音频训练——史上最大规模的语音训练数据集之一。

语言

100+

原生支持100+种语言。无需配置——自动检测语言，哪怕你在句子中途换语言。

WER（英语）

2.7%

标准基准上的词错误率2.7%——在各种口音、方言和环境噪音下逼近人类级转录精度。

04. 处理流程

声音变文字
不到2秒。

六个环节，全程调优。音频进来，文字出去，什么都不留。

麦克风

捕获

编码

WebM/Opus

处理

API

推理

DeepInfra

< 1.8秒

删除

永久

浏览器采集

通过WebAudio API在浏览器中原生采集音频。不需要插件、扩展或下载。所有现代设备都能用。

高效编码

音频以WebM/Opus格式编码——专为语音设计的编解码器。最小化文件大小和上传时间，同时精确保留每个音素。

安全处理

音频直接进入Yapr API推理流程，不作为录音存档。这样可以处理任意长度的录音，同时保持零音频留存。

AI推理

音频发送到DeepInfra的专属AI推理节点。顶尖语音模型运行在专用GPU硬件上——不共享队列、不冷启动、不延迟。

即时返回

转录文本通过API直接返回浏览器。60秒以内录音的中位往返时间低于1.8秒。

永久删除

转录完成的瞬间，音频就从Yapr API删除。删除是自动、不可逆、即时完成的。

0.2%

词语准确率

0K hrs

训练数据

种语言

0-bit

AES加密

0.9%

可用性SLA

0bytes

音频留存

05. 准确率

99.2%
词语
准确率。

第三方独立测评。涵盖口音、环境噪声、语速、多语言场景。不是宣传语——是实测数据。

英语母语者

99.4%

非英语母语者

98.8%

技术词汇

98.1%

嘈杂环境

97.2%

语言切换（双语）

96.9%

06. 隐私架构

零留存。
不是承诺。
是架构。

无音频存储层

系统架构中没有音频存储层。音频只进入推理流程生成文字。 没有长期存储桶，没有归档层，没有音频文件备份。

立即删除

没有音频存储层的架构确保所有音频文件 转录完成后立即删除——没有存档、没有录音数据库、没有保留层。

传输中TLS 1.3

所有传输中的数据使用 TLS 1.3——当前传输加密的黄金标准。覆盖浏览器、API和AI推理基础设施。

静态AES-256

转录文本和账户数据存储在 AES-256-GCM加密的数据库分区中，密钥定期轮换。加密在基础设施层面强制执行，而非应用层面。

安全认证

认证可通过 OAuth 2.0（Google、GitHub）、使用加密密码哈希的邮箱登录，或通行密钥（WebAuthn）。密码从不以明文存储。生物识别数据永远不会离开你的设备。

强化安全头

每个响应强制使用 HSTS、Content-Security-Policy、X-Frame-Options和SameSite=Strict cookies——默认防止XSS、点击劫持和会话劫持。

元数据隔离

唯一永久存储的数据是使用元数据：时间戳和转录文本（仅在你开启历史记录时——默认关闭）。 音频内容在任何情况下都不会持久化。

GDPR + CCPA合规

完全符合GDPR和CCPA法规。你可以 随时通过设置导出或删除所有数据。删除请求在30天内处理。

准备好了？
开始吧。

不需要信用卡。第一天就免费用。

免费开始了解工作原理

核心 引擎。

POWEREDBYDEEPINFRA

顶尖模型。黄金标准。

声音变文字不到2秒。

99.2%词语准确率。

零留存。不是承诺。是架构。

准备好了？开始吧。

核心 引擎。

POWEREDBYDEEPINFRA

顶尖模型。黄金标准。

声音变文字不到2秒。

99.2%词语准确率。

零留存。不是承诺。是架构。

准备好了？开始吧。

核心引擎。

POWERED
BY
DEEPINFRA

顶尖模型。
黄金标准。

声音变文字
不到2秒。

99.2%
词语
准确率。

零留存。
不是承诺。
是架构。

准备好了？
开始吧。

核心引擎。

POWERED
BY
DEEPINFRA

顶尖模型。
黄金标准。

声音变文字
不到2秒。

99.2%
词语
准确率。

零留存。
不是承诺。
是架构。

准备好了？
开始吧。