语音Agent STT基准测试

Summary

Daily.co发布了针对语音Agent场景的STT基准测试，评估10个服务在1,000个真实人类语音样本上的转录延迟和语义准确性。Pareto前沿表现者为Deepgram Nova 3（247ms/1.62% WER）、Soniox（249ms/1.29% WER）和Speechmatics（495ms/1.07% WER）。研究创新性地引入Semantic WER概念，使用Claude进行语义评估，区分不影响理解的格式变化和真正的关键错误。关键发现包括P95延迟比中位数更重要、准确性地板已大幅提升（所有服务语义WER < 4.4%）、最快与最慢之间存在5倍延迟差距。

Key Concepts

Speech to Text - 语音转文字技术
Voice Agent - 语音交互AI代理
Semantic WER - 基于语义理解的Word Error Rate评估方法
Latency Benchmarking - 转录延迟的基准测试方法
Turn Detection - 判断用户何时说完的轮次检测

Detailed Content

测试概览

10个Speech to Text服务，1,000个真实人类语音样本，评估两个关键维度：转录延迟和语义准确性。

三大性能因素

语义准确性：转录是否清晰传达用户意图（而非完美逐字匹配）
延迟：STT返回最终转录的速度
Turn Detection：判断用户何时说完

最优表现者（Pareto前沿）

服务	延迟	WER
Deepgram Nova 3	247ms	1.62%
Soniox	249ms	1.29%
Speechmatics	495ms	1.07%

Semantic WER创新

传统WER会惩罚缩写和格式变化（对LLM无关），Semantic WER使用Claude进行语义评估：

"gonna/going to" -> 非错误（不影响理解）
"renew/review" -> 关键错误（改变语义）

仅计算影响理解的错误，更贴近Voice Agent实际使用场景。

关键发现

P95延迟比中位数更重要：揭示用户实际体验的最差场景
准确性地板已大幅提升：所有服务Semantic WER < 4.4%
延迟差异显著：最快与最慢之间5x差距
竞争正扩展到语言支持、成本、本地部署和微调能力

Voice AI
Natural Language Processing
Real time Audio Processing
LLM Integration
AI Agent Tools

Summary​

Key Concepts​

Detailed Content​

测试概览​

三大性能因素​

最优表现者（Pareto前沿）​

Semantic WER创新​

关键发现​

Related Topics​