实时语音识别-技术选型

  1. 需求
  2. 参考文章
  3. 技术选型
  4. 各个模型对比
    1. 1. Whisper系列
    2. 2. Parakeet-TDT-0.6B-v2
    3. 3. Phi-4-multimodal-instruct
    4. 4. Seamless (SeamlessStreaming)
    5. 5. Canary系列
  5. 结论

需求

印度英语翻译成中文,如果可以进一步需要实现一个实时推理或者伪实时推理

本blog记录一下自己跑这些模型的感受

参考音频,下载连接如下:

https://lishun-cdn-e9djhre3gbe6ftd8.z01.azurefd.net/imgs/audio1_ids.wav

CDN下载

参考文章

HuggingFaceASR榜单

Open ASR Leaderboard - a Hugging Face Space by hf-audio

技术选型

模型 支持任务 参数大小 推理速度 (RTFx) 平均准确率(WER) 社区情况
Whisper ASR/S2TT【en】 39M–1.55B 145.51 7.44% 十分活跃
Seamless (SeamlessStreaming) ASR/S2TT/S2ST 未公开 未公开 未公开 活跃
Phi-4-multimodal-instruct ASR/S2TT/LLM 5.6B 62.12 6.14 活跃
Canary-Qwen-2.5B ASR/LLM 2.5B 418 5.63% 活跃
Canary-1b-v2 ASR 1B 749 7.15% 活跃
Parakeet-TDT-0.6B-v2 ASR 600M 418.28 9.87% 活跃

各个模型对比

1. Whisper系列

whisper模型是

2. Parakeet-TDT-0.6B-v2

GPU占用情况:

image-20250918144110002

推理速度: 1分35秒的语音只花了 2.0357439517974854 s来推理!!

这个模型有黑科技,推理速度非常非常快,快准狠

参考情况

image-20250918145758935

image-20250918145811440

3. Phi-4-multimodal-instruct

GPU占用情况:

image-20250923102102366

使用的代码为:


处理1分35秒音频,识别并翻译总耗时44.47725319862366 seconds

处理5秒的音频,识别并翻译总耗时3.388068914413452 seconds

image-20250923102313087

image-20250923102325822

语义的理解很好

4. Seamless (SeamlessStreaming)

5. Canary系列

结论

纯英文使用 Parakeet-TDT-0.6B-v2,又快又准

小语种用 whisper ,方便微调和训练

要用大模型就 Phi-4multimodal-instruct

github