[IT技术] 语音识别方案?

[复制链接]
cnfsonxxx 发表于 2023-11-5 07:19:39|来自:CNNIC | 显示全部楼层 |阅读模式
以往语音识别基本为本地,为解决本地语音识别语音库小的问题,现采用本地+云端语音识别方式,试问是否可以直接采用云端语音识别,取消本地语音识别呢?
全部回复4 显示全部楼层
永不死机 发表于 2023-11-5 07:20:12|来自:CNNIC | 显示全部楼层
下面是使用 新一代  Kaldi 进行实时语音识别的 demo.
完全本地识别,特别适合没有网络连接的情况.
所有代码、文档以及模型,都是开源的。
我们有活跃的微信公众号、微信交流群、QQ 群。欢迎关注。
<hr/>更多的 demo, 请见 bilibili
bilibili 视频演示 (iOS)


  • <a href="http://link.zhihu.com/?target=https%3A//www.bilibili.com/video/BV11841137TG/" class=" wrap external" target="_blank" rel="nofollow noreferrer">新一代 Kaldi 实时语音识别之 iOS iPhone (1/2)
  • 新一代 Kaldi 实时语音识别之 iOS iPad (2/2)
  • 新一代 Kaldi 在 iPhone 上实时语音识别之 北京地铁 (1/2)
  • 新一代 Kaldi 在 iPhone 上实时语音识别之 北京地铁 (2/2)
bilibili 视频演示 (Android)


  • 新一代 Kaldi 之 endpointing - android 实时中英文语音识别
  • 在 安卓上 使用新一代 Kaldi 进行实时语音识别之 1/5
  • 在 安卓上 使用新一代 Kaldi 进行实时语音识别之 2/5
  • 在 安卓上 使用新一代 Kaldi 进行实时语音识别之 3/5
  • 在 安卓上 使用新一代 Kaldi 进行实时语音识别之 4/5
  • 在 安卓上 使用新一代 Kaldi 进行实时语音识别之 5/5
bilibili 视频演示 (树莓派 4 Model B)


  • 新一代 Kaldi: 嵌入式实时语音识别之树莓派
  • 新一代Kaldi - 树莓派4 英文实时语音识别(小模型,单线程)
  • 新一代Kaldi - 树莓派4 中英文实时语音识别
bilibili 视频演示 (爱芯派, m3axpi)


  • 新一代 Kaldi: 嵌入式实时语音识别之MAIX-III AXera-Pi
  • 新一代Kaldi: 爱芯派(m3axpi) 实时语音识别(英语,小模型, 两个线程)
bilibili 视频演示 (macOS)


  • 使用 sherpa-ncnn 的 Python API 进行实时的中英文语音识别 -- 包含 endpointing
  • 新一代 Kaldi 实时语音识别 之 sherpa-ncnn Python API 演示
  • 使用新一代 Kaldi 进行中英文混合实时语音识别
  • 流式语音识别之 sherpa-ncnn (英文)
bilibili 视频演示 (Windows)


  • 流式语音识别之 sherpa-ncnn (中文) - by Liliana
fjord 发表于 2023-11-5 07:20:43|来自:CNNIC | 显示全部楼层
首先这个问题的题干就有问题,以往并非基本是本地语音识别。
恰恰相反,以前端上算力和内存有限,很多硬件无法处理大词汇量模型,
反而是现在随着端上计算能力强,内存大了,同时端到端的ASR模型的大小比较小,因此很多识别的任务从云上往端上迁移,能够利用到端上的计算力,而降低云端的服务器的成本。

可以了解下我们开源的语音识别项目Wenet,提供了高质量端到端语音识别模型的训练,以及端上/云上的一键部署方案。十分容易上手学习使用。
杨超:Wenet - 面向工业落地的E2E语音识别工具Github 代码
mobvoi/wenet
t608 发表于 2023-11-5 07:21:38|来自:CNNIC | 显示全部楼层
语音识别新范式

以自然语言处理的子领域“语音识别”为例,从 2012 年引入深度学习技术开始,语音识别的研究热点经历了三个阶段:

  • 2011年前后,基于 DNN+HMM(深度神经网络+隐马尔科夫模型)的语音识别
  • 2014年前后,基于 LSTM+CTC(长短时记忆网络+连接时序分类)的不完全端到端语音识别
  • 2017年前后,基于 Transformer(自注意力机制)的完全端到端语音识别
如果说 2011 年深度学习的引入,是语音识别领域上一次范式转换的起点,那么从 2017 年开始,基于注意力机制和 Transformer 新型神经网络结构的语音识别研究,无疑标志着语音识别的新范式正在形成。


传统的语音识别主要框架包括:声学模型和语言模型。2011 年前后引入深度神经网络(DNN),主要目标是改进传统语音识别框架中的声学模型算法。2014年前后引入LSTM+CTC的方案,理论上实现了端到端,但因为效果不好,实际使用中仍然会加上语言模型。
一抹白云 发表于 2023-11-5 07:22:34|来自:CNNIC | 显示全部楼层
谢邀。
应该可以吧。当前主流的引擎不都是云端的吗?
你的系统有什么特别的地方吗?

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则