语音识别方案？

cnfsonxxx · 发表于 2023-11-5 07:19:39|来自：CNNIC

以往语音识别基本为本地，为解决本地语音识别语音库小的问题，现采用本地+云端语音识别方式，试问是否可以直接采用云端语音识别，取消本地语音识别呢？

永不死机 · 发表于 2023-11-5 07:20:12|来自：CNNIC

下面是使用新一代 Kaldi 进行实时语音识别的 demo.
完全本地识别，特别适合没有网络连接的情况.
所有代码、文档以及模型，都是开源的。
我们有活跃的微信公众号、微信交流群、QQ 群。欢迎关注。
<hr/>更多的 demo, 请见 bilibili
bilibili 视频演示 (iOS)

<a href="http://link.zhihu.com/?target=https%3A//www.bilibili.com/video/BV11841137TG/" class=" wrap external" target="_blank" rel="nofollow noreferrer">新一代 Kaldi 实时语音识别之 iOS iPhone (1/2)
新一代 Kaldi 实时语音识别之 iOS iPad (2/2)
新一代 Kaldi 在 iPhone 上实时语音识别之北京地铁 (1/2)
新一代 Kaldi 在 iPhone 上实时语音识别之北京地铁 (2/2)

bilibili 视频演示 (Android)

新一代 Kaldi 之 endpointing - android 实时中英文语音识别
在安卓上使用新一代 Kaldi 进行实时语音识别之 1/5
在安卓上使用新一代 Kaldi 进行实时语音识别之 2/5
在安卓上使用新一代 Kaldi 进行实时语音识别之 3/5
在安卓上使用新一代 Kaldi 进行实时语音识别之 4/5
在安卓上使用新一代 Kaldi 进行实时语音识别之 5/5

bilibili 视频演示 (树莓派 4 Model B)

新一代 Kaldi: 嵌入式实时语音识别之树莓派
新一代Kaldi - 树莓派4 英文实时语音识别(小模型，单线程)
新一代Kaldi - 树莓派4 中英文实时语音识别

bilibili 视频演示 (爱芯派, m3axpi)

新一代 Kaldi: 嵌入式实时语音识别之MAIX-III AXera-Pi
新一代Kaldi: 爱芯派(m3axpi) 实时语音识别(英语，小模型, 两个线程)

bilibili 视频演示 (macOS)

使用 sherpa-ncnn 的 Python API 进行实时的中英文语音识别 -- 包含 endpointing
新一代 Kaldi 实时语音识别之 sherpa-ncnn Python API 演示
使用新一代 Kaldi 进行中英文混合实时语音识别
流式语音识别之 sherpa-ncnn (英文)

bilibili 视频演示 (Windows)

流式语音识别之 sherpa-ncnn (中文) - by Liliana

fjord · 发表于 2023-11-5 07:20:43|来自：CNNIC

首先这个问题的题干就有问题，以往并非基本是本地语音识别。
恰恰相反，以前端上算力和内存有限，很多硬件无法处理大词汇量模型，
反而是现在随着端上计算能力强，内存大了，同时端到端的ASR模型的大小比较小，因此很多识别的任务从云上往端上迁移，能够利用到端上的计算力，而降低云端的服务器的成本。

可以了解下我们开源的语音识别项目Wenet，提供了高质量端到端语音识别模型的训练，以及端上/云上的一键部署方案。十分容易上手学习使用。
杨超：Wenet - 面向工业落地的E2E语音识别工具Github 代码
mobvoi/wenet

t608 · 发表于 2023-11-5 07:21:38|来自：CNNIC

语音识别新范式

以自然语言处理的子领域“语音识别”为例，从 2012 年引入深度学习技术开始，语音识别的研究热点经历了三个阶段：

2011年前后，基于 DNN+HMM（深度神经网络+隐马尔科夫模型）的语音识别
2014年前后，基于 LSTM+CTC（长短时记忆网络+连接时序分类）的不完全端到端语音识别
2017年前后，基于 Transformer（自注意力机制）的完全端到端语音识别

如果说 2011 年深度学习的引入，是语音识别领域上一次范式转换的起点，那么从 2017 年开始，基于注意力机制和 Transformer 新型神经网络结构的语音识别研究，无疑标志着语音识别的新范式正在形成。

传统的语音识别主要框架包括：声学模型和语言模型。2011 年前后引入深度神经网络（DNN），主要目标是改进传统语音识别框架中的声学模型算法。2014年前后引入LSTM+CTC的方案，理论上实现了端到端，但因为效果不好，实际使用中仍然会加上语言模型。

一抹白云 · 发表于 2023-11-5 07:22:34|来自：CNNIC

谢邀。
应该可以吧。当前主流的引擎不都是云端的吗？
你的系统有什么特别的地方吗？

[IT技术] 语音识别方案？

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家