电脑问答:语音识别领域的最新进展如何呢？还有什么需要解决的难题吗？-今日问答

gibbet/猫 发表于 2023-10-7 15:09:47

语音识别领域的最新进展如何呢？还有什么需要解决的难题吗？

2018年10月，语音识别领域的最新进展如何，还有什么需要解决的难题吗

jsznet 发表于 2023-10-7 15:10:44

总体而言，语音识别领域的最新进展集中在提高识别准确性、拓展应用范围、改善用户体验和解决实际挑战等方面。然而，仍然存在一些难题需要解决，如多语种识别、少样本学习、噪声鲁棒性和隐私安全等问题。这些挑战将继续推动语音识别技术的研究和发展。
1）深度学习和神经网络：深度学习和神经网络的应用对语音识别领域产生了巨大影响。通过使用深度神经网络模型，如卷积神经网络（CNN）和长短时记忆网络（LSTM），语音识别的准确性得以显著提高。语音数据经过预处理后会得到 FBank 特征，FBank 特征首先进入卷积神经网络（CNN），对其局部特征进行提取；接着进入循环神经网络(BI-LSTM) ，依托LSTM 有效捕捉序列的前后依赖和上下文关系，提高语音分类的精准性。

http://pic1.zhimg.com/v2-ab2a7539161fd7176b00bd54b5f22d01_r.jpg?source=1940ef5c

深度神经网络处理语音数据架构图

2）端到端系统：语音识别几十年间经历了从基于 GMM-HMM 的传统语音识别技术到「端到端语音识别技术」的发展历程。在传统的语音识别框架中，整个自动语音识别系统由包括声学模型、发音词典和语言建模等多模块组成。端到端语音识别系统则使用单个序列到序列模型，直接将输入的声学特征序列映射到文本序列，与传统的 GMM-HMM 混合系统相比，端到端语音识别方法具有训练流程简单、系统组成简单、识别效果好等优点。网易易盾自研「多级建模的端到端汉语语音识别方法」，基于 Encoder-Decoder 的架构，使用多任务学习 hybrid CTC/Attention方式进行训练，CTC 分支使用音节作为建模单元，Attention 分支使用汉字作为建模单元，提升汉语语音识别的性能。

http://pic1.zhimg.com/v2-825f376d61982d0ae8d2d27adc310ae7_r.jpg?source=1940ef5c

网易易盾·多级建模系统架构图

3）多语种识别：最近不少研究集中在开发多语种模型，能够在不同语言之间进行迁移学习和知识共享，以提高跨语种的识别准确性。「多语种」对于众多出海企业来说是一块难啃的骨头，因而网易易盾在研发音频外语检测产品时，技术团队对大量的外语数据进行了训练和调优，目前不仅可以对英语、维语、德语、西班牙语等常见语种进行精准识别和检测，还同时支持外语小语种、民族语言等共140+语种内容识别，以及全球多地部署。
4）少样本学习：传统的语音识别系统通常需要大量的标注数据来进行训练。然而，少样本学习（Few-shot Learning）是一个重要的研究方向；在模型输入中提供任务描述、少量训练样例和测试样例输入，得到测试样例输出，这种方法旨在通过使用更少的训练数据来训练高性能的语音识别模型；这涉及到利用迁移学习、元学习和生成对抗网络等技术。像当下大热的ChatGPT，不仅实现了高质量的自然语言理解和生成，甚至能够进行零样本学习，为自然语言处理领域带来了前所未有的突破。
5）噪声鲁棒性：背景音和噪音都会影响语音识别的精准性，在强噪音背景下进行精准语音识别仍具挑战性，于是研究人员致力于开发能够抑制环境噪声并提高语音识别性能的算法和模型。Google 曾提出一种音频数据增强方式——SpecAugment。它通过扭曲时域信号，掩盖频域通道与时域通道，修改了频谱图，这种方式可以用来增加噪声的鲁棒性，来对抗时域上的变形，以及频域上的部分片段损失。

http://pica.zhimg.com/v2-bf1735a03c2b42d251eeb033535b8665_r.jpg?source=1940ef5c

Google·数据增强方法 SpecAugment

6）个性化和上下文感知：个性化语音识别是指根据个体的语音特征和习惯性用语进行个性化定制的识别技术。此外，上下文感知的语音识别旨在利用上下文信息（例如对话历史、用户意图等）来提高识别性能。除了借助 LSTM （Long Short Term Memory 长短期记忆）实现有效捕捉序列的前后依赖和上下文关系外，网易易盾曾设计一套「Gated Interlayer Collaboration」（简写为GIC）机制，其中的门控单元（gate unit）用于自适应地融合文本信息和声学信息，并使得下一层的 Encoder 模块可以学习声学序列上下文信息和文本序列上下文信息。

http://picx.zhimg.com/v2-c7b2bda162949115c88e0ca3b2251c57_r.jpg?source=1940ef5c

网易易盾·GIC模型架构图

7）隐私和安全性：随着语音识别技术的普及，隐私和安全性问题日益重要。确保语音数据的安全存储和传输，以及保护用户隐私成为关注的焦点。
<hr/>除了以上说的这些，如果题主真的对语音识别领域感兴趣的话，可以留心一下08月24日开幕的「INTERSPEECH 2023」大会！它是由国际语音通讯协会（International Speech Communication Association, ISCA）创办的顶级旗舰国际会议，作为全球最大的综合性语音信号处理领域的科技盛会，在这里不仅可以手握当下语音黑科技、语音研究等第一手前沿信息，还可以洞悉语音识别领域的发展动向。（关键是还看到网易易盾的身影~~~！期待住了）

http://picx.zhimg.com/v2-0d7225712800cfc96b9e64d83cdbc78c_r.jpg?source=1940ef5c
也可以提前了解一下网易易盾嗷~~~
网易易盾-数字内容风控-内容安全|业务安全|移动安全【推荐阅读】
网易易盾：多级建模方法提升汉语语音识别效果网易易盾：“聊骚”屡禁不止，深度学习技术如何对抗语音色情？网易易盾：未来将至！全球语音、声学顶会 ICASSP 放榜，网易易盾黑科技走向全世界

suidywu 发表于 2023-10-7 15:11:21

最新语音合成和语音转换模型生成的伪装语音在感知上与真正语音无法区分，这严重威胁着公众的个人信息安全。
现有的检测方法虽有可观进展，但仍存在检测声学环境单一、对未知欺骗攻击泛化能力差等问题。
转自：

http://picx.zhimg.com/v2-05e76588a7b8196ce2350c844ca922e8_r.jpg?source=1940ef5c

yez3533 发表于 2023-10-7 15:11:48

随着深度学习的不断发展，语音识别技术得到了极大的提升，同时为人们的日常生活提供了许多便利。然而，一个语音模型的训练并非易事，因为语音数据天然存在着获取难、数据标注耗时昂贵的问题，而且还会面临模型漂移、标注数据不足等难题。因此，迁移学习技术对于语音数据非常重要。为了解决语音识别的跨领域和跨语言问题，微软亚洲研究院机器学习组和微软（亚洲）互联网工程院提出了跨领域和跨语言语音识别的 CMatch 和 Adapter 方法。这两项技术是如何提升模型迁移学习性能的？他们又利用了哪些创新技术？让我们从今天的文章中来获得答案吧。
语音识别就是将人的声音转化为对应的文字，在如今的日常生活中有着重要的应用，例如手机中的语音助手、语音输入；智能家居中的声控照明、智能电视交互；还有影视字幕生成、听录速记等等，以语音识别为核心技术的应用已经屡见不鲜。但是，语音数据天然存在着获取难、数据标注耗时昂贵的问题。不同人的方言、口音、说话方式也有所不同。受限于此，采集到的语音数据绝大多数会面临模型漂移、标注数据不足等问题。
尤其是语音识别中的跨领域和跨语言场景更是十分具有挑战性。跨领域指的是在领域 A（如普通麦克风）训练的模型如何迁移到领域 B（如专用麦克风）。而跨语种则指的是在语言 A（如俄语）上训练的模型如何迁移到语言 B（如捷克语）。特别是对于一些标注数据稀缺的小语种更是如此。因此，研究低资源跨语种迁移至关重要。
为了解决上述难题，微软亚洲研究院提出了用于语音识别的无监督字符级分布适配迁移学习方法 CMatch 和基于适配器架构的参数高效跨语言迁移方法 Adapter。相关论文已分别被语音领域顶会和顶刊 Interspeech 2021 及 IEEE/ACM TASLP 2022 所接收。（论文链接，请见文末）

<hr/>迁移学习方法 CMatch：实现字符级跨领域适配

众所周知，基于深度学习的端到端 ASR（自动语音识别）已经可以通过大规模的训练数据和强大的模型得到很好的性能。但是，训练和测试数据之间可能会因录音设备、环境的不同有着相似却不匹配的分布，导致 ASR 模型测试时的识别精度下降。而这种领域或分布不匹配的情况非常多样且常见，以至于很难对每个领域的语音数据进行大量收集并标记。这种情况下模型往往需要借助无监督领域适配来提升其在目标域的表现。
现有的无监督领域适配方法通常将每个领域视为一个分布，然后进行领域适配，例如领域对抗训练或是特征匹配。这些方法可能会忽略一些不同领域内细粒度更高的分布知识，例如字符、音素或单词，这在一定程度上会影响适配的效果。这点在此前的研究《Deep subdomain adaptation network for image classification》中得到了验证，与在整个域中对齐的传统方法相比，在子域中对齐的图像（即按类标签划分的域）通常可以实现更好的自适应性能。
微软亚洲研究院提出了一种用于 ASR 的无监督字符级分布匹配方法—— CMatch，以实现在两个不同领域中的每个字符之间执行细粒度的自适应。在 Libri-Adapt 数据集上进行的实验表明，CMatch 在跨设备和跨环境的适配上相对单词错误率（WER）分别降低了14.39％和16.50％。同时，研究员们还全面分析了帧级标签分配和基于 Transformer 的领域适配的不同策略。
以图1为例，通过执行 CMatch 算法，两个领域相同的字符在特征分布中被拉近了：

http://pic1.zhimg.com/v2-d83595283502c6ee73fb4952f4df2cf1_r.jpg?source=1940ef5c

图1：执行 CMatch 前后效果对比

CMatch 方法由两个步骤组成：帧级标签分配和字符级别的分布匹配。
其中，帧级别标签分配可以为语音信号获得更加准确的“特征-标签”对应关系，为下一步实现基于标签（即字符）的分布适配提供依据，即需要获得帧级别的标签以取得更细粒度的特征分布。要想进行帧级标签分配，首先需要获得较为准确的标签对齐。如图2所示的三种方法：CTC 强制对齐、动态帧平均、以及伪 CTC 标签。可以看出，CTC 强制对齐是通过预训练的 CTC 模块，在计算每条文本对应的最可能的 CTC 路径（插入重复和 Blank 符号）后分配到每个语音帧上，这个方法相对准确但是计算代价较高；动态帧平均则是将语音帧平均分配到每个字符上，这个方法需要基于源域和目标域语速均匀的假设；而伪 CTC 标签的方法，通过利用已经在源域上学习较好的 CTC 模块外加基于置信度的过滤（如图2中的 t、e、p 等），兼顾了高效和准确性。

http://pica.zhimg.com/v2-b671f890aa42d6f761af5d9f28095bdb_r.jpg?source=1940ef5c

图2：三种帧级标签分配策略

需要说明的是，在源域上使用真实文本进行标签分配时，由于目标域没有文本，所以需要借助源域模型先对目标域的语音数据进行伪标注，然后再使用模型标注的文本进行标签分配。
得到帧级别的标签后，就需要进行字符级别的分布匹配。研究员们选择采用了 Maximum Mean Discrepancy（MMD）度量进行特征匹配。MMD 用于评估两个分布之间的差异，是迁移学习中常见的一种分布度量方法。它的公式为：

http://pic1.zhimg.com/v2-84bfca3a66a6d61a0c261fc282493beb_r.jpg?source=1940ef5c

实际操作中，给定源域和目标域样本 X_S, X_T，计算 MMD 的有偏差的经验估计：

http://picx.zhimg.com/v2-bda1c7224b221f935eef04052f4bff04_r.jpg?source=1940ef5c

通过计算所有字符之间的平均 MMD，可以得到字符级别的分布匹配损失函数：

http://pica.zhimg.com/50/v2-447fb000a278e9ad57b6d0a987235e24_720w.jpg?source=1940ef5c

最终，微软亚洲研究院采用 CTC-Attention 混合模型作为基础 ASR 模型，以及同时混合学习 CTC 模块（用于帧级标签分配）和基于 Transformer Decoder 的 Seq2Seq Loss，于是语音识别的损失函数可以表示为：

http://picx.zhimg.com/50/v2-f66c180a5bd26dd987084d45a8ecb0ef_720w.jpg?source=1940ef5c

将分布匹配损失函数和语音识别损失函数相结合，就得到了最终的损失函数：

http://pic1.zhimg.com/50/v2-c2615eb154986b383170575e4233d1b4_720w.jpg?source=1940ef5c

最终算法流程如表1：

http://picx.zhimg.com/v2-94f0adc6ad49dae82673b25a4373a047_r.jpg?source=1940ef5c

表1：CMatch 学习算法

<hr/>领域内、跨设备、跨环境语音识别，CMatch均取得最佳效果

表2是跨设备语音识别时的结果，值得注意到的是，Source-only 的模型在其他设备录制语音上的识别效果相比领域内模型都会有一定程度的下降。而基于全局 MMD 和领域对抗训练的方法均有所提升，CMatch 则在各个情况下均取得了最佳的效果。

http://picx.zhimg.com/v2-a17ed613881ae05b2cdd919da560875a_r.jpg?source=1940ef5c

表2：跨设备语音识别结果

表3的结果表明，CMatch 在跨环境（抗噪声）语音识别情况下也取得了很好的效果。

http://pic1.zhimg.com/v2-9b8fd9a1a2afb81f5b5f733336682769_r.jpg?source=1940ef5c

表3：跨环境（抗噪声）语音识别结果

表4为消融实验，可以看到结合了自训练和细粒度的分布匹配能够使 CMatch 达到最好的效果。

http://picx.zhimg.com/50/v2-ff48297158f9fedaebe8c70fb16e63fb_720w.jpg?source=1940ef5c

表4：CMatch 消融实验结果

此外，研究员们还分析比较了三种字符分配方法。在表5中可以看出 CTC 强制对齐取得了最好的效果，但是其计算开销也最大；而 FrameAverage 也取得了较好的效果，但它的假设前提是领域和目标域具有均匀的说话速度；而使用 CTC 伪标签的方法取得了与 CTC 强制对齐相近的结果，同时计算起来也更加高效。

http://pica.zhimg.com/v2-e83f9545372c4cfe1ca77549bc8cbba9_r.jpg?source=1940ef5c

表5：三种字符分配方法的实验结果

最后，对于是否需要在解码器端使用 CMatch Loss，实验结果如表6。由于解码器在实验中本来就没有功能上的差别，目标文本都是标准的英文，因此减小其分布的差异并没有什么效果，甚至会损害性能。

http://pic1.zhimg.com/v2-9deb82fff0aa22a75b6c912eb32a35cc_r.jpg?source=1940ef5c

表6：解码器端使用 CMatch Loss 的测试结果

<hr/>Adapter 再进化：更少的训练数据，更高的准确率

在一代代科学家和工程师的努力下，语音识别系统在各种主流语言上都已经达到了非常好的效果，比如英语、中文、法语、俄语、西班牙语等……让人们在日常生活中就能享受其带来的便利。然而，世界上有大约7,000种语言，其中绝大部分语言的使用者并不多，而且不同人的方言、口音、说话方式也有所不同，这就使得这些语言的语音数据十分稀缺，即低资源（low-resource）语言。标注数据的稀缺导致近年来端到端语音识别的诸多成果迟迟不能应用到这些语言上。
为此，微软亚洲研究院的研究员们开始思考如何利用迁移学习，将主流语言（如英语、中文等）的知识用于帮助低资源语言的学习，在多种语言之间共享，起到“四两拨千斤”的效果，从而提升小语种语音识别的表现。如图3所示，给定罗马尼亚语作为目标语言，如何利用数据相对丰富的意大利语、威尔士语和俄语来训练出更好的罗马尼亚语语音识别模型？

http://picx.zhimg.com/v2-5526fb0e8a2f17ead497e325f7292d58_r.jpg?source=1940ef5c

图3：给定若干源语言，如何将知识迁移到目标语言上？

幸运的是，近年来，如 wav2vec2.0 等预训练模型都已经推出了多语言版本，微软亚洲研究院之前的研究也证明了仅需要简单的微调，一个大规模的多语言模型就能被适配到一个低资源语言上，并能显著改善识别性能。

但与此同时，研究员们也发现了两个新问题：

[*]大规模的多语言模型往往含有大量的参数，导致在一些数据量非常少的情况下，模型极易过拟合。
[*]如果对于世界上的每一个小语种都维护一个微调后的大模型，成本将会十分巨大。

不过，之前 Houlsby 等人发现，对于一个预训练好的 BERT，只需要在 Transformer 的每一层插入一个如图4所示的 Adapter，就能在不改变模型主干参数的情况下将模型适配到各种下游任务，甚至能够取得接近整个模型微调的表现。Adapter 主要包含一个 LayerNorm 层，用于重新调节原始特征的尺度，接着分别是一个降采样层和一个升采样层对特征进行压缩和还原，最后由一个残差连接保证原始特征依然能通过，从而提升 Adapter 训练时的稳定性。

http://picx.zhimg.com/50/v2-d89adcf54aa4aaa73f32c29b321b67eb_720w.jpg?source=1940ef5c

图4：Adapter 结构示意图

受到 Adapter 的启发，微软亚洲研究院的研究员们尝试使用 Adapter 来解决模型过拟合问题，对如何利用 Adapter 进行高参数效率（parameter-efficient）的预训练多语言 ASR 模型的迁移展开了研究，并提出了 MetaAdapter 和 SimAdapter 来对 Adapter 进一步优化，在仅使用2.5%和15.5%的可训练参数的情况下，使得识别词错误率（WER）相对全模型微调分别降低了2.98%和2.55%。
微软亚洲研究院使用了自己预训练的多语言模型进行实验，该方法也可以用于 wav2vec2.0 等模型上。具体来说，模型的主干基于 Transformer 的结构，主要包含12层 Encoder 以及6层 Decoder 模型，结合了11种语料（包含42种语言，总时长约5,000小时）对模型进行预训练。同时，模型采用了 CTC-Attention 混合损失函数来提升训练的稳定性和加速训练，即在 Encoder 的输出特征上增加 CTC 层，使用 CTC 损失进行约束。研究员们还将 Adapter 放在前馈层（Feed-Forward Networks）后面，从而对每一层的输出特征进行调节。

http://picx.zhimg.com/v2-548a3bc9ca5e4558261dc3628be6cf71_r.jpg?source=1940ef5c

图5：主干模型示意图

MetaAdapter：MetaAdapter 在结构上与 Adapter 完全一致，唯一不同的是，使用了 MAML (Model-Agnostic Meta-Learning) 元学习算法来学习一个 Adapter 更优的初始化。MetaAdapter 需要通过学习如何学习多种源语言，从而在各种语言中收集隐含的共享信息，以帮助学习一个新的语言。实验发现，MetaAdapter 对于过拟合和极少数据量的鲁棒性，以及最终迁移效果均显著强于原始 Adapter 。

http://picx.zhimg.com/v2-7df76e306bec8ca8195d0df83cbfe86a_r.jpg?source=1940ef5c

图6：MetaAdapter

SimAdapter：如果说 MetaAdapter 需要通过收集隐含的共享信息来学习新的语言，那么 SimAdapter 则是显式地要求模型去建模各种语言的相似度关系，从而更好的学习目标语言，其结构如图7所示。在研究员们看来，多语言模型的原始特征是相对语言无关的，那么如果使用这些特征作为 Query，将各语言 Adapter（包括目标语言）输出的语言强相关特征作为 Key 和 Value，那么就能通过构造注意力机制，从目标语言和源语言中分别提取一些有效信息，作为更好的目标语言特征。

http://pica.zhimg.com/v2-170b930d3b05aaccd1f1e9e9869d8d48_r.jpg?source=1940ef5c

图7：SimAdapter 结构示意图

<hr/>SimAdapter+ 达到最优结果，MetaAdapter 擅长数据量极少的场景

通过将模型在 Common Voice 的五种低资源语言上进行实验，结果如表7所示。根据迁移与否以及迁移方式的不同，可以将各种方法分为三类：

[*]不迁移（左边栏）：包括了传统的 DNN/HMM 混合模型，从头训练的 Transformer（B. 和本文用的主干模型大小结构均一致；S. 指为了抑制过拟合，而将参数量调小的版本），以及将预训练好的模型当作特征提取器，去学习目标语言的输出层。
[*]基于微调的迁移（中间栏）：包括了完整模型的微调，以及对于抑制过拟合的尝试（完整模型微调 +L2 正则化、仅微调模型最后几层参数）
[*]基于 Adapter 的迁移（右边栏）：即本文介绍的各种方法，其中 SimAdapter+ 是结合了 SimAdapter 和 MetaAdapter 的升级版。

http://pic1.zhimg.com/v2-31818aaf5db5ca6135afa33b645179ed_r.jpg?source=1940ef5c

表7：MetaAdapter 和 SimAdapter 在 Common Voice 五种低资源语言上的实验结果

这里采用了两种平均方式来反应模型的不同能力：1. 直接平均：没有考虑不同语言内的数据量，对于尤其擅长极少数据的算法会更有优势；2. 加权平均：考虑了不同语言本身的数据量，更适合用来衡量模型在各种情况下的综合表现。
由结果可以看出：

[*]使用迁移学习的方法均明显好于不使用迁移学习的方法，印证了迁移学习的重要性。
[*]全模型微调有着非常强大的效果，对其施加传统的 L2 正则，或是仅微调模型最后几层参数效果都不理想。
[*]原始的 Adapter 在合适的训练方法下基本可以达到和全模型微调相同的水平，说明了 Adapter 在 ASR 任务上的有效性。
[*]本文提出的 SimAdapter 和 MetaAdapter 均进一步提高了 Adapter 的表现，将它们结合后的 SimAdapter+ 更是达到了文中最优的结果。
[*]值得注意的是，MetaAdapter 更擅长数据量极少的情况，而在 SimAdapter 则有着更均衡的表现。

<hr/>创新训练方法和实验方法：进一步验证 Adapter 和 SimAdapter 的性能

微软亚洲研究院提出了两阶段训练方法以提高 Adapter 在语音识别任务上的表现：模型迁移过程中需要学习一份新语言的词表，如果将该词表和 Adapter 一起训练，由于词嵌入的不断更新，可能会导致 Adapter 学习目标的混乱。同时学习 Adapter 和词表也可能会词嵌入从而承担一部分 Adapter 的功能，导致 Adapter 无法学习到足够的语言相关特征，造成后续 SimAdapter 的表现下降。因此，先将主干模型固定住，将新语言的词表映射到模型相同的隐空间（latent space）中，再将词表固定住学习 Adapter，可以达到更好的效果，如表8所示。

http://picx.zhimg.com/v2-706d9d877f6a4d2bf187c882f30d454e_r.jpg?source=1940ef5c

表8：二阶段训练法

另外，为了证明 SimAdapter 的确能够从其他语言学习到有用的知识，研究员们设计了两个实验：
其一，尝试去除目标语言本身的 Adapter ，以要求 SimAdapter 仅通过源语言来学习一个对目标语言有用的特征，结果如表所示：即使没有使用目标语言 Adapter，SimAdapter 依然能够在多数语言上取得较为明显的提升。

http://pica.zhimg.com/v2-e1c8a6cd26c56c22d696567d0043e216_r.jpg?source=1940ef5c

表10：SimAdapter 消融实验

其二，在乌克兰语上训练两个不同的 SimAdapter 模型，以分析不同源语言（意大利语和俄语）的贡献。由于俄语和乌克兰语更相似，使用俄语 Adapter 共同训练的 SimAdapter 应当获得更多收益。结果显示，使用意大利语 Adapter 的 SimAdapter 的词错误率为48.70，而使用俄语 Adapter 的词错误率仅为47.73，这表明相比意大利语，SimAdapter 的确可以从俄语中学习更多的有用知识来建模乌克兰语。

微软亚洲研究院已将 CMatch 和 Adapter 代码开源，地址如下：
https://github.com/microsoft/NeuralSpeech/tree/master/CMatchASR
https://github.com/microsoft/NeuralSpeech/tree/master/AdapterASR

<hr/>相关论文链接：

Deep Subdomain Adaptation Network for Image Classification
https://arxiv.org/abs/2106.09388
wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations
https://arxiv.org/abs/2006.11477
Parameter-Efficient Transfer Learning for NLP
https://arxiv.org/abs/1902.00751
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
https://arxiv.org/abs/1703.03400

扇公子 发表于 2023-10-7 15:11:56

InfoQ编辑蔡芳芳小姐姐对网易杭研语音识别团队负责人刘东的采访文章有提到过，过去三年以端到端技术为代表的各种新算法不断出现并应用在实际业务系统中，提升语音识别的效果，基于 HMM 的系统已经不是语音识别系统的唯一选择，技术的不断迭代推动了语音识别领域的持续发展；同时语音识别技术的应用领域越来越广，基于语音识别技术的人机交互系统开始大规模应用，并且在限定场景下已经有比较好的表现，比如机器人电话客服系统、智能手机助手、智能音箱等。
虽然当下的语音识别系统在一些业务中有非常好的表现，但依然存在处理不好的场景，比如：

[*]针对重口音、方言的识别，嘈杂环境的识别，多人同时说话的识别等，后续还有很大的进步空间；
[*]同时，远场语音识别目前相比近场还有很大差距；
[*]语音识别系统与其它系统比如语音合成、机器翻译、语义理解等的统一和融合，随着深度学习技术的发展和演进应该也会有所突破。
至于实现层面的最新进展，请参考这个回答：语音识别领域的最新进展目前是什么样的水准？

help 发表于 2023-10-7 15:12:46

从识别能力上几乎是瓶颈了，主要在解决降噪的难题，识别率不佳的文件多数是因为录音文件里面噪音过大，参考相关产品“录音啦”这个集成了国内四家识别引擎的公司，提供的语音撰写，和文字转语音都很不错~~

页: [1]

今日问答's Archiver

语音识别领域的最新进展如何呢？还有什么需要解决的难题吗？