tombbb 发表于 2023-10-9 03:42:22

语音识别的发展现状及未来发展前景和方向?

机器学习

kino 发表于 2023-10-9 03:42:30

现在有听音乐识别歌曲、录入小说、翻译
现在的语音都要跟人工智能结合在一起研究,声音克隆,根据语音生成歌曲、对话剧本生成故事视频等

lfpjh 发表于 2023-10-9 03:43:17

发展方向:

[*] 无监督预训练/半监督方向 该方向未来将极大的解决标注数据需求问题
[*]多语混说
[*]多模态(视频/图像/声纹等)
[*]语音翻译(语音到文本/语音到语音)

1x2s 发表于 2023-10-9 03:44:13

发展现状:单纯语音识别的话这几年最大的变化就是从hybrid到端到端了吧,如果说kaldi把各大公司语音识别落地的速度推进了10年的话,端到端则进一步降低了学习识别算法的门槛。据我所知,目前很多性能是被端到端模型刷榜了(具体可见espnet的论文和github目录)。但是在企业端应用的话,部分公司还是坚守hybrid的阵地。另一方面这个领域也是数据强依赖的,大公司的识别api都是用十万级别的语音进行训练的,所以如果作为创业公司很容易因为数据问题就被卷死。
发展前景:作为人机交互的桥梁,有强烈的落地需求,被各大公司所需要。但是最近国家大战略不太重视(毕竟天天吹超过人的转写能力,那还有什么好研究的),走教职线除非能进小圈子,否则建议转其他。
发展方向:

[*]端到端,特别是基于transformer的解码速度、内存占用、在线和离线的性能差距、时间对齐依旧需要解决
2. 小资源,能不能像语言模型那样在有预训练模型的情况下,快速自适应到小语种数据集
3. 多语种联合建模,特别是中英混杂的语音
页: [1]
查看完整版本: 语音识别的发展现状及未来发展前景和方向?