语音识别的发展现状及未来发展前景和方向？

tombbb · 发表于 2023-10-9 03:42:22|来自：北京

机器学习

kino · 发表于 2023-10-9 03:42:30|来自：北京

现在有听音乐识别歌曲、录入小说、翻译
现在的语音都要跟人工智能结合在一起研究，声音克隆，根据语音生成歌曲、对话剧本生成故事视频等

lfpjh · 发表于 2023-10-9 03:43:17|来自：北京

发展方向:

无监督预训练/半监督方向该方向未来将极大的解决标注数据需求问题
多语混说
多模态(视频/图像/声纹等)
语音翻译(语音到文本/语音到语音)

1x2s · 发表于 2023-10-9 03:44:13|来自：北京

发展现状：单纯语音识别的话这几年最大的变化就是从hybrid到端到端了吧，如果说kaldi把各大公司语音识别落地的速度推进了10年的话，端到端则进一步降低了学习识别算法的门槛。据我所知，目前很多性能是被端到端模型刷榜了（具体可见espnet的论文和github目录）。但是在企业端应用的话，部分公司还是坚守hybrid的阵地。另一方面这个领域也是数据强依赖的，大公司的识别api都是用十万级别的语音进行训练的，所以如果作为创业公司很容易因为数据问题就被卷死。
发展前景：作为人机交互的桥梁，有强烈的落地需求，被各大公司所需要。但是最近国家大战略不太重视（毕竟天天吹超过人的转写能力，那还有什么好研究的），走教职线除非能进小圈子，否则建议转其他。
发展方向：

端到端，特别是基于transformer的解码速度、内存占用、在线和离线的性能差距、时间对齐依旧需要解决

2. 小资源，能不能像语言模型那样在有预训练模型的情况下，快速自适应到小语种数据集
3. 多语种联合建模，特别是中英混杂的语音

[IT技术] 语音识别的发展现状及未来发展前景和方向？

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家