[IT技术] 语音识别的发展现状及未来发展前景和方向?

[复制链接]
tombbb 发表于 2023-10-9 03:42:22|来自:北京 | 显示全部楼层 |阅读模式
机器学习
全部回复3 显示全部楼层
kino 发表于 2023-10-9 03:42:30|来自:北京 | 显示全部楼层
现在有听音乐识别歌曲、录入小说、翻译
现在的语音都要跟人工智能结合在一起研究,声音克隆,根据语音生成歌曲、对话剧本生成故事视频等
lfpjh 发表于 2023-10-9 03:43:17|来自:北京 | 显示全部楼层
发展方向:

  • 无监督预训练/半监督方向 该方向未来将极大的解决标注数据需求问题
  • 多语混说
  • 多模态(视频/图像/声纹等)
  • 语音翻译(语音到文本/语音到语音)
1x2s 发表于 2023-10-9 03:44:13|来自:北京 | 显示全部楼层
发展现状:单纯语音识别的话这几年最大的变化就是从hybrid到端到端了吧,如果说kaldi把各大公司语音识别落地的速度推进了10年的话,端到端则进一步降低了学习识别算法的门槛。据我所知,目前很多性能是被端到端模型刷榜了(具体可见espnet的论文和github目录)。但是在企业端应用的话,部分公司还是坚守hybrid的阵地。另一方面这个领域也是数据强依赖的,大公司的识别api都是用十万级别的语音进行训练的,所以如果作为创业公司很容易因为数据问题就被卷死。
发展前景:作为人机交互的桥梁,有强烈的落地需求,被各大公司所需要。但是最近国家大战略不太重视(毕竟天天吹超过人的转写能力,那还有什么好研究的),走教职线除非能进小圈子,否则建议转其他。
发展方向:

  • 端到端,特别是基于transformer的解码速度、内存占用、在线和离线的性能差距、时间对齐依旧需要解决
2. 小资源,能不能像语言模型那样在有预训练模型的情况下,快速自适应到小语种数据集
3. 多语种联合建模,特别是中英混杂的语音

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则