语音识别方向是否还有读博的必要？已大规模商业化的东西等于在学术界被判死刑吗?

bibi_im286 · 发表于 2023-10-5 19:24:02|来自：北京

如题，目前各大厂的识别api已经基本具备商业化使用的水平，虽然高噪音环境和特殊场景下表现大打折扣，但是这些condition都已经演化出各自独立的方向，如语音降噪/分离等，算不上是识别的范畴了，那么语音识别是否还有可以深入的博士级别课题呢？本人接触语音识别不到两年，可能对这个方向的看法过于片面，如果有对这个问题有想法的前辈欢迎不吝赐教：）

fdsgsg · 发表于 2023-10-5 19:24:55|来自：北京

最近一直在思考一个问题，智能语音行业博士还值得读吗？
先说说智能语音行业。其实语音算是一个小众的方向，主要的方向包含语音识别，语音合成，语音增强，语音分离，语音情感识别，声音时间检测，声学信号处理，多模态等。这个领域整体来看，不像CV和NLP领域那么卷，这方向的研究生博士生不太多，但是每年的工作岗位需求也不像CV和NLP领域那么多，这一点也可以从每年的招聘情况看出。

   对于主流的方向，比如语音识别和语音合成，相关技术其实已经比较成熟。在工业界，各大企业都推出自己的语音识别模型和接口，比如百度，阿里达摩院，讯飞等，其实各大公司目前推出的模型效果都差不了多少，用户很难感知其中的明显差异。语音识别在2015年--2022年经历了爆发式的性能提升，要说性能提升最大的因素就是堆数据。在大量有标注/弱标注数据面前，各种方法和技巧都是小弟，似乎都不好使。目前技术已经进入到瓶颈期，在现有基础上再进行提升已经是难上加难。现在各大公司也不需要那么多人进行研发，性能提升一点点对公司效益可能也没太大作用，所以最近两年工业界招聘可谓是惨不忍睹。在学术界，大多数研究者其实还是在学术数据集上进行雕花工作，无非是将现有技术进行一些新场景的探索和迁移应用。真正能落地应用或者有实际用处的科研文章少之又少。但是没办法，大多数的研究者要吃饭，要养家糊口，还是要发一些没太大用处的文章完成KPI。在深度学习理论没有突破的前提下，现有的研究大多数工程问题，无非是代码实现结果为导向，无法从深层次解释模型性能为什么好和为什么不好。将现在的深度学习称之为炼丹可真不为过。学术界也不好混了，前些年国家缺少人才，从国外搞引进，现在很多领域人才饱和，大家都有文章，都有项目，为了能够留在高校当副教授卷来卷去，卷王留下，其余人员合同到期就得走人。搞了这么多年科研最后也是灰头土脸，没有一份稳定的保障。
   国际和国内大环境不行了。国际上Google，Facebook，Amazon，Microsoft等科技巨头在陆续进行大量裁员，国内的华为，腾讯，阿里，字节跳动等也都在大规模优化人员。科技行业的寒冬真的来了。在没有新的科技热点炒作起来之前，互联网行业难以继续优美地支撑下去。裁员是削减成本最有效的方法。互联网短期收入高，吃青春饭，没保障，是博士生真的想去的地方吗？
   当然了，现在各行业就业形势都不乐观，或者可以称为惨不忍睹。没办法，大家都在牢笼里，谁都逃不了大环境的影响。读博可能是度过这几年低谷的方法。

bigshuo007 · 发表于 2023-10-5 19:25:25|来自：北京

个人认为，读博是为了成为某个专业领域的专家，是知识的深入发掘。若是硕士毕业出来工作，那大概率是往工业界往应用落地领域去做挖掘，方向略有不同，这也是看个人选择，就我司目前的情况而言，语音识别还是有很多难题待解决，比如你提到的语音分离，就有很强的场景，不存在技术瓶颈或内卷这一说。

Good Luck！
（另打个ads：我厂在招聘2021届本硕博AI工程师，NLP\CV\机器学习\大数据方向，base地--深圳坂田Huawei，有兴趣的请私信，谢谢！）

fxpk · 发表于 2023-10-5 19:25:48|来自：北京

照这个理论的话，数据库系统方向的PhD可以就地枪决了

[IT技术] 语音识别方向是否还有读博的必要？已大规模商业化的东西等于在学术界被判死刑吗?

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家