bibi_im286 发表于 2023-10-5 19:24:02

语音识别方向是否还有读博的必要?已大规模商业化的东西等于在学术界被判死刑吗?

如题,目前各大厂的识别api已经基本具备商业化使用的水平,虽然高噪音环境和特殊场景下表现大打折扣,但是这些condition都已经演化出各自独立的方向,如语音降噪/分离等,算不上是识别的范畴了,那么语音识别是否还有可以深入的博士级别课题呢?本人接触语音识别不到两年,可能对这个方向的看法过于片面,如果有对这个问题有想法的前辈欢迎不吝赐教 :)

fdsgsg 发表于 2023-10-5 19:24:55

最近一直在思考一个问题,智能语音行业博士还值得读吗?
       先说说智能语音行业。其实语音算是一个小众的方向,主要的方向包含语音识别,语音合成,语音增强,语音分离,语音情感识别,声音时间检测,声学信号处理,多模态等。这个领域整体来看,不像CV和NLP领域那么卷,这方向的研究生博士生不太多,但是每年的工作岗位需求也不像CV和NLP领域那么多,这一点也可以从每年的招聘情况看出。

http://pica.zhimg.com/v2-0360dff20daeb28e0f100f6c9740f797_r.jpg?source=1940ef5c
      对于主流的方向,比如语音识别和语音合成,相关技术其实已经比较成熟。在工业界,各大企业都推出自己的语音识别模型和接口,比如百度,阿里达摩院,讯飞等,其实各大公司目前推出的模型效果都差不了多少,用户很难感知其中的明显差异。语音识别在2015年--2022年经历了爆发式的性能提升,要说性能提升最大的因素就是堆数据。在大量有标注/弱标注数据面前,各种方法和技巧都是小弟,似乎都不好使。目前技术已经进入到瓶颈期,在现有基础上再进行提升已经是难上加难。现在各大公司也不需要那么多人进行研发,性能提升一点点对公司效益可能也没太大作用,所以最近两年工业界招聘可谓是惨不忍睹。在学术界,大多数研究者其实还是在学术数据集上进行雕花工作,无非是将现有技术进行一些新场景的探索和迁移应用。真正能落地应用或者有实际用处的科研文章少之又少。但是没办法,大多数的研究者要吃饭,要养家糊口,还是要发一些没太大用处的文章完成KPI。在深度学习理论没有突破的前提下,现有的研究大多数工程问题,无非是代码实现结果为导向,无法从深层次解释模型性能为什么好和为什么不好。将现在的深度学习称之为炼丹可真不为过。学术界也不好混了,前些年国家缺少人才,从国外搞引进,现在很多领域人才饱和,大家都有文章,都有项目,为了能够留在高校当副教授卷来卷去,卷王留下,其余人员合同到期就得走人。搞了这么多年科研最后也是灰头土脸,没有一份稳定的保障。
   国际和国内大环境不行了。国际上Google,Facebook,Amazon,Microsoft等科技巨头在陆续进行大量裁员,国内的华为,腾讯,阿里,字节跳动等也都在大规模优化人员。科技行业的寒冬真的来了。在没有新的科技热点炒作起来之前,互联网行业难以继续优美地支撑下去。裁员是削减成本最有效的方法。互联网短期收入高,吃青春饭,没保障,是博士生真的想去的地方吗?
      当然了,现在各行业就业形势都不乐观,或者可以称为惨不忍睹。没办法,大家都在牢笼里,谁都逃不了大环境的影响。读博可能是度过这几年低谷的方法。

bigshuo007 发表于 2023-10-5 19:25:25

个人认为,读博是为了成为某个专业领域的专家,是知识的深入发掘。若是硕士毕业出来工作,那大概率是往工业界往应用落地领域去做挖掘,方向略有不同,这也是看个人选择,就我司目前的情况而言,语音识别还是有很多难题待解决,比如你提到的语音分离,就有很强的场景,不存在技术瓶颈或内卷这一说。

Good Luck!
(另打个ads:我厂在招聘2021届本硕博AI工程师,NLP\CV\机器学习\大数据方向,base地--深圳坂田Huawei,有兴趣的请私信,谢谢!)

fxpk 发表于 2023-10-5 19:25:48

照这个理论的话,数据库系统方向的PhD可以就地枪决了
页: [1]
查看完整版本: 语音识别方向是否还有读博的必要?已大规模商业化的东西等于在学术界被判死刑吗?