eking 发表于 2023-10-4 06:51:46

NLP现在就业是否没有前途?

目前在国内大厂实习,感觉NLP落地产品,比如问答,2C上,基本上是辅佐另一个核心功能,自己基本上不可能成为核心功能。公司也曾在2C上尝试,亏了一波推广费。2B上,感觉缺乏泛化能力,客户可能更想要有自己需要风格的产品,如游戏领域,需要为特定场景做设计。再者就是高质量的语料库很难搞。
目前研一,想征求大家意见,不行就转。倒不是因为竞争压力大,我也收过很多内推简历,感觉很多研二,研三的同学水平可能还没入门。主要是担心 NLP的潜力不大,主要指的是硕士就业噶。

88h8 发表于 2023-10-4 06:51:54

先给出结论:有前途,也有钱途。
为什么这么说呢?我从长期和短期的角度来解释。
长期角度

人工智能在未来会有持续不断的发展,我相信在这一点上毋庸置疑,如果是CV是人的眼睛,speech是人的嘴巴,那NLP在某种程度上来讲就是人的大脑。
当然,和其他领域相比比较偏重于语言理解、推理等,所以更类似于大脑。所以,在未来NLP算法工程师是非常吃香的,这一点也是毋庸置疑的。
现在上车了,慢慢积累经验和人脉,往高层爬,只要处于人均水平,基本上可以得到一个比较理想的level和薪资水品。
人工智能是一个风口,早点上船,那你就是最早的那一批人,等到一定的年龄段就可以做更多的事情。
短期角度

短期角度上来看,我相信来看这个问题的同学,基本上是做算法的,难道这个时候下船转工程,然后从头开始学java、go、C++??? 你是在逗我吗?
这个时候你就要跟本科和其他软件工程的同学来竞争,优势是真的不大,而且现在NLP算法有学历要求,大部分是硕士(至少我周围的算法工程师都是硕士+),所以你读个研究生最后又要回头去搞工程吗?
当然答案也不是绝对的,如果:

[*]你对算法不感兴趣
[*]你研究生阶段就一直从事工程开发,这个时候有一定的经验累计
[*]找到了与算法有交集的岗位,比如说推广搜、其他领域算法工程师(如金融量化算法工程师)等
你可以去做其他领域的工作。
工作分类

其实NLP的工作种类大致包含四种:

[*]纯学术算法
[*]纯工程算法
[*]半学术半工程算法
[*]跨领域算法工程师
纯学术算法


[*]介绍
这种算法工程师就比较厉害了,一般在学校阶段会有多篇顶会,也对学术非常感兴趣,这类同学一般会读博或者进入到研究机构工作,我相信这类大佬(应该)不会来看这个问题 ,因为他们不会对是否有前途感到疑惑。

[*]分析
属于此类的同学,在下奉献出膝盖致敬。
纯工程算法


[*]介绍
这类的工程师也是比较吃香,一般是给深度学习做一些平台和框架上的支持。就好比如说做一个深度学习框架(eg,PaddlePaddle),这就是一个纯工程算法的活儿,底层需要使用C++、CUDA技术栈,和算法的落地距离有点大。

[*]分析
此类工程师也是比较吃香,比如说做MLOps平台,技术栈可能偏向于分布式这块,不过也是需要一定的NLP背景,不然到时候组内在讨论问题时,你根本不知道咋会儿事儿,那不很尴尬吗?
做这类平台基本上都是大厂,比如说微软、谷歌、亚马逊、百度、阿里这些大厂都在做,小伙伴可以去了解一下具体岗位。所以此方向也是建议做。
半学术半工程算法


[*]介绍
此类工程师(俗称调参侠)在应用部门比较吃香,需要针对于实际业务来尝试不同的模型并达到SOTA效果,并且需要将其上线(需要转化成ONNX、C++代码)来运行,保证高QPS。

[*]分析
这类算法工程师的求职范围非常广,基本上只要是在尝试使用NLP解决实际业务时都会使用招聘此类技术人才,所以你更加不用担心未来是否有前途。
跨领域算法工程师


[*]介绍
此类算法工程师在跨领域里面是非常吃香,比如说金融量化算法工程师,可能你在算法届能力算一般,可是一旦跨到其他领域,你会成为众望所归的明星,使用高大上的AI来实现解决他们的实际问题,而且工资有可能会比非跨领域的岗位要高。

[*]分析
此类工作机会比较稀缺,因为此时需要你去了解目标领域的业务,比如说量化算法工程师,你就需要了解基金、股票的原理,了解股市的运作原理等,这个时候对你的要求也是比较高,当然如果能够成为这个领域的大佬,我相信会是很抢手的人才,同时薪资待遇也会非你现在所能想象的。
总结

无论是从短期还是长期来看,NLP算法值得做,而且大有未来。

yilaipan 发表于 2023-10-4 06:52:27

刚出学校的时候肯定没问题,放在学术界当然也没问题。但如果放在工业界长期搞的话,对大部分人来说不太好。
工业界里,技术是为业务服务的,现在互联网现金牛的业务都不是靠单一技术撑起来的。无论网页搜索、图片搜索还是当下火热的视频搜索,它背后都是一套承载复杂业务逻辑的系统,单一的NLP、CV、Speech技术都只是其中一部分。
业务逻辑没搞清楚,系统模块之间如何互相影响没搞清楚,只是技术层面深度炼丹其中一个NLP模型、CV模型或者Speech模型的话,所能带来的系统层面的影响都非常有限。
一个视频搜索系统我能完全抛开视频视觉内容和语音内容来做吗?
一个图像检索系统我能完全抛开图像视觉内容来做吗?
一个网页检索系统我能完全抛开网页内容来做吗?
其实全都可以。
离了深度学习下的NLP、CV、Speech模型,这些业务系统总能找到一些巧妙的机器学习甚至非learning的方式达到不错的效果。
那这些先进NLP技术存在的意义是什么?

[*]简化系统设计
[*]解决系统里20%的疑难问题
比如搞文本相关性,如果抛开现代NLP模型,那就要一顿分词、term weighting、计算CQR/CTR等term match的一堆人工特征,要写不少代码,维护不少系统模块,可能勉强能上80%的准确率。换上现代NLP模型的话,随手上个BERT就80%了。前者需要几十个人维护好几个模块,后者需要一个初级NLP工程师+几台GPU部署机器。
所以啊,低端NLP人才,其实不用很多。一个人就能卷死一大片传统算法模块。
而剩下那20%的困难问题,老旧系统+tricky策略就实在搞不定了,BERT简单finetune也搞不定,咋办呢?
这就是大厂抢着要的高端NLP人才。校招卷潜力股,社招挖实力股。
还是以相关性为例,一些疑难case见我之前这个回答:
NLP 常规任务用 bert 类模型几行代码就能解决,那 NLP 岗主要存在的价值是什么?没混过大流量的搜索业务的话,做文本匹配的NLP工程师还是很难知道怎么用BERT解这类hard case的,一不小心就陷入了写规则的怪圈里。
解决这20%疑难问题的能力,是非常通用的。做网页搜索能用,放在图像搜索、视频搜索里同样整体适用,最多策略层面“做做微调”。
但要学会这些,你要进nb的团队有牛人带,在问题依托的场景里向牛人学习。这些东西一般写不到论文里,写到论文里往往你也找不到的。
所以,如果觉得踏进了NLP圈子就叫有前途,那还是洗洗睡了。但如果能:

[*]成为nb的nlp工程师,至少能解属于NLP的20%疑难问题
[*]跳出nlp圈子,多关注业务、系统和通用机器学习套路
有其一的话,就能打开前途天花板。两者兼得那更好不过了。
越工作越发觉得,前途不前途的,还是要看自己的机遇和选择。
下面是我和小伙伴四年以来的努力,希望能成为每个算法从业者成长路上的一束光:
关于深度学习,我们写了一本1400页的全栈手册手册大约半年更新一次,每周大约会有2-3篇新内容产生,对新内容有期待的小伙伴,欢迎follow我们的公号“夕小瑶的卖萌屋”,希望多多支持鸭~~

yuanzhu 发表于 2023-10-4 06:53:19

没有前途。
时间都花在语料上。
真正核心的不是模型,而是语料。
公司不投钱搞语料,再好的技术也做不出东西。
而小公司,恰恰就没钱搞语料。

sun333 发表于 2023-10-4 06:53:48

前途可能一般,不建议更多人入坑。其实就是比较简单的生产力和生产关系的问题。
其实20年前,nlp是一点都不火的,没有多少学习nlp的人。20年前的百度大搜索,为啥招聘会更看重一个人的潜力,说白了是因为学校培养的nlp人才太少了,完全不能满足需求,所以才会比较看重候选人潜力。过去20年是nlp技术高速发展的20年,并不是因为nlp在这个阶段因为取得了技术上的大突破导致行业高速发展的,而是因为互联网的快速普及和传播,给了nlp创造了大量的数据和新的场景,比如情感分析,语义匹配,query理解,自动摘要等,这些大多都是因为互联网的兴起而兴起的。大量的场景和样本就需要更多的产能来消化,这就导致了大量nlp的人才和技术孕育出来了。
然而我们看一下目前的互联网格局,就会基本get到文本的时代已经过去了,以一些简单的例子来说,目前百度app的日pv大概是10-14亿左右,渗透率接近天花板,dau也就在2亿左右徘徊很久了,这就说明文本信息的c端增量基本没了,但是抖音快手的搜索pv还是一直在涨的,两家加起来应该有个10亿pv左右;这个量级已经把文本的增量吃掉了。另外从互联网app时长上看,短视频的时长远高于文本相关信息的时长,说明大家都乐于看视频而不是看文字,因此b端后面也会受到影响。整体信息载体的发展,都在朝着文本见顶的路线走着,因此nlp未来会面临不增长的问题,科技股,互联网股,最担心的就是不增长,失去了增长属性,nlp的高回报率就会变差,因此现在入行意义不大了。

示指哥 发表于 2023-10-4 06:54:31

以下个人观点, 仅供参考:

一、 NLP很难在工作中拉开优势, 原因:
1、大部分任务在没速度太大限制的情况下都可以使用BERT等预训练模型达到最好的效果。
2、对于部分时间紧的需求, 来不及收集标注数据的, 往往就是写正则。
3、新技术出来的传播速度快,迭代速度快,弹出来一个什么有用的东西就会有千军万马follow。大家都知道要预训练、要prompt、要对比学习。
拉不开优势就意味着淘汰。

二、NLP各对话场景之间泛化确实不好
1、对于对话系统, 同样的对话状态管理流程换个场景就很糟,很多写好的模块不能重复用。要是换end2end吧,效果不可控,模型容易放飞自我。

三、目前NLP的文本生成离商用还有很大距离
1、“粗看通顺、细读一头雾水”的情况是NLP生成的现状, 不像人, 梳理完一个逻辑理论框架后再写。
2、写诗场景效果还行吧, 毕竟有些误差也无所谓, “一头雾水”和写诗挺搭的, 所以大家会觉得效果还可以, 但, 大家也都看腻了。

四、NLP的开源组件越来越优秀
1、比如百度paddlePaddle的命名实体识别, 效果足够好, import即可用, 自己再搞一个轮子?没动力了。
(这里就当给paddlePaddle打广告了, 毕竟我没付过费)
五、“NLP真难”,难的还不仅是技术问题
1、搜索、图谱、对话 这3大类,社会意义大,但很多公司都已经走过起步阶段,剩下很多“NLP真难”类型的难题。这些题不仅难、比重小、边际效益明显。入行了的人的产出要尽可能跑赢资本家的耐心,在各方力量之间取得微妙的平衡,否则就是被咔嚓的结局。

综上, 目前NLP的前景比较一般, 不要有不切实际的幻想,有没大突破还得等新的研究出来。研究型岗位还可以,虽然被咔嚓的例子很多,但至少有点盼头,实在没卷过,往业务型兼容也有机会;太偏应用、业务的就算了, 尤其是纯分类任务的场景(比如 审核),容易被替。
页: [1]
查看完整版本: NLP现在就业是否没有前途?