江湖怪侠 发表于 2023-10-4 06:55:59

大语言模型背景下,NLP从业者前景,要换个方向么?

除了少部分如推荐,知识图谱等功能,大部分如分类,实体识别,信息抽取等功能都能通过大模型出来,而且比以往每个功能搞一个模型效果好多了,这样的话会大模型很快普及后,nlp人才需求肯定缩水很多,所以是否得提前规划出路?另外,大模型能搞得公司肯定很少,不足以去卷这个了,年纪大了

qqwu 发表于 2023-10-4 06:56:36

NLP从业者大部分时间会慢慢从模型设计转移到数据处理上,如何构建冷启动数据,如何通过业务源源不断收集线上反馈数据,如何进行数据清洗,这都很关键。
在强大的NLP基座模型面前,直接把技术打平了,如果上了大模型效果还不好,大概率是数据有问题。或者就是这个任务本身就不可能work。(比如用大模型预测A股涨跌 :)
在BERT刚出来的时候,做一个文本分类任务,如果效果很差, 那一定是数据有问题,数据规模不够?数据质量太差?数据分布有偏?这些都慢慢解决了,效果也就上去了。
现在也是一样,不过切换到了文本生成任务上,不过这类生成任务的数据质量更难把控,主观性也更强,比如文本摘要任务,往往没有固定的标准答案,所以人工标注的难度也更大。如何构建出靠谱的业务数据其实也很考验大家的技术水平,以及对业务本身的理解,有时候还需要训练额外的模型来做数据清洗,也都是很有挑战性的工作。

chun 发表于 2023-10-4 06:56:50

在大模型时代,再搞模型是没前景了。NLP从业者需要更加关注Data-centric AI。
什么是Data-centric AI?


http://picx.zhimg.com/v2-cc31b143183ae6330f8ddbee6e7569ef_r.jpg?source=1940ef5c

https://arxiv.org/abs/2301.04819

Data-centric AI是一种搭建AI系统的新理念,被吴恩达老师大力倡导。我们这里引用下他给出的定义
Data-centric AI is the discipline of systematically engineering the data used to build an AI system.
— Andrew Ng传统的搭建AI模型的方法主要是去迭代模型,数据相对固定。比如,我们通常会聚焦于几个基准数据集,然后设计各式各样的模型去提高预测准确率。这种方式我们称作以模型为中心(model-centric)。然而,model-centric没有考虑到实际应用中数据可能出现的各种问题,例如不准确的标签,数据重复和异常数据等。准确率高的模型只能确保很好地「拟合」了数据,并不一定意味着实际应用中会有很好的表现。
与model-centric不同,Data-centric更侧重于提高数据的质量和数量。也就是说Data-centric AI关注的是数据本身,而模型相对固定。采用Data-centric AI的方法在实际场景中会有更大的潜力,因为数据很大程度上决定了模型能力的上限。
需要注意的是,「Data-centric」与「Data-driven」(数据驱动),是两个根本上不同的概念。后者仅强调使用数据去指导AI系统的搭建,这仍是聚焦于开发模型而不是去改变数据。
为什么Data-centric AI是未来?


http://picx.zhimg.com/v2-9878a9ccb97e608be5856759384c3122_r.jpg?source=1940ef5c

https://arxiv.org/abs/2303.10158

以往大家研究的重点都在模型。但如今,经过了多年的研究,模型设计已经相对比较成熟,特别是在Transformer出现之后(目前我们似乎还看不到Transformer的上限)。从GPT-1到ChatGPT/GPT-4,所用的训练数据大体经历了以下变化:小数据(小是对于OpenAI而言,对普通研究者来说也不小了)->大一点的高质量数据->更大一点的更高质量数据->高质量人类(指能通过考试的标注者)标注的高质量数据。模型设计并没有很显著的变化(除了参数更多以顺应更多的数据),这正符合了Data-centric AI的理念。从ChatGPT/GPT-4的成功,我们可以发现,高质量的标注数据是至关重要的。OpenAI对数据和标签质量的重视程度令人发指。

http://pic1.zhimg.com/v2-632bbe1970bc33e45bada45184b09ceb_r.jpg?source=1940ef5c

https://arxiv.org/abs/2303.10158

从另一个角度来看,现在的ChatGPT/GPT-4模型已经足够强大,强大到我们只需要调整提示(推理数据)来达到各种目的,而模型则保持不变。例如,我们可以提供一段长文本,再加上特定的指令,比方说「summarize it」或者「TL;DR」,模型就能自动生成摘要。在这种新兴模式下,Data-centric AI变得更为重要,以后很多AI打工人可能再也不用训练模型了,只用做提示工程(prompt engineering)。
因此,在大模型时代,Data-centric AI的理念将越来越重要。
在这个AI发展日新月异的时代,我们需要不断学习。我们对Data-centric AI这个领域进行了总结,希望能帮助大家快速高效地了解这个领域:
Data-centric Artificial Intelligence: A SurveyData-centric AI: Perspectives and ChallengesAwesome Data-centric AI相关文章和回答:
一堆废纸:GNN中的Data-centric AI —— 图结构学习(GSL)以及基准库OpenGSL介绍一堆废纸:GPT模型成功的背后用到了哪些以数据为中心的人工智能(Data-centric AI)技术?进行data-centric的研究时,需要的算力大吗?大模型LLM领域,有哪些可以作为学术研究方向?

wmm 发表于 2023-10-4 06:57:22

先说结论:如果是业界,正是遍地黄金的时候。如果是学界,短期会受强烈冲击,许多PhD可能要延毕了,但长期来看未必是坏事
对于业界,之前NLP被诟病最多就是无法落地、需求不足,之前很多NLP工程师,说是NLP,其实都在做IR
说无法落地,可以举个例子。当初16年17年的时候,NLP也火过一波。当时最火的概念是智能助理,比如Siri、cortana、小冰。但最后大家发现智能助理根本不智能,应用场景也狭窄。毕竟你能用手机选选选就弄好的,为什么要交给一个话都说不流畅的智能助理。事实上,智能助理有用的场景可能就两个,一个开车,一个赖床,都是因为无法腾出手用手机罢了
而ChatGPT证明了大模型可以把流畅度推到一个非常靠谱的地步,这就给落地带来了希望
或许正是因为落地应用不多,之前模型也确实不靠谱,之前大部分互联网公司都把NLP当做一种花里胡哨的玩意,用来提升估值则可,实际应用就会加一堆手工feature。所以NLP工程师的需求也并不多
而且这一波宣传之后,大部分行业都感受到了ChatGPT能给他们工作带来的提升,需求猛增,相应工作、创业机会一定会更多
那有人可能会说:“可是只有Openai、百度这些公司有能力训练大模型,NLP哪怕在中等公司也没法训练”
这种人就属于还活在前BERT时代的。预训练+finetune早从19年就是一个普遍范式了,虽然说现在又有in-context learning,但数据本身是敏感的,那么怎么实现本地化部署的需求就一直存在
最典型的例子比如医疗数据,难道真的有公司能心大到把自己数据上传到Openai训练么?即使公司自己敢做,国家安全层面也会给你卡住,滴滴就是前车之鉴
再比如商业分析数据,这都是公司内部的数据,上传Openai不现实,直接用ChatGPT又不一定能符合公司本身的需求。而且2048容量的prompt也塞不进所有的公司数据,那么就必须在本地做finetune。光是这一种toB的需求,就足够养活一堆较平庸的NLP工程师了
更何况,谁说中等级别的公司就没法训出一个好的大模型(小公司确实不行)。GLM130B模型是可以在24张40G的A100上训的,这种成本中等级别的公司还是承担得起的。大概够在专业领域finetune出一个比GPT4(对,你没看错)更好的大模型
(感谢评论区 @mactavish 指出问题,24张40GA100的原话是原作者在github的issue里说的(continue pretrain and fine-tune · Issue #79 · THUDM/GLM-130B),确实和glm初始400张卡的需求差距挺大,由于我没有自己试过pretraining glm130b级别的模型,所以未经思考就记住了issue里这个说法。但模型参数利用效率是不断迭代的,暂且以作者原话说法为准)
一个典型的例子是中文故事生成任务(英文也是)上,其实ChatGPT做得并不好,哪怕GPT4也一样,细节描写极为模糊。亲测最好的反而是彩云小梦、glow这样的应用。原因很简单,glow是用晋江之类的数据专门训的模型
总之,对于业界,落地变得容易了,需求变成更多了,没理由机会反而更少
而对于学界,短期的冲击是一定的,但死的都是灌水的,长期看未必是坏事
可解释性、泛化性、评测标准、乃至怎么和ML理论联系起来,这些都是大家都知道重要,但难快速出成果的领域。为了毕业,以往大部分人自然不会啃硬骨头,而是排列组合水文章了事。就像当年BERT刚出来的时候,BERT this,BERT that,啥玩意套个BERT然后再改改就发了论文,号称在某个benchmark又提了多少多少点,展示了什么样的insight,但最后实测还不如RoBERTa
老实说,虽然许多博士得以顺利毕业,但反而阻碍了学界的发展
可有了ChatGPT,这些排列组合文章再怎么加trick换benchmark也搞不过ChatGPT了,那么大家的目光才会投到真正需要被解决的问题上来
当然,如果读博是为了功利考虑,那么这几年不建议读NLP的PhD,学界自己估计也在摸索,许多领域都得重新思考到底该研究什么。但如果真正爱好NLP,找个真正有洞见的导师,而非灌水科学家,说不定能开辟新的方向


另外,这种货色都有,知乎真是越来越药丸了。。

http://picx.zhimg.com/v2-6956c47d6f2fd8c68a732a9ff3d9a653_r.jpg?source=1940ef5c

ˇ⒈般啲捣蛋 发表于 2023-10-4 06:58:19

先说结论,nlp人才需求大概率不变,也就是说收人还是会收,但是方向会大大转变。
我做生成式模型有一段时间,也想分享我这段时间的看法:
第一,传统NLP需求大大减少,传统的分类,识别,抽取这种,如果还只会用bert或者类似小模型(1亿参数以下)来做,会一些领域微调,模型上线裁剪啊,这种人大概率找不到工作!
第二,对有大模型部署经验的需求大大提高,超大模型(GPT3,ChatGPT等千亿参数量模型)这些效果确实好,但是实际训练,没几家能训练出,所以怎么去应用超大模型到自己业务中,可以选择去调用APi,可以选择大模型(百亿,十亿)。如何依照业务场景做选择是非常考验人的问题。
第三,对语料数据收集能力,prompt构造能力要求大大提高,其实我在测试文心和GPT3,4发现,与其说是zero-shot,倒不如说是prompt 监督输出!能写代码,能写日记,新闻都是之前微调指令集有,如果没见过,模型只能乱说。所以就和第二结合,怎么将大模型应用到自己业务上,这就需要与业务结合的prompt了!
第四,大模型训练的需求,超大模型的训练国内没几家大厂可以做,但是百亿量级的大模型,我觉得会有井喷的现象,我在测试中发现,百亿模型是可以真正能应用大业务中,而且效果不是很大折扣。如果训练效果好,是可以做成业务上通用模型的。

东方无翼 发表于 2023-10-4 06:59:15

作为一名在NLP领域洗数据、造数据的NLP清洁工,从去年开始迷茫到现在。以前我负责结合业务分文本数据、配合NLP算法工程师制定标注方案,去年ChatGPT出来我就感觉不太秒,原本很多工作已经不需要再做了,比如文本摘要、风格转换,以前那可真是费了姥姥劲去做标注方案、标注、标注分析了,现在不用了,大模型可以做得非常好了。
2月以来,开始转入做各大模型的评测工作,深入了解过如ChatGPT这样的大模型后,有点释然了:大模型其实就是NLP界的高级版Office,都会用office全家桶吧,我感觉以后NLP就跟office的word、excel、ppt之类的一样,除非老古董和文盲,基本都会用,但就使用而言有精通、熟练、用过之分。以prompt作为模型的接口,我们只需关注思维框架,让模型处理细节。在进行NLP标注时,我们需要对业务理解进行系统框架抽象,这是大模型自己无法直接完成的,但在我们给出合适的prompt指令下,大模型就能轻松完成很多工作。举个简单的例子,我想要在某些新闻或商品下控评,我只需要拆解出如何找到评价对象和保持情感态度一致的方法,就可以让大模型帮我完成剩下的工作了;再比如,我无聊剧慌了,但我知道一个剧本的是怎么产生的,所以我可以让大模型帮我写个剧本来自娱自乐。

http://picx.zhimg.com/v2-668a275b4b5f5475c3ca7bfd9e227fea_r.jpg?source=1940ef5c

随便找个新闻让模型生成评论,你可以把它换成外卖商品、淘宝评论,会玩后,我连按时间排序的评论都不信了

http://pic1.zhimg.com/v2-6d8f837595c9835e45ae1069b7196cd5_r.jpg?source=1940ef5c

http://picx.zhimg.com/v2-f83b8b3e8b5f922f858f87938a1d0e03_r.jpg?source=1940ef5c

当我自己会用prompt生成剧本的时候,已经没耐心看知乎的那些小故事了

大模型对NLP算法工程师的影响可能比我这种工种要大一些,对于算法工程师的个人能力、硬件设施和团队水平的要求越来越高。只有那些财大气粗的大公司才能真正掌握这个游戏的规则。模型进化太快了,我上上周做了一个评测分析报告,还没发出去,结果chatgpt4.0出来了、国内百度、智谱模型也更新了,很多工作又重新来搞了一遍,而各大模型在短短数月、乃至数周之内的进化速度真的是让人震惊。这种情况下,如果没有在大厂占坑,小公司、小研究所要怎么搞?NLP算法工程师只能跟在大公司的后面喝点残羹剩饭,或者找准自己的定位,结合业务需求,做一些应用包装的工作。
大模型的出现并不会让NLP从业者失业,它抬高了一些门槛,也打开了一些新的门。在这个大模型的时代,大公司将专注于搭建庞大的技术框架,小公司则可以通过量产细致的应用来发挥自己的优势,个人从业者也可以通过掌握这些大模型,进行一些独立的小修小补工作,发挥自己的价值。大厂织布,小厂量产绣花,个人也能独立搞点小修小补。
如果题主还没有入行太深,建议多掌握点别的技能,如果已经这样了,那就硬着头皮往下走呗,这行还是有很多机会的。
备注:本人比较懒,这个回答由我提供大纲,Chatgpt4.0写完,我稍微修改了一下例子,衔接不当处,请忽视。
页: [1]
查看完整版本: 大语言模型背景下,NLP从业者前景,要换个方向么?