GPT-4 发布后，你的 NLP 研究发生了怎样的变化？

nankong2000 · 发表于 2023-10-25 23:01:31|来自：中国

qijian · 发表于 2023-10-25 23:02:11|来自：中国

开始全面拥抱大模型，虽然目前国内还没到能做出ChatGPT的程度，但是基本来说未来研究方不会跑偏太多。
虽然大模型不是哪个团队都有能力（money）做的，但是一个大领域一定能被细分成无数的小领域，在这些小领域或小分支中做到精尖也是非常牛掰和有价值的，就像一台光刻机，大到光刻技术小到光刻胶，这其中每个细分领域都是一个庞大的产业。大模型一定会有很多细分工作和边角料的工作，不要说核心工作的细分领域自然是有很大的研究价值，就算是边角料的领域也包含了大量数据挖掘、数据治理、模型理论的方面的工作，有很大的研究价值，养活很多团队都是绰绰有余的。
<hr/>其实从ChatGPT-4官网最新的实验报告后面的贡献者们就可以看出来有哪些方面的事要去做了：
https://openai.com/contributions/gpt-4我们来仔细看下ChatGPT/GPT4的具体分工：

从官网给出的信息来看，ChatGPT/GPT4需要以下几个大方面的工作：

预训练（Pretraining）
长上下文（Long context）
视觉（Vision）
强化学习 & 对齐（RL & alignment）
评估 & 分析（Evaluation & analysis）
部署（Deployment）
其他贡献者（Additional）

在每个步骤中又有细分：
预训练部分

模型预训练：最核心的部分，这个不属于边角料。
计算机集群扩展（Compute cluster scaling）、分布式训练基础设施（Distributed training infrastructure）：这个自然不用细说，ChatGPT这么大体量的模型肯定是利用分布式集群来训练的，这里衍生出了很多分布式训练的问题。
数据（Data）：这里会衍生出数据采样、数据选取、数据标注、数据治理、数据库、数据的高效传输和转换、分词等等问题，尤其是数据标注，OpenAI对于数据的关注严格到令人发指，数据标注人员学历均为本科及以上，他们甚至会关注数据标注人员的心理状态和工作成就感。
硬件正确性（Hardware correctness）：这里和NLPer没多大关系。
训练保姆（Training run babysitting）：我还特意去查了下啥叫“训练保姆”，结果无论是百度还是谷歌根本搜不到，看来对大家来说都是个很新颖的概念。个人推测是一个训练监控系统，其职责是用来监控预训练过程中的指标，以及某个节点如果train挂了，可以依靠这个保姆自动恢复checkpoint，并且自动恢复训练，这块估计也是有研究潜力的地方。

长上下文部分

长上下文研究（Long context research）、长上下文内核（Long context kernels）：NLPer不陌生，可以当作长期研究方向来探索。

视觉部分

架构研究（Architecture research）这个我觉得可以作为一个非常重要的方向去研究，毕竟这个方面搞好了可以在不同领域通吃。
计算机集群扩展（Compute cluster scaling）、分布式训练基础设施（Distributed training infrastructure）、硬件正确性（Hardware correctness）：同上
数据（Data）：同上
对齐数据（Alignment Data）：数据对齐也是老生常谈了，但是chatGPT的对齐有着近乎变态的严格要求，因此可以在这方面搞些高效工具和算法。
Training run babysitting：同上
部署 & 后训练（Deployment & post-training）：部署也是值得研究的一个方向，我司就有很多部署算法工程师

强化学习 & 对齐部分

数据集贡献（Dataset contributions）
数据基础设施（Data infrastructure）
ChatML 格式（ChatML format）
模型安全（Model safety）：这个是OpenAI团队花大力气去搞的工作，其实对于国内的NLP工作者来说，可以是下一个比较核心的研究方向，因为就算是ChatGPT这一点也没有做到多优秀。
Refusals
基础 RLHF 和 InstructGPT 工作（Foundational RLHF and InstructGPT work）：ChatGPT的核心工作之一。
Flagship training runs
代码功能（Code capability）：ChatGPT的代码能力有目共睹，这是因为其中有部分工作专门针对代码生成展开，这部分甚至可以专门成为一个深入研究的方向。

评估 & 分析部分

OpenAI Evals 库，这个库非常建议大家用起来。
模型等级评估基础设施（Model-graded evaluation infrastructure）
加速预测（Acceleration forecasting）：非常重要的研究点
ChatGPT 评估
能力评估（Capability evaluations）
编码评估（Coding evaluations）：这个我觉得有可能是未来比较大的一个改进点，毕竟现在ChatGPT写业务代码bug率还是挺高的。
真实世界用例评估（Real-world use case evaluations）
污染调查（Contamination investigations）：同上数据治理和模型安全部分，个人估计是未来的重点。
指令遵循和 API 评估（Instruction following and API evals）
新功能评估（Novel capability discovery）

sonycn01 · 发表于 2023-10-25 23:02:16|来自：中国

NLP已经死了

NLP社区可以大致分为两个group: 一种是相信AGI的，一种是不相信的。
对于前者来说，LLM的兴起当然是极其令人兴奋的。之前的NLP模型对他们来说基本全是玩具，而LLM才是通往AGI的正确道路。他们会高呼生在这个时代极其幸运，并且all in LLM research。这无疑是正确的方向之一，如果你对LLM有兴趣，野心和激情，那么all in LLM也是一个很不错的选择（如果有计算资源）。我摘录一些dalao对LLM未来研究的建议（侵删）仅供参考：

某dalao的建议

某LLM教父的twitter

可是对我来说，（API-driven or prompt-driven or ..） LLM research只能让我感到无聊，并不能让我感到兴奋，所以我润ML了，非必要不投*ACL（NLP润ML人快来私戳，乐）。（Update：润了，但没完全润，还是准备做点scale up一些非attention架构的work的）

我属于第一类

后者的很多人应该像我一样对LLM的research感到无聊，毕竟整个学科在越来越工程化。如果还打算继续留下来做NLP research的，就需要好好想想如何说服自己，自己做的研究是有意义的。毕竟骗审稿人容易，骗自己难，做自己都认为没价值的research还有什么乐趣呢？在LLM的边边角角继续打不痛不痒的补丁，然后被GPT的下一个版本薄纱，那这样，存在主义危机 (existential crisis) 就会像幽灵一样阴魂不散。
因为我是做Parsing的，所以我很早之前就体会到现在许多人才体会到的心情（See 为什么研究NLP句法分析的人不多？ - sonta的回答 - 知乎 https://www.zhihu.com/question/489981289/answer/2148458380) 。就算没有LLM，在其他的比较强的神经网络里面，句法信息也是可有可无的。所以单纯做句法这个方向从实用的角度来看基本上可以说是毫无意义的，跟现在在LLM时代做其他NLP任务一样。那么我是如何说服自己做的呢？那当然是好玩。Parsing argubly是NLP最有意思的方向（从算法的好玩的角度来看）。现在的Parsing track已经大约有一半的work干脆实验都不做了，直接纯理论分析向（感谢Jason Eisner, Ryan Cotterell），就讲究一个好玩，乐。Parsing这种偏理论的方向至少还能玩玩理论，那么其他更加应用的方向呢？我不知道。反正我感觉没啥好做的。
举Parsing的例子主要是想说，Parsing领域的今天就是很多NLP子领域的明天。NLP很多dalao都是做Parsing起家，那他们为什么现在不做了呢？因为Parsing is almost solved，他们当然转向了其他更有前景的，unsolved的NLP子方向。而如今在LLM时代，NLP整个领域面临solved，很多中间任务几乎没有存在的价值，
ChatGPT 印证了模型大一统的可行性，这在未来五年会对 NLP 从业者带来怎样的冲击？张俊林：通向AGI之路：大型语言模型（LLM）技术精要甚至直接面向应用（e.g. 翻译润色纠错 etc）的任务都面临直接被GPT系列薄纱的危机，那么小润润parsing，大润或许可以考虑润出做纯NLP的research，例如跟我一样润ML，或者做一些NLP与其他学科的交叉，

当然，你也可以跟着Neubig一起去做保护环境（狗头

Eric_H · 发表于 2023-10-25 23:02:53|来自：中国

没在名校强组，资源有限，在读博一，有点49年入国军的感觉了，能够感觉到这是AI时代，（巨头公司/机构）大有可为，但和我没什么关系了。大概在接下来的几个月一两年内能够看到大模型显著地改变无数人的生活、工作，创造出巨量的价值，明明我就在做相关的研究，但我不仅没法参与到这一切中，甚至还让自己原有的努力作废。
本来找了个ACL22的新数据集，加点ICLR、ICML里学到最新的trick，投个C会练练手。好巧不巧是个文本生成任务，看了下自己用的BART-base（别问，问就是large跑不起来），再看了下ChatGPT和GPT-4生成的结果，思考了一下午我的工作意义在哪里，怎么编出来意义，我已经想到审稿人在说：“糊弄的结果骗骗哥们儿可以，哥们打个哈哈就给你reject了，别真把自己骗了以为做的那坨东西就有意义了”。想了一下午，感觉或许能强行挽尊比GPT-3.5有限地强点，至于ChatGPT和GPT-4，无能为力。如果我的模型能胜出那只能是因为prompt没选好。
毕竟还是需要发故事会达到毕业要求的，可以遇见未来只能试着去啃一啃大模型懒得去关注的边边角角，讲一两个自己都不相信的科幻故事，换个文凭。
##############################################
update：
看了下评论大伙评论的一些观点：
1.快润：小润交叉学科，大润跨学科，超大润直接退学。感觉如果是硕士生还是硬着头皮做下去毕业就行。答主自己打算趁着最后一点时间，努力把手头做的工作投出去，之后无论是实习还是交换都会有底气一些。目前来看组里面也比较迷茫，不是很确定接下来做什么。大概率是去做NLP应用到某个具体领域（结合做的工程项目），但这样的交叉领域能不能让组里的大伙毕业完全不好说。
2.做LLM相关工作/api-driven的科研：可能这样的工作手快发几篇论文或者混个硕士毕业没问题，但是很难攒成一个博士毕业要求大论文的工作，大概率在开题之后的半年到一年，之前的工作就被新的LLM薄纱了，除了极少数有资源的博士生之外，很难专门去做LLM相关工作。

asdsf · 发表于 2023-10-25 23:03:08|来自：中国

NLP community is broken
在过去，研究的意义是前瞻、指导应用发展。但如今 NLP 的学术研究已经跟不上工业界的进步，用有限资源做出的 toy 在两三个月的审稿周期后就已被淘汰。现在群魔乱舞的 peer-review 也无法有效评估和引导研究的价值，rebuttal、recycle 只会进一步浪费时间
一个越多被提及的说法是「ACL 系列会议爱收精致的垃圾」。NLP community 在历史的惯性逐步衰减后可能会迎来凋亡，或者成为圈地自萌的娱乐场

imac888 · 发表于 2023-10-25 23:03:40|来自：中国

谢邀。
其实我觉得反而是好事。最近关注ACL评分的风波，听到一句话觉得很有道理，大概说的是这个系列的会总是在收一些精致的垃圾。现在GPT-4来了，这些精致货色一个都别想活，你再也不敢叫嚣sota，因为你只有被gpt4薄纱的份儿。我说个极端的话，之前大家能做所谓research，无非就是靠的菜鸡互啄罢了。今天出现一个真的大哥，且它还火了，大家都得歇菜。
那接下来，我大胆做点预测吧。一是基于api的研究会越来越多，比如你们推崇的CoT。我其实个人是喜欢这类研究的，比如我觉得self instruct就是贼出色的工作，给人以启发。我是觉得，大模型时代，没必要觉得自己用api面子挂不住。只要你研究的问题足够有价值，那就坚持做下去呗，想那么多干嘛。我反而觉得现在强大的工具这么多，反而能衍生出很多很有趣的研究，只不过相对会更卷，毕竟计算机专业的同学不一定会有优势了。二是我预测开源社区会更热闹。gpt4并非包治百病，很多人还是需要定制模型，那就会有更多开源版本的的gpt4出现，正如gpt3时代我们迎来了这么多没啥创新的的复刻llm。那我相信，有了开源版本的gpt4，尽管差点效果，但可能能带来更多新玩法。

[编程开发] GPT-4 发布后，你的 NLP 研究发生了怎样的变化？

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家