电脑问答:这篇究极讽刺的文章一出，NLP无了-今日问答

hnlzc 发表于 2023-10-4 06:51:57

这篇究极讽刺的文章一出，NLP无了

在测试集上预训练？这听起来似乎有点不合常规，但别急，继续往下看！
深度学习自然语言处理公众号
作者：Winnie
http://pic4.zhimg.com/v2-ae2d1fb0caa459249e4277dd95e0bc4b_r.jpg
Paper: Pretraining on the Test Set Is All You Need
Link: https://arxiv.org/pdf/2309.08632.pdf
文章以一项大胆的实验为开端，作者创造了一个高质量的数据集，然而，这个数据集并非来自于人为合成，而是源自huggingface上的众多评估基准数据。
借助这一数据集完成了一个基于 Transformer 的语言模型的预训练，这个模型被命名为 phi-CTNL（发音为“fictional”）。
令人惊讶的是，phi-CTNL 在各类学术基准测试中表现得相当完美，胜过了所有已知的模型。
该研究还发现，phi-CTNL 在预训练计算方面超越了神秘的幂律扩展法则。随着训练轮次的增加，它的性能快速趋近于零。

http://pic3.zhimg.com/v2-a0a2b565e0d80fc2682075a6983e2736_r.jpg
此外，phi-CTNL 似乎具备某种超自然的理解能力。在学习过程中，它能够快速而准确地预测下游评估的指标。

http://pic1.zhimg.com/v2-be1cb1467b30837c9fd7ff79cc78c44c_b.jpg
是的，这篇文章可不是在搞笑，而是要讽刺那些以前不知道眼前有坑的学术研究。
作者认为，尽管评估和基准测试对于语言模型的发展至关重要，但这个领域经常受到夸夸其谈的宣传，却忽视了数据污染的潜在风险。
作者甚至含蓄地点名了一些模型，例如 phi-1、TinyStories 和 phi-1.5。告诫我们，不要相信任何一个没有隔离数据污染的LLM模型。
这些模型做错了什么呢？
一个在推上测试Phi-1.5的例子引发了众多讨论。例如，如果你截断下图这个问题并输入给Phi-1.5，它会自动完成为计算第三个月的下载数量，并且回答是正确的。

http://pic4.zhimg.com/v2-de703f298ec924d915bad063a87212af_r.jpg
稍微改变一下数字，它也会正确回答。

http://pic1.zhimg.com/v2-a71a65a175b878f7f82a5d4f34da1aac_r.jpg
但是一旦你变换格式，它就会完全出错。（这里的格式变化是保留了提示中的所有 '\n'。）

http://pic1.zhimg.com/v2-c611da7bc9c37634264932039aef78e8_r.jpg

另一个例子是一个关于苹果的数学计算问题，phi模型最初可以正确回答问题。

http://pic3.zhimg.com/v2-0755c46c25327efd7d1294ebe64a29ae_r.jpg
然而，一旦我们改变其中的一个数字，例如从8.5改成7.5，模型会开始出现幻觉现象。

http://pic4.zhimg.com/v2-9c38d50d61c6f26d331d2690db62c753_r.jpg
为了检查2这个数字有没有被记忆，我们可以把pizza的价格改成10.5.但是phd依然继续输出2（应该为1）。

http://pic1.zhimg.com/v2-0dd20b39875bc2797ea22de598e7fcb0_r.jpg
基于这些发现，研究人员认为Phi-1.5模型的数据污染问题很严重。
通过以不合常规的方式预训练模型，这篇文章提醒我们强调了数据污染的危险性。告诫我们，不要相信任何一个没有隔离数据污染的LLM模型。
<hr/>关注zenRRan，可以快速了解到最新优质的NLP前沿技术和相关论文~
点击进入——>微信NLP技术交流群（加微：DLNLPer，备注昵称-学校or公司-研究方向）
历史文章

UnIVAL：第一个支持图像、视频、音频和文本任务的大一统模型！
陈丹琦重新定义了文本相似性问题，提出C-STS，GPT-4也不能很好解决
刘知远等众多机构提出ToolLLM：促进大型语言模型掌握16000+真实世界的APIs
LLM时代NLP研究何去何从？一个博士生的角度出发
基础模型定义视觉新时代：综述与展望
斯坦福+南洋理工等五大机构对ChatGPT做了在NLP任务上的优劣势的详细分析
AAAI2023 | 百度+中科院提出USM：一种信息抽取的大一统方法

lbeminy 发表于 2023-10-4 06:52:37

这篇不是喷phi的整活文章吗[大笑]

zhaoxiaoning 发表于 2023-10-4 06:53:36

然而不是只有phi是这样

hk640509 发表于 2023-10-4 06:53:53

模型看来只是记住了答案，就是那最后的数字，而中间的推理过程也有问题，模型看来只知道最后输出什么是正确的

blair 发表于 2023-10-4 06:54:10

没看懂，意思是真的拿测试集来做训练？等于直接开卷考试了？

十月￠潴潴 发表于 2023-10-4 06:54:54

论相关性与因果性

txsj 发表于 2023-10-4 06:55:06

对未公开答案的测试集还可能用人现答一份然后扔进训练集

dermot 发表于 2023-10-4 06:55:25

怎么看怎么像是过拟合了，训练数学问题的时候应该临场生成训练集里面的数字

页: [1]

今日问答's Archiver

这篇究极讽刺的文章一出，NLP无了