hnlzc 发表于 2023-10-4 06:51:57

这篇究极讽刺的文章一出,NLP无了

在测试集上预训练?这听起来似乎有点不合常规,但别急,继续往下看!
深度学习自然语言处理 公众号
作者:Winnie
http://pic4.zhimg.com/v2-ae2d1fb0caa459249e4277dd95e0bc4b_r.jpg
Paper: Pretraining on the Test Set Is All You Need
Link: https://arxiv.org/pdf/2309.08632.pdf
文章以一项大胆的实验为开端,作者创造了一个高质量的数据集,然而,这个数据集并非来自于人为合成,而是源自huggingface上的众多评估基准数据 。
借助这一数据集完成了一个基于 Transformer 的语言模型的预训练,这个模型被命名为 phi-CTNL(发音为“fictional”)。
令人惊讶的是,phi-CTNL 在各类学术基准测试中表现得相当完美,胜过了所有已知的模型。
该研究还发现,phi-CTNL 在预训练计算方面超越了神秘的幂律扩展法则。随着训练轮次的增加,它的性能快速趋近于零。

http://pic3.zhimg.com/v2-a0a2b565e0d80fc2682075a6983e2736_r.jpg
此外,phi-CTNL 似乎具备某种超自然的理解能力。在学习过程中,它能够快速而准确地预测下游评估的指标。

http://pic1.zhimg.com/v2-be1cb1467b30837c9fd7ff79cc78c44c_b.jpg
是的,这篇文章可不是在搞笑,而是要讽刺那些以前不知道眼前有坑的学术研究。
作者认为,尽管评估和基准测试对于语言模型的发展至关重要,但这个领域经常受到夸夸其谈的宣传,却忽视了数据污染的潜在风险。
作者甚至含蓄地点名了一些模型,例如 phi-1、TinyStories 和 phi-1.5。告诫我们,不要相信任何一个没有隔离数据污染的LLM模型。
这些模型做错了什么呢?
一个在推上测试Phi-1.5的例子引发了众多讨论。例如,如果你截断下图这个问题并输入给Phi-1.5,它会自动完成为计算第三个月的下载数量,并且回答是正确的。

http://pic4.zhimg.com/v2-de703f298ec924d915bad063a87212af_r.jpg
稍微改变一下数字,它也会正确回答。

http://pic1.zhimg.com/v2-a71a65a175b878f7f82a5d4f34da1aac_r.jpg
但是一旦你变换格式,它就会完全出错。(这里的格式变化是保留了提示中的所有 '\n'。)

http://pic1.zhimg.com/v2-c611da7bc9c37634264932039aef78e8_r.jpg

另一个例子是一个关于苹果的数学计算问题,phi模型最初可以正确回答问题。

http://pic3.zhimg.com/v2-0755c46c25327efd7d1294ebe64a29ae_r.jpg
然而,一旦我们改变其中的一个数字,例如从8.5改成7.5,模型会开始出现幻觉现象。

http://pic4.zhimg.com/v2-9c38d50d61c6f26d331d2690db62c753_r.jpg
为了检查2这个数字有没有被记忆,我们可以把pizza的价格改成10.5.但是phd依然继续输出2(应该为1)。

http://pic1.zhimg.com/v2-0dd20b39875bc2797ea22de598e7fcb0_r.jpg
基于这些发现,研究人员认为Phi-1.5模型的数据污染问题很严重。
通过以不合常规的方式预训练模型,这篇文章提醒我们强调了数据污染的危险性。告诫我们,不要相信任何一个没有隔离数据污染的LLM模型。
<hr/>关注zenRRan,可以快速了解到最新优质的NLP前沿技术和相关论文~
点击进入——>微信NLP技术交流群(加微:DLNLPer,备注 昵称-学校or公司-研究方向)
历史文章

UnIVAL:第一个支持图像、视频、音频和文本任务的大一统模型!
陈丹琦重新定义了文本相似性问题,提出C-STS,GPT-4也不能很好解决
刘知远等众多机构提出ToolLLM:促进大型语言模型掌握16000+真实世界的APIs
LLM时代NLP研究何去何从?一个博士生的角度出发
基础模型定义视觉新时代:综述与展望
斯坦福+南洋理工等五大机构对ChatGPT做了在NLP任务上的优劣势的详细分析
AAAI2023 | 百度+中科院提出USM:一种信息抽取的大一统方法

lbeminy 发表于 2023-10-4 06:52:37

这篇不是喷phi的整活文章吗[大笑]

zhaoxiaoning 发表于 2023-10-4 06:53:36

然而不是只有phi是这样

hk640509 发表于 2023-10-4 06:53:53

模型看来只是记住了答案,就是那最后的数字,而中间的推理过程也有问题,模型看来只知道最后输出什么是正确的

blair 发表于 2023-10-4 06:54:10

没看懂,意思是真的拿测试集来做训练?等于直接开卷考试了?

十月¢潴潴 发表于 2023-10-4 06:54:54

论相关性与因果性

txsj 发表于 2023-10-4 06:55:06

对未公开答案的测试集还可能用人现答一份然后扔进训练集

dermot 发表于 2023-10-4 06:55:25

怎么看怎么像是过拟合了,训练数学问题的时候应该临场生成训练集里面的数字
页: [1]
查看完整版本: 这篇究极讽刺的文章一出,NLP无了