这篇究极讽刺的文章一出，NLP无了

hnlzc · 发表于 2023-10-4 06:51:57|来自：北京

在测试集上预训练？这听起来似乎有点不合常规，但别急，继续往下看！

深度学习自然语言处理公众号
作者：Winnie

Paper: Pretraining on the Test Set Is All You Need
Link: https://arxiv.org/pdf/2309.08632.pdf
文章以一项大胆的实验为开端，作者创造了一个高质量的数据集，然而，这个数据集并非来自于人为合成，而是源自huggingface上的众多评估基准数据。
借助这一数据集完成了一个基于 Transformer 的语言模型的预训练，这个模型被命名为 phi-CTNL（发音为“fictional”）。
令人惊讶的是，phi-CTNL 在各类学术基准测试中表现得相当完美，胜过了所有已知的模型。
该研究还发现，phi-CTNL 在预训练计算方面超越了神秘的幂律扩展法则。随着训练轮次的增加，它的性能快速趋近于零。

此外，phi-CTNL 似乎具备某种超自然的理解能力。在学习过程中，它能够快速而准确地预测下游评估的指标。

是的，这篇文章可不是在搞笑，而是要讽刺那些以前不知道眼前有坑的学术研究。
作者认为，尽管评估和基准测试对于语言模型的发展至关重要，但这个领域经常受到夸夸其谈的宣传，却忽视了数据污染的潜在风险。
作者甚至含蓄地点名了一些模型，例如 phi-1、TinyStories 和 phi-1.5。告诫我们，不要相信任何一个没有隔离数据污染的LLM模型。
这些模型做错了什么呢？
一个在推上测试Phi-1.5的例子引发了众多讨论。例如，如果你截断下图这个问题并输入给Phi-1.5，它会自动完成为计算第三个月的下载数量，并且回答是正确的。

稍微改变一下数字，它也会正确回答。

但是一旦你变换格式，它就会完全出错。（这里的格式变化是保留了提示中的所有 '\n'。）

另一个例子是一个关于苹果的数学计算问题，phi模型最初可以正确回答问题。

然而，一旦我们改变其中的一个数字，例如从8.5改成7.5，模型会开始出现幻觉现象。

为了检查2这个数字有没有被记忆，我们可以把pizza的价格改成10.5.但是phd依然继续输出2（应该为1）。

基于这些发现，研究人员认为Phi-1.5模型的数据污染问题很严重。
通过以不合常规的方式预训练模型，这篇文章提醒我们强调了数据污染的危险性。告诫我们，不要相信任何一个没有隔离数据污染的LLM模型。
<hr/>关注zenRRan，可以快速了解到最新优质的NLP前沿技术和相关论文~
点击进入——>微信NLP技术交流群（加微：DLNLPer，备注昵称-学校or公司-研究方向）
历史文章

UnIVAL：第一个支持图像、视频、音频和文本任务的大一统模型！
陈丹琦重新定义了文本相似性问题，提出C-STS，GPT-4也不能很好解决
刘知远等众多机构提出ToolLLM：促进大型语言模型掌握16000+真实世界的APIs
LLM时代NLP研究何去何从？一个博士生的角度出发
基础模型定义视觉新时代：综述与展望
斯坦福+南洋理工等五大机构对ChatGPT做了在NLP任务上的优劣势的详细分析
AAAI2023 | 百度+中科院提出USM：一种信息抽取的大一统方法

lbeminy · 发表于 2023-10-4 06:52:37|来自：北京

这篇不是喷phi的整活文章吗[大笑]

zhaoxiaoning · 发表于 2023-10-4 06:53:36|来自：北京

然而不是只有phi是这样

hk640509 · 发表于 2023-10-4 06:53:53|来自：北京

模型看来只是记住了答案，就是那最后的数字，而中间的推理过程也有问题，模型看来只知道最后输出什么是正确的

blair · 发表于 2023-10-4 06:54:10|来自：北京

没看懂，意思是真的拿测试集来做训练？等于直接开卷考试了？

十月￠潴潴 · 发表于 2023-10-4 06:54:54|来自：北京

论相关性与因果性

txsj · 发表于 2023-10-4 06:55:06|来自：北京

对未公开答案的测试集还可能用人现答一份然后扔进训练集

dermot · 发表于 2023-10-4 06:55:25|来自：北京

怎么看怎么像是过拟合了，训练数学问题的时候应该临场生成训练集里面的数字

[编程开发] 这篇究极讽刺的文章一出，NLP无了

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家