1)ChatGPT / GPT1/2/3均属于autoregressive (AR) language model , 对应另一个比较出名的是BERT这种类型的autoencoding (AE) language model. 对于一个sequence AR language model的pretraining / self-supervised learning模式是 . 本质上这是一个parametric density estimation over the space of all possible sequences. 在以往的GPT3这种模型当中,这种density estimation方法会有一些问题,比如训练后的模型会有一些行为,比如 特别大,或者 . 这个坑一直是个很重要的问题,也有很多解决这个坑的方法,但ChatGPT出来以后,这个坑可能被填了(指tricks没用了),但是理解AR模型的这种probability leakage还是一个潜力无限的方向。
2)最近的RLHF, Instruction Tuning, Chain of Thoughts都是很实用很好的工作,但一切的ChatGPT的魔力来自于这个AR objective, 这一点一直没有变,这些也都是一些很有用的tricks
2)基于AR objective, probabilistic generative modeling领域已经进入了scaling law的supra-Moore Law时代,两节分化越来越严重,普通NLP从业者无法对抗big tech和明星startup的计算资源与数据,短期内NLP领域如果没有新的更根本性的ideas,这个分化只会越来越严重
Reference:
https://arxiv.org/pdf/1906.08237.pdf
--------------原回答----------------
认识的组都在开紧急会议,商讨哪些东西还可以做,哪些估计不要再浪费时间做了 |