电脑问答:目前研一，在nlp课题组，只想毕业。请问一下nlp中哪个方向比较好发论文？-今日问答

qijian 发表于 2023-10-30 12:11:37

目前研一，在nlp课题组，只想毕业。请问一下nlp中哪个方向比较好发论文？

lovefox 发表于 2023-10-30 12:11:49

关注一些比较general的问题。像：现在随着LLMs越来越和实际应用接轨，做evaluation相关的topic，像BIG-bench，Holistic Eveluation of Language Models是可以了解了解；scale-law也是我认为一个很promising的topic，去探索模型规模大小和实际其在不同downstream任务上的能力，也挺主要的我感觉

东方无翼 发表于 2023-10-30 12:12:27

http://pic1.zhimg.com/v2-1bb258cd2a6533507537eb46f0fe7c85_r.jpg?source=1940ef5c

lanny98801 发表于 2023-10-30 12:13:00

km1994/nlp_paper_study【关于预训练模型】那些的你不知道的事

[*]【关于Bert】那些的你不知道的事：Bert论文研读

[*]【关于Bert】那些的你不知道的事

[*]阅读理由：NLP 的创世之作
[*]动机：word2vec 的多义词问题 && GPT 单向 Transformer && Elmo 双向LSTM
[*]介绍：Transformer的双向编码器
[*]思路：

[*]预训练：Task 1：Masked LM && Task 2：Next Sentence Prediction
[*]微调：直接利用特定任务数据微调

[*]优点：NLP 所有任务上都刷了一遍 SOTA
[*]缺点：

[*]预训练和微调之间的不匹配
[*]Max Len 为 512

[*]【关于SpanBert】那些的你不知道的事

[*]论文：SpanBERT: Improving Pre-training by Representing and Predicting Spans
[*]论文地址：https://arxiv.org/abs/1907.10529
[*]github：https://github.com/facebookresearch/SpanBERT
[*]动机：旨在更好地表示和预测文本的 span;
[*]论文方法->扩展了BERT：

[*]（1）屏蔽连续的随机 span，而不是随机标记；
[*]（2）训练 span 边界表示来预测屏蔽 span 的整个内容，而不依赖其中的单个标记表示。

[*]【关于 XLNet 】那些你不知道的事

[*]阅读理由：Bert 问题上的改进
[*]动机：

[*]Bert 预训练和微调之间的不匹配
[*]Bert 的 Max Len 为 512

[*]介绍：广义自回归预训练方法
[*]思路：

[*]预训练：

[*]Permutation Language Modeling【解决Bert 预训练和微调之间的不匹配】
[*]Two-Stream Self-Attention for Target-Aware Representations【解决PLM出现的目标预测歧义】
[*]XLNet将最先进的自回归模型Transformer-XL的思想整合到预训练中【解决 Bert 的 Max Len 为 512】

[*]微调：直接利用特定任务数据微调

[*]优点：
[*]缺点：

[*]【关于 RoBERTa】那些你不知道的事

[*]阅读理由：Bert 问题上的改进
[*]动机：

[*]确定方法的哪些方面贡献最大可能是具有挑战性的
[*]训练在计算上是昂贵的的，限制了可能完成的调整量

[*]介绍：A Robustly Optimized BERT Pretraining Approach
[*]思路：

[*]预训练：

[*]去掉下一句预测(NSP)任务
[*]动态掩码
[*]文本编码

[*]微调：直接利用特定任务数据微调

[*]优点：
[*]缺点：

[*]【关于 ELECTRA 】那些的你不知道的事

[*]阅读理由：Bert 问题上的改进【不推荐阅读，存在注水！】
[*]动机：

[*]只有15%的输入上是会有loss

[*]介绍：判别器 & 生成器【但是最后发现非判别器 & 生成器】
[*]思路：

[*]预训练：

[*]利用一个基于MLM的Generator来替换example中的某些个token，然后丢给Discriminator来判别

[*]微调：直接利用特定任务数据微调

[*]优点：
[*]缺点：

[*]【关于 Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT】那些你不知道的事

[*]论文链接：https://arxiv.org/pdf/2004.14786.pdf
[*]代码链接：https://github.com/bojone/perturbed_masking
[*]动机

[*]通过引入少量的附加参数，probe learns 在监督方式中使用特征表示（例如，上下文嵌入）来解决特定的语言任务（例如，依赖解析）。这样的probe tasks 的有效性被视为预训练模型编码语言知识的证据。但是，这种评估语言模型的方法会因 probe 本身所学知识量的不确定性而受到破坏

[*]Perturbed Masking

[*]介绍：parameter-free probing technique
[*]目标：analyze and interpret pre-trained models，测量一个单词xj对预测另一个单词xi的影响，然后从该单词间信息中得出全局语言属性（例如，依赖树）。

[*]整体思想很直接，句法结构，其实本质上描述的是词和词之间的某种关系，如果我们能从BERT当中拿到词和词之间相互“作用”的信息，就能利用一些算法解析出句法结构。

[*]【关于 GRAPH-BERT】那些你不知道的事)

[*]论文名称：GRAPH-BERT: Only Attention is Needed for Learning Graph Representations
[*]论文地址：https://arxiv.org/abs/2001.05140
[*]论文代码：https://github.com/jwzhanggy/Graph-Bert
[*]动机

[*]传统的GNN技术问题：

[*]模型做深会存在suspended animation和over smoothing的问题。
[*]由于 graph 中每个结点相互连接的性质，一般都是丢进去一个完整的graph给他训练而很难用batch去并行化。

[*]方法：提出一种新的图神经网络模型GRAPH-BERT (Graph based BERT)，该模型只依赖于注意力机制，不涉及任何的图卷积和聚合操作。Graph-Bert 将原始图采样为多个子图，并且只利用attention机制在子图上进行表征学习，而不考虑子图中的边信息。因此Graph-Bert可以解决上面提到的传统GNN具有的性能问题和效率问题。

[*]【关于自训练 + 预训练 = 更好的自然语言理解模型】那些的你不知道的事)

[*]论文标题：Self-training Improves Pre-training for Natural Language Understanding
[*]论文地址：https://arxiv.org/abs/2010.02194
[*]动机

[*]问题一: do pre-training and self-training capture the same information, or are they complementary?
[*]问题二: how can we obtain large amounts of unannotated data from specific domains?

[*]方法

[*]问题二解决方法：提出 SentAugment 方法从 web 上获取有用数据；
[*]问题一解决方法：使用标记的任务数据训练一个 teacher 模型，然后用它对检索到的未标注句子进行标注，并基于这个合成数据集训练最终的模型。

[*]【关于 Bert 模型压缩】那些你不知道的事

[*]【关于 Bert 模型压缩】那些你不知道的事

[*]阅读理由：Bert 在工程上问题上的改进
[*]动机：

[*]内存占用；
[*]功耗过高；
[*]带来很高的延迟；
[*]限制了 Bert 系列模型在移动和物联网等嵌入式设备上的部署；

[*]介绍：BERT 瘦身来提升速度
[*]模型压缩思路：

[*]低秩因式分解：在输入层和输出层使用嵌入大小远小于原生Bert的嵌入大小，再使用简单的映射矩阵使得输入层的输出或者最后一层隐藏层的输出可以通过映射矩阵输入到第一层的隐藏层或者输出层；
[*]跨层参数共享：隐藏层中的每一层都使用相同的参数，用多种方式共享参数，例如只共享每层的前馈网络参数或者只共享每层的注意力子层参数。默认情况是共享每层的所有参数；
[*]剪枝：剪掉多余的连接、多余的注意力头、甚至LayerDrop直接砍掉一半Transformer层
[*]量化：把FP32改成FP16或者INT8；
[*]蒸馏：用一个学生模型来学习大模型的知识，不仅要学logits，还要学attention score；

[*]优点：BERT 瘦身来提升速度
[*]缺点：

[*]精度的下降
[*]低秩因式分解 and 跨层参数共享计算量并没有下降；
[*]剪枝会直接降低模型的拟合能力；
[*]量化虽然有提升但也有瓶颈；
[*]蒸馏的不确定性最大，很难预知你的BERT教出来怎样的学生；

[*]【关于 Distilling Task-Specific Knowledge from BERT into Simple Neural Networks】那些你不知道的事

[*]动机：

[*]随着 BERT 的横空出世，意味着上一代用于语言理解的较浅的神经网络（RNN、CNN等）的过时？
[*]BERT模型是真的大，计算起来太慢了？
[*]是否可以将BERT（一种最先进的语言表示模型）中的知识提取到一个单层BiLSTM 或 TextCNN 中？

[*]思路：

[*]确定 Teacher 模型（Bert）和 Student 模型（TextCNN、TextRNN）;
[*]蒸馏的两个过程：
[*]第一，在目标函数附加logits回归部分；
[*]第二，构建迁移数据集，从而增加了训练集，可以更有效地进行知识迁移。

[*]【关于 AlBert 】那些你不知道的事
[*]模型压缩方法：低秩因式分解 + 跨层参数共享
[*]模型压缩方法介绍：

[*]低秩因式分解：

[*]动机：Bert的参数量大部分集中于模型的隐藏层架构上，在嵌入层中只有30,000词块，其所占据的参数量只占据整个模型参数量的小部分；
[*]方法：将输入层和输出层的权重矩阵分解为两个更小的参数矩阵；
[*]思路：在输入层和输出层使用嵌入大小远小于原生Bert的嵌入大小，再使用简单的映射矩阵使得输入层的输出或者最后一层隐藏层的输出可以通过映射矩阵输入到第一层的隐藏层或者输出层；
[*]优点：在不显著增加词嵌入大小的情况下能够更容易增加隐藏层大小；

[*]参数共享【跨层参数共享】：

[*]动机：隐藏层参数大小一致；
[*]方法：隐藏层中的每一层都使用相同的参数，用多种方式共享参数，例如只共享每层的前馈网络参数或者只共享每层的注意力子层参数。默认情况是共享每层的所有参数；
[*]优点：防止参数随着网络深度的增加而增大；

[*]其他改进策略：

[*]句子顺序预测损失(SOP)代替Bert中的下一句预测损失(NSP)：

[*]动机：通过实验证明，Bert中的下一句预测损失(NSP) 作用不大；
[*]介绍：用预测两个句子是否连续出现在原文中替换为两个连续的句子是正序或是逆序，用于进一步提高下游任务的表现

[*]优点：参数量上有所降低；
[*]缺点：其加速指标仅展示了训练过程，由于ALBERT的隐藏层架构采用跨层参数共享策略并未减少训练过程的计算量，加速效果更多来源于低维的嵌入层；
[*]【关于 FastBERT】那些你不知道的事
[*]模型压缩方法：知识蒸馏
[*]模型压缩方法介绍：

[*]样本自适应机制（Sample-wise adaptive mechanism）

[*]思路：
[*]在每层Transformer后都去预测样本标签，如果某样本预测结果的置信度很高，就不用继续计算了，就是自适应调整每个样本的计算量，容易的样本通过一两层就可以预测出来，较难的样本则需要走完全程。
[*]操作：
[*]给每层后面接一个分类器，毕竟分类器比Transformer需要的成本小多了

[*]自蒸馏（Self-distillation）

[*]思路：
[*]在预训练和精调阶段都只更新主干参数；
[*]精调完后freeze主干参数，用分支分类器（图中的student）蒸馏主干分类器（图中的teacher）的概率分布
[*]优点：
[*]非蒸馏的结果没有蒸馏要好
[*]不再依赖于标注数据。蒸馏的效果可以通过源源不断的无标签数据来提升

[*]【关于 distilbert】那些你不知道的事
[*]【关于 TinyBert】那些你不知道的事
[*]模型压缩方法：知识蒸馏
[*]tinybert的创新点：学习了teacher Bert中更多的层数的特征表示；
[*]模型压缩方法介绍：

[*]基于transformer的知识蒸馏模型压缩

[*]学习了teacher Bert中更多的层数的特征表示；
[*]特征表示：
[*]词向量层的输出；
[*]Transformer layer的输出以及注意力矩阵；
[*]预测层输出(仅在微调阶段使用)；

[*]bert知识蒸馏的过程

[*]左图：整体概括了知识蒸馏的过程
[*]左边：Teacher BERT；
[*]右边：Student TinyBERT
[*]目标：将Teacher BERT学习到的知识迁移到TinyBERT中
[*]右图：描述了知识迁移的细节；
[*]在训练过程中选用Teacher BERT中每一层transformer layer的attention矩阵和输出作为监督信息

[*]【关于 Perturbed Masking】那些你不知道的事
[*]论文：Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT
[*]论文链接：https://arxiv.org/pdf/2004.14786.pdf
[*]代码链接：https://github.com/bojone/perturbed_masking
[*]动机：通过引入少量的附加参数，probe learns 在监督方式中使用特征表示（例如，上下文嵌入）来解决特定的语言任务（例如，依赖解析）。这样的probe tasks 的有效性被视为预训练模型编码语言知识的证据。但是，这种评估语言模型的方法会因 probe 本身所学知识量的不确定性而受到破坏。
[*]方法介绍：

[*]Perturbed Masking

[*]介绍：parameter-free probing technique
[*]目标：analyze and interpret pre-trained models，测量一个单词xj对预测另一个单词xi的影响，然后从该单词间信息中得出全局语言属性（例如，依赖树）。

[*]思想：整体思想很直接，句法结构，其实本质上描述的是词和词之间的某种关系，如果我们能从BERT当中拿到词和词之间相互“作用”的信息，就能利用一些算法解析出句法结构。
【关于信息抽取】那些的你不知道的事

【关于实体关系联合抽取】那些的你不知道的事

[*]【关于 A Frustratingly Easy Approach for Joint Entity and Relation Extraction】那些你不知道的事【强烈推荐】

[*]论文：A Frustratingly Easy Approach for Joint Entity and Relation Extraction
[*]阅读理由：反直觉！陈丹琦用pipeline方式刷新关系抽取SOTA
[*]方法：建立两个 encoders，并独立训练:

[*]encoder 1：entity model

[*]方法：建立在 span-level representations 上

[*]encoder 2：relation model：只依赖于实体模型作为输入特征

[*]方法：builds on contextual representations specific to a given pair of span

[*]优点：

[*]很简单，但我们发现这种流水线方法非常简单有效；
[*]使用同样的预先训练的编码器，我们的模型在三个标准基准（ACE04，ACE05，SciERC）上优于所有以前的联合模型；

[*]问题讨论：

[*]Q1、关系抽取最care什么？

[*]解答：引入实体类别信息会让你的关系模型有提升

[*]Q2、共享编码 VS 独立编码哪家强？

[*]解答：由于两个任务各自是不同的输入形式，并且需要不同的特征去进行实体和关系预测，也就是说：使用单独的编码器确实可以学习更好的特定任务特征。

[*]Q3：误差传播不可避免？还是不存在？

[*]解答：并不认为误差传播问题不存在或无法解决，而需要探索更好的解决方案来解决此问题

[*]Q4：Effect of Cross-sentence Context

[*]解答：使用跨句上下文可以明显改善实体和关系

[*]【关于实体关系联合抽取】那些你不知道的事
[*]Incremental Joint Extraction of Entity Mentions and Relations
[*]【关于 Joint NER】那些你不知道的事

[*]论文名称：Joint Extraction of Entities and Relations Based on a Novel Decomposition Strategy

[*]【关于 GraphRel】那些的你不知道的事

[*]论文名称：论文名称：GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction
[*]动机

[*]想要自动提取特征的联合模型

[*]通过堆叠Bi-LSTM语句编码器和GCN (Kipf和Welling, 2017)依赖树编码器来自动学习特征
[*]用以考虑线性和依赖结构

[*]类似于Miwa和Bansal(2016)（一样是堆叠的）
[*]方法
[*]每个句子使用Bi-LSTM进行自动特征学习
[*]提取的隐藏特征由连续实体标记器和最短依赖路径关系分类器共享
[*]问题
[*]然而，在为联合实体识别和关系提取引入共享参数时：
[*]它们仍然必须将标记者预测的实体提及通过管道连接起来
[*]形成关系分类器的提及对

[*]考虑重叠关系
[*]如何考虑关系之间的相互作用

[*]2nd-phase relation-weighted GCN
[*]重叠关系(常见）
[*]情况
[*]两个三元组的实体对重合
[*]两个三元组都有某个实体mention
[*]推断
[*]困难（对联合模型尤其困难，因为连实体都还不知道）

[*]方法：

[*]学习特征

[*]通过堆叠Bi-LSTM语句编码器和GCN (Kipf和Welling, 2017)依赖树编码器来自动学习特征

[*]第一阶段的预测

[*]GraphRel标记实体提及词，预测连接提及词的关系三元组
[*]用关系权重的边建立一个新的全连接图（中间图）
[*]指导：关系损失和实体损失

[*]第二阶段的GCN

[*]通过对这个中间图的操作
[*]考虑实体之间的交互作用和可能重叠的关系
[*]对每条边进行最终分类
[*]在第二阶段，基于第一阶段预测的关系，我们为每个关系构建完整的关系图，并在每个图上应用GCN来整合每个关系的信息，进一步考虑实体与关系之间的相互作用。

[*]【关于 HBT】那些的你不知道的事

[*]论文名称：A Novel Hierarchical Binary Tagging Framework for Relational Triple Extraction
[*]动机：

[*]pipeline approach

[*]思路

[*]识别句子中的所有实体；
[*]对每个实体对执行关系分类。

[*]问题

[*]由于早期阶段的错误无法在后期阶段进行纠正，因此这种方法容易遭受错误传播问题的困扰。

[*]feature-based models and neural network-based models

[*]思路

[*]通过用学习表示替换人工构建的特征，基于神经网络的模型在三重提取任务中取得了相当大的成功

[*]问题

[*]大多数现有方法无法正确处理句子包含多个相互重叠的关系三元组的情况。

[*]基于Seq2Seq模型 and GCN

[*]思路：提出了具有复制机制以提取三元组的序列到序列（Seq2Seq）模型。他们基于Seq2Seq模型，进一步研究了提取顺序的影响，并通过强化学习获得了很大的改进。
[*]问题：它们都将关系视为要分配给实体对的离散标签。这种表述使关系分类成为硬机器学习问题。首先，班级分布高度不平衡。在所有提取的实体对中，大多数都不形成有效关系，从而产生了太多的否定实例。其次，当同一实体参与多个有效关系（重叠三元组）时，分类器可能会感到困惑。没有足够的训练示例，分类器就很难说出实体参与的关系。结果，提取的三元组通常是不完整且不准确的。

[*]方法：

[*]首先，我们确定句子中所有可能的 subjects；
[*]然后针对每个subjects，我们应用特定于关系的标记器来同时识别所有可能的 relations 和相应的 objects。

一江不理我 发表于 2023-10-30 12:13:49

教题主一个方法：统计nlp领域四大顶会：ACL、EMNLP、COLING、NAACL近三年所有录用长文的研究方向。
前两年没什么研究，最近一年开始猛增的方向说明这个方向处在研究热点的早期，能填的坑还比较多，较容易发论文。
前三年都有很多研究论文说明该方向是研究热点，能不能填坑非常考验水平。
三年来论文数逐渐减少，且最近一年论文个数非常少，说明这个方向的坑填的差不多的，不太好发论文。

zhanhua999 发表于 2023-10-30 12:14:30

---------
谈一下我目前所了解的

[*]few shot learning on NER(也可其他的序列任务)，近两年做的人比较少，可以参考这篇文章Few-Shot Named Entity Recognition: A Comprehensive Study
[*]融合外部知识的任务，比如阅读理解类的任务就很需要常识知识。问题就是引入什么知识（模型目前有什么知识），怎么引入知识（mutil-task,pre-training,...）。可简单参考这篇文章https://veredshwartz.blogspot.com/2021/01/commonsense-reasoning-for-natural.html

页: [1]

今日问答's Archiver

目前研一，在nlp课题组，只想毕业。请问一下nlp中哪个方向比较好发论文？