电脑问答:如何最简单、通俗地理解什么是NLP？-今日问答

墨香发表于 2023-10-4 06:54:03

如何最简单、通俗地理解什么是NLP？

二月半 发表于 2023-10-4 06:54:59

[*]NLP是什么东西？
NLP ( Natural Language Processing )，也就是人们常说的「自然语言处理」，就是研究如何让计算机读懂人类语言，即将人的自然语言转换为计算机可以阅读的指令。在就业上讲，这边的工程师被人们称为NLP算法工程师，前些年火的是CV工程师（计算机视觉工程师），目前NLP算法工程师的薪资待遇，普遍偏上。

http://picx.zhimg.com/v2-4980c1e0d69cd0c350399d222e23a54a_r.jpg?source=1940ef5c

[*]NLP都包含哪些内容呢？
其实对于基础的NLP任务来说，大致分成了两个部分，其一是自然语言理解部分 ( NLU, Natural Language Understanding），其二是自然语言生成部分 (NLG, Natural Language Generation)。而其中在NLU的任务当中，具体数量明显是要比NLG多的。

那么NLU到底是什么任务呢？实际上就是对于文本，计算机能够做出的理解，我们都知道计算机本质上是个二进制的复杂运行单位，那么如果让他可以识别到情感，并且准确的分类出来，是不是太困难了呢？实际上不是的，情感分类也是NLU当中的子任务，也是前些年做的很多任务，大部分的准确度都已经逼近人类的视角。

以下船长自己画了一张NLP的思维导图，方便大家对于NLP任务有一个全面的认知，之后的文章会逐渐的填满这里的每一个子任务，偏向工业风的任务，因为大多数的学术工作没法用到工业中（手动狗头）。公众号回复“NLP思维导图”即可获得高清图片。

http://picx.zhimg.com/v2-5c6f96b7b9ff53a4609aac3434787d7e_r.jpg?source=1940ef5c

图：NLP概览大全

2.1 分词任务
分词中涉及到三个基本问题：分词规范、歧义切分和未登录词的识别。

2.1.1 分词规范
其实如何界定一个词语却是分词中一个很重要的话题。“小明看到湖岸上的花草，一株不知名的小花引起了他的注意”。对于这句话中的“湖岸”、“花草”、“不知名”等，不同的词语界定方式就会出现不一样的分词结果，如我们可以切分成以下几种形式：

[*]“小明/看到/湖岸/上/的/花草/，一株/不知名/的/小花/引起/了/他的/注意”
[*]“小明/看到/湖/岸/上/的/花/草，一株/不/知名/的/小花/引起了/他的/注意”
[*]“小明/看到/湖岸/上的/花/草，一株/不知名的/小花/引起了/他的/注意”
我们可以看出不同的词语界定方式，可以组合出很多种分词结果，所以说分词可以看做是找寻一个没有明确定义问题的答案。所以当我们在衡量一个分词模型的好坏时，我们首先需要确定一个统一的标准，即所谓Golden Data，大家所有的模型都在统一的数据集上进行训练和评测，这样比较才会具有可参考性。

2.1.2 歧义切分
歧义字段在汉语中是普遍存在的，而歧义字段是汉语切分的一个重要难点。

[*]交集型切分歧义：汉字串AJB称作交集型切分歧义，如果满足AJ、JB同时为词（A、J、B分别为汉字串）。此时汉字串J称作交集串。如，大学生（大学/学生）、研究生物（研究生/生物）、结合成（结合/合成）.
[*]组合型切分歧义：汉字串AB称作多义组合型切分歧义，如果满足A、B、AB同时为词。如，起身（他|站|起|身|来/明天|起身|去北京）。
我们可以看出歧义字段给我们的分词问题带来了极大的困扰，所以想要正确的做出切分判断，一定要结合上下文语境，甚至韵律、语气、重音、停顿等。

2.1.3 未登录词识别
未登录词，一种是指已有的词表中没有收录的词，另一种是指训练语料中未曾出现过的词。而后一种含义也可以被称作集外词，OOV（out of vocabulary），即训练集以外的词。通常情况下未登录词和OOV是一回事，我们这里不加以区分。
未登录词大体可以分为如下几个类型：

[*]新出现的普通词汇，如网络用语当中层出不穷的新词，这在我们的分词系统这种也是一大挑战，一般对于大规模数据的分词系统，会专门集成一个新词发现模块，用于对新词进行挖掘发现，经过验证后加入到词典当中。例如emo，yyds等等新出现的词汇。
[*]专有名词，在分词系统中我们有一个专门的模块，命名体识别（NER name entity recognize），用于对人名、地名以及组织机构名等单独进行识别。
[*]专业名词和研究领域名称，这个在通用分词领域出现的情况比较少，如果出现特殊的新领域，专业，就会随之产生一批新的词汇。

2.2 文本分类
对于文本分类来说，其实相比分词要好理解的多，在这种任务当中，我们需要先对文本进行embedding嵌入，具体含义是把文字转化成为向量的过程，然后深度学习的方式就会对这个来进行处理，以下我举了一个非常简单且实用的分类模型，是通过卷积的处理之后叠加了MLP（多层感知机）进行处理的。

http://picx.zhimg.com/v2-e85670aaa248c9f73456ebd73443f9bf_r.jpg?source=1940ef5c

图：CNN-Text分类模型介绍

而在文本分类当中，有短文本，长文本，还有超长文本的几种数据类型，对于短文本来说，可能需要一大部分的先验知识，常识来做出恰当的判断，因为知识往往是欠缺的，例如情感分类任务，“此次在美国大选中，选民们仿佛陷入了红色的海洋”，然后问选民们对于特朗普的态度，实际上是正向的，因为大家都知道川普的典型颜色就是“中国红” 。

对于长文本和超长文本来说，超长文本往往很难做，为什么这么讲，当文本很长的时候，对于某个事物的看法往往是辩证性的，例如对于川普的看法，肯定是褒贬不一的，那这个时候超长文本就凸显出了他独有的难度，而这个方向也确实是目前比较冷门但是比较重要的方向。

在长文本中，包含了一种任务叫做细粒度情感分类，比方说我喜欢这家饭店，但是鱼香肉丝很难吃，那在这个任务当中，实际上客户对于“饭店”是负面态度，但是对于“鱼香肉丝”却是正面的态度。那就需要我们的模型对于这些细粒度的实体非常的敏感，并且擅长于通过上下文来判断情感。

2.3 句法分析
句法分析也是自然语言处理中的基础性工作，它分析句子的句法结构（主谓宾结构）和词汇间的依存关系（并列，从属等）。通过句法分析，可以为语义分析，情感倾向，观点抽取等NLP应用场景打下坚实的基础。随着深度学习在NLP中的使用，特别是本身携带句法关系的LSTM模型的应用，句法分析已经变得不是那么必要了。但是，在句法结构十分复杂的长语句，以及标注样本较少的情况下，句法分析依然可以发挥出很大的作用。因此研究句法分析依然是很有必要的。

2.3.1 句法结构分析
句法结构分析，识别句子的主谓宾定状补，并分析各成分之间的关系。通过句法结构分析，我们就能够分析出语句的主干，以及各成分间关系。对于复杂语句，仅仅通过词性分析，不能得到正确的语句成分关系。

http://pic1.zhimg.com/v2-1d6c22a07bb8639e476bf483f5a48062_r.jpg?source=1940ef5c

图：句法结构分析的标注

2.3.2 语义依存分析
语义依存关系分析，识别词汇间的从属并列递进等关系，可以获得较深层的语义信息。如以下三个不同的表达方式，表达了同一个语义信息。可见语义依存关系不受句法结构的影响。语义依存关系偏向于介词等非实词的在语句中的作用，而句法结构分析则更偏向于名词动词形容词等实词。如张三 -> 吃的关系为施加关系Agt，苹果->吃的关系为受事关系Pat。依存关系标注比较多，就不一一列举了。

2.4 信息检索
首先信息检索的定义是什么？

http://pic1.zhimg.com/v2-050cdd3114c1e6996061fb35ec50c279_r.jpg?source=1940ef5c

图：搜索引擎大全

信息检索，顾名思义，就是从很多很多的信息中检索出自己相关的信息，举个例子来说，当我们进行百度搜索的时候，很可能是从几十亿文章中检索出我们需要的内容，而这个内容仅仅耗时几十ms，是一个非常伟大的发明。

2.4.1 信息需求理解
尝试看看以下的情况：“周杰伦”，那这种时候是比较清楚的，用户想要了解周杰伦的一些事情，所以弹出的也比较明确。

http://picx.zhimg.com/v2-44d70aded338bf30d298484def38bf6f_r.jpg?source=1940ef5c

图：周杰伦搜索结果

但是也有一种可能，用户根本无法表达清楚自己的意思，实际上这种情况很常见，即使表达清楚了计算机也很难去理解的。所以作为第一步，理解用户的意图，成为了一个关键的问题。

2.4.2 资源质量度量
从资源的角度来讲，肯定是参差不齐的，我们并不知道哪些的资源质量是高的，例如短视频，很多短视频都做的不怎么样，那我们如何自动化的评审资源，成为了一个难题。最简单的例子，可以看用户对资源的反馈，点赞多，收藏多大概率是个好的资源。

2.4.3 结果匹配排序
从千亿级别的资源中，筛选出用户需要的，肯定是经过了召回，排序的阶段，何谓召回（recall），可以简单的理解成一个数据漏斗，每次都会把相关的数据流出漏斗。但是这个方向对于学生来讲，很那做实验，因为首先数据即使有，也很难接近工业界的水平，而且即使有了，几张GPU的训练肯定搞不定这个。在这个过程当中，近年来人们往往喜欢用个性化的搜索来代替传统的匹配排序，有如下的方案：

[*]基于内容的个性化搜索算法通过比较用户兴趣爱好和结果文档的内容相似性来对文档的用户相关性进行判断进而对搜索结果进行重排。
[*]基于链接分析的方法主要是利用互联网上网页之间的链接关系，并假设用户点击和访问过的网页为用户感兴趣的网页，通过链接分析算法进行迭代最终计算出用户对每个网页的喜好度。
[*]基于协作过滤的个性化搜索算法主要借鉴了基于协作过滤的推荐系统的思想，这种方法考虑到能够收集到的用户的个人信息有限，因此它不仅仅利用用户个人的信息，还利用与用户相似的其它用户或群组的信息，并基于用户群组和相似用户的兴趣偏好来个性化当前用户的搜索结果。用户之间的相似性可以通过用户的兴趣爱好、历史查询、点击过的网页等内容计算得出。

2.4.4 信息检索评价
信息检索评价是信息检索和信息获取领域研究的核心问题之一。信息检索和信息获取系统核心的目标是帮助用户获取到满足他们需求的信息，而评价系统的作用是帮助和监督研究开发人员向这一核心目标前进，以逐步开发出更好的系统，进而缩小系统反馈和用户需求之间的差距，提高用户满意度。

2.5 信息抽取
信息抽取可谓是NLP的底层工作，而且这份工作可以应用到很多下游的任务，例如在对话系统中，第一步对话理解需要计算机抽取出相关的实体，举例来说：我想点一份炸鸡汉堡，计算机应该识别到“炸鸡汉堡”这个属于食物的实体。

2.5.1 实体抽取
实体抽取的含义，就是从query语句中抽取出固定的实体，这点其实很好明白。

2.5.2 关系抽取
对于关系抽取来说，是一种类似于依存关系分析的抽取，都是抽取到了一个实体和另外一个实体之间的关系，主要的区别就是，依存关系中，我们并不知道哪些是实体，哪些不是，但是对于关系抽取来说，默认的我们都已经知道了一些实体的类型。

http://pica.zhimg.com/v2-cec852db3acc5c6a10eb53c77632d95e_r.jpg?source=1940ef5c

图：关系抽取

2.5.3 事件抽取
对于事件抽取来说，无外乎就是从一大串文本中抽取出事件event，这个实际上在问答系统中使用的很多。

http://pic1.zhimg.com/v2-8e317a1e1225a9a40d6cd0c5fda5ba4f_r.jpg?source=1940ef5c

图：事件抽取例子

那首先我们会有一个模版：someone do something when & how，对应于图片中的例子，就是美国军队杀死 17个人在Mosul & 在这周早些的时候。所以我们实际上可以大致理解出，所谓事件抽取就是结构化的梳理出文字中的脉络，重新整合成为新的事件。

2.6 文本表征
相比于信息抽取，文本表征位于最底层，因为只有在这部分我们可以把文本的信息向量化，能够处理成为数字化的信息形式，让计算机“理解”到位。举一个非常简单的例子，one hot转化，比方说我们总共有N个单词，那我就构造出长度为N的向量，然后第几个为1就代表了第几个单词，在下面的例子中，zoom作为最后一个单词，所以最后一位是1。当然，这只是最简单的例子了。

http://pica.zhimg.com/v2-914bbb182c7f4303201a390af5c7d66e_r.jpg?source=1940ef5c

one hot 表示

经过了one hot的转化之后呢，需要过一个参数矩阵，大小是N*E，其中E代表了embedding size，也即嵌入之后的大小，一般我们会设置 64/128/512 之类的2进制数字来表示。然后做一些下游的任务来对这个进行学习，比方说BERT预训练模型就会通过这个，来进行mask，预测出mask掉的单词是什么，这就是其中的一种学习方式。

在经过了word embedding之后，会有sentence，document embedding，这些都是在word embedding基础上，在这里就不进行一一的介绍了。

之后是对话系统和问答系统，关于对话系统的基本介绍我单独写了文章，之后也会根据我在业务中遇到的问题，和需求，综合的写一下工业界的对话系统有什么不一样的地方。
现在工业界的任务型对话系统一般是怎么实现的？
你好，我是一个毕业于南加州大学的算法工程师，就职于大厂，个人喜好极其广泛，擅长深度思考，喜欢思维锻炼。公众号（船长尼莫）旨在和读者共同进步，会有很多原创的算法知识分享、工作求职分享、学者访谈、关于互联网的深度思考、读书分享等等。评论区可以和我积极的互动，也可以写下你想看的内容~ ，点赞关注下呗~

Namko 发表于 2023-10-4 06:55:09

我们从一个简短的假设开始——假设您想在iPhone上设置闹钟。您启动 Siri，并告诉它为明天设置闹钟。Siri 会回复“什么时间？”，您指定了上午 9 点。说完，闹钟已经设置好了。
在这个简短的互动中，您激活了一个设备，该设备听到了您的语言，处理了该语言，执行了一个操作，并用一个话语进行了响应。整个交流是通过自然语言处理（NLP）实现的。自然语言处理是任何机器或程序处理人类语音能力的基础。这是Siri等可识别语音助手以及消息应用程序中的聊天机器人背后的技术。
自然语言处理是是计算机科学领域与人工智能领域中的一个重要方向，被誉为“人工智能领域皇冠上的明珠”，它是研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。任何机器识别对它说的话、理解其含义、确定适当的操作并以用户将理解的语言做出响应的能力的总称。NLP在各个地区和行业都至关重要，并且汉语在技术的发展中发挥着重要作用。使用不同的语言和方言是抵消偏见和全面改进技术的好方法
人类的语言中夹杂着细微差别、发音错误和口语。自然语言理解旨在解决人类语言的复杂性。语言处理的主要研究领域之一是从自然语言处理过渡到自然语言理解。自然语言理解涉及如何最好地处理非结构化输入并将其转换为机器可以理解和采取行动的结构化形式这一狭窄的方面。
实体注释：实体注释是指从句子或非结构化数据中提取信息单位并使其结构化的做法。这些单位可以包括名称，如人、组织、位置名称和专有名词。它还可用于识别数字表达式，如时间、日期、金钱和百分比表达式。
语义注释：语义注释有助于评估搜索结果。从本质上讲，公司正在寻找提高搜索相关性的方法，以便客户可以在搜索引擎中实际找到他们的产品。问题是，大多数产品描述因来源而异，而且往往不准确。语义注释通过标记不同的产品标题和搜索查询来帮助改善搜索结果。
语言注释：语言注释是指评估任何给定句子主题的实践。这是一个广泛的流派，但本质上它与文本分析有关，无论是对社交媒体数据的情感分析，还是使用自然语言处理来回答常规问题。
自然语言处理可用于什么?
语音助手：如上所述，Siri和小度等语音助理由自然语言处理提供支持。这种应用的是通用模型。
语音机器人：由于语音机器人模仿真实的对话，他们严重依赖自然语言处理技术。大多应用垂直行业模型训练。市面上除了应用于各种产品身上的还包括应用于企业客户服务上，例如沃丰科技的语音机器人，服务于企业的营销、服务、管理各个方面，做的就是垂直行业模型，根据不用行业、不同场景的词汇语音对模型进行训练。
客户服务：许多公司转录和分析客户通话录音。自然语言处理有助于分析这些数据，并使您能够更快地响应客户需求。例如目前市面上有智能质检的产品，例如飞鹤应用的智能质检，对其客户服务全流程的语音和文字进行质检，不当言论实时检测。
情感分析：自然语言处理用于确定任何文本的语气。这对于客户情绪识别具有很大的好处，可以用于客户情绪识别、舆情监控等。飞鹤应用的智能质检就具备此项功能。
具体案例可以免费戳：
麦当劳客户案例-餐饮消费品行业智能客服系统-沃丰科技

蛋蛋小林 发表于 2023-10-4 06:55:38

自然语言处理（NLP）是研究人与计算机交互的语言问题的一门学科。它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学。自然语言处理的工作原理是先接收到通过人类使用演变而来的自然语言；再转译成自然语言，这通常是通过基于概率的算法进行转变的；最后再分析自然语言并输出最终结果。NLP就是利用人类交流所使用的自然语言与机器进行交互通讯的技术，对自然语言各方面（包括话语、句法结构、单词、语意解释等）的分析，理解出用户想表达的意思，从而得到机器可读并理解的语言。

自然语言处理（NLP）的两个核心任务分别是自然语言理解（NLU）和自然语言生成—（NLG）。自然语言的理解就是希望机器可以和人一样，有理解他人语言的能力；自然语言的生成就是将非语言格式的数据转换成人类的语言格式，以达到人机交流的目的。

http://picx.zhimg.com/v2-4cb51c5377b1f7349432efbbaae9fc70_r.jpg?source=1940ef5c
近年来，人工智能的进步促进自然语言处理的发展，也使得自然语言处理面临挑战，比如更优的算法、语言的深度分析、多学科的交叉等，深度学习为自然语言处理带来了重大技术突破。随着NLP模型变得越来越大，需要更多的数据来训练它们。

景联文科技作为长三角地区规模最大的AI基础数据服务商之一，依托于自身全面的数据资源，技术优势以及丰富的数据处理经验，景联文科技提供完整的自然语言处理全领域数据处理能力，全链条AI数据服务，从数据采集、清洗、标注、到驻场的全流程、一站式AI数据服务，为企业提高完整的数据解决方案，协助人工智能企业解决整个人工智能链条中数据标注环节的相对应问题，可提高数据处理速度，降低处理成本。并于2020年上线了自有标注平台，保证数据的安全合规性，涵盖了绝大多数主流标注工具，支持NLP标注业务。现有数据库拥文本成品数据集50T。

gibbet/猫 发表于 2023-10-4 06:56:15

xzshengli 发表于 2023-10-4 06:56:45

目录：

一、笔记
二、我的自学路线
三、笔记目录
<hr/>一、笔记

1) NLP 基本概念

① NLP（Natural Language Processing），也就是人们常说的「自然语言处理」，就是研究如何让计算机读懂人类语言，即将人的自然语言转换为计算机可以阅读的指令。
② 分词是 NLP 任务的一个起始，分词的好坏会影响整体模型的好坏。并且分词不一样，语义不一样。
1. 中国北京大学 → 中国、北京、大学，语义为北京的大学
2. 中国北京大学 → 中国、北京大学，语义为北京大学② hanLP 是 NLP 处理工具，它是处理文本的工具，hanlp拥有：中文分词、命名实体识别、摘要关键字、依存句法分析、简繁拼音转换、智能推荐。
③ NLP 有很多处理工具，不同的处理工具处理的方法不一样，例如对一个词标注的标注可能不一样。
2) NLP 基础应用

1、分词

① 不同的分词模型，同一个句子可以分成不同的结果。
② BIO 序列标注方法[有监督学习算法]：B：代表块的开始I：代表块的中间或者结束 O：单独一个块，例如，模型输入文本：我在中国北京大学读书，输出标注后的序列为：O O B I I I I I B I。
1. 我在中国北京大学读书 → 我在、中国、北京、大学、读书
2. 我在中国北京大学读书 → 我在、中国北京、大学、读书
3. 我在中国北京大学读书 → 我、在、中国、北京大学、读书
4. 我在中国北京大学读书 → 我、在、中国、北京大学、读、书 2、词性标注

① 识别单词的词性，标注它是名词、动词、形容词、副词.....
② 词性标志有让标注工程师对所有词进行标注，也有算法工程师用代码先实现一遍文本的预标注，例如正则表达式，然后标注工程师直接检查是否标注错误，并补充没有标注的数据。
3. 命名实体识别

① 从PDF的句子中提取实体，例如人名、地名、时间等，通过实体寻找关系。
1. 文字型 PDF 提取实体方法：把 PDF 转成 xtml，再用 xpath 提取实体。
2. 扫描型 PDF 用 opencv 的方法把它转换为文字，再用 nlp 做命名实体识别，把实体框出来。[ 1-3 都可以叫做序列标注问题 ]

4) 关键词提取

① 关键词代表句子意思，常通过摘要提取文本核心。
5) 关系提取

① 抽取句子中的实体和关系，生成实体和实体的关系叫做关系提取，如：乔布斯发明了苹果(句子输入模型中) 返回：乔布斯[实体]、苹果[实体]、发明[发明]。
6) 事件提取

① 提取文体中的事件(时间、地点、主体、金额......)。
7) 文本相似度

① 计算文本之间的相似度，例如，根据商品标题和商品描述信息的相似度找相似的商品。
8) 文本分类

① 对文件进行识别，分类出对应的类别，如：对文件进行新闻分类：体育、经济、政治、综艺.....，如：对文本进行情感分析：正面或者负面。
9) 文本表示(文本向量化、文本数值化)

① 把文本用数字转换，例如词袋模型。词袋模型首先会有一个语料库，语料库即一个文本，文本中含有成千上万个单词、每个单词对应向量，有2的n次方个单词就有以n为长度的向量。例如，&#34;在&#34; 对应向量为：，&#34;北京大学&#34; 对应向量为：，&#34;读书&#34;对应向量为：。文本&#34;我在北京大学读书&#34; 分词为：我、在、北京大学、读书，转换为数值化为：，然后用用表示一段文本。
1. 同理，可以用文本向量化表示：我打你
2. 同理，可以用文本向量化表示：你打我② 词袋模型缺陷：
1. 如果语料库很大，向量会稀疏，也就是一个向量里面很多都是零。
2. 没有顺序关系，向量&#34;我打你&#34;和向量&#34;你打我&#34;的文本向量表现形式一样。
3. 不能解决一词多译问题，例如，今天去店里买苹果，苹果手机还是吃的苹果，词袋模型的文本向量中无法表现出来。
4. 无法融合上下文关系，例如，今天去水果店里买苹果，苹果对应的向量仅仅是取词料库中的向量进行匹配，而并不是在前面的水果向量的基础上产生的向量，因此词向量无法融合上下文关系。 ③ 静态词向量方法有：word2vec，不能解决一词多译问题；动态词向量方法有： elmo、opt、bert，能解决一词多译问题。
<hr/>全套笔记：(编程)

1. C++ 笔记

[*]https://github.com/AccumulateMore/CPlusPlus：最全面的 C++ 笔记
2. Python 笔记

[*]https://github.com/AccumulateMore/Python：最全面的 Python 笔记
3. 深度学习笔记

[*]https://github.com/AccumulateMore/CV：最全面的深度学习笔记
<hr/>如下图所示，我的主页，点击专栏，
有韩语、日语、编程语言等笔记。

http://picx.zhimg.com/v2-bb1ae3402f56830ee7f182b98db05214_r.jpg?source=1940ef5c

页: [1]

今日问答's Archiver

如何最简单、通俗地理解什么是NLP？