电脑问答:大数据挖掘主要涉及哪些技术？-今日问答

wangbo821 发表于 2023-10-9 11:51:11

大数据挖掘主要涉及哪些技术？

大数据

chnnic 发表于 2023-10-9 11:52:09

数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

http://picx.zhimg.com/v2-abff049b0a20b06dd7f739eb3a6175b6_r.jpg?source=1940ef5c
数据挖掘对象

根据信息存储格式，用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。

数据挖掘流程

定义问题：清晰地定义出业务问题，确定数据挖掘的目的。

数据准备：数据准备包括：选择数据–在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理–进行数据再加工，包括检查数据的完整性及数据的一致性、去噪声，填补丢失的域，删除无效数据等。

数据挖掘：根据数据功能的类型和和数据的特点选择相应的算法，在净化和转换过的数据集上进行数据挖掘。

结果分析：对数据挖掘的结果进行解释和评价，转换成为能够最终被用户理解的知识。

http://picx.zhimg.com/v2-ceb7dbd23f9413c0e21a6833e0f071d9_r.jpg?source=1940ef5c

数据挖掘分类

直接数据挖掘：目标是利用可用的数据建立一个模型，这个模型对剩余的数据，对一个特定的变量（可以理解成数据库中表的属性，即列）进行描述。

间接数据挖掘：目标中没有选出某一具体的变量，用模型进行描述；而是在所有的变量中建立起某种关系。

数据挖掘的方法

神经网络方法

神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题，因此近年来越来越受到人们的关注。

遗传算法

遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法，是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。

决策树方法

决策树是一种常用于预测模型的算法，它通过将大量数据有目的分类，从中找到一些有价值的，潜在的信息。它的主要优点是描述简单，分类速度快，特别适合大规模的数据处理。

粗集方法

粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点：不需要给出额外信息;简化输入信息的表达空间;算法简单，易于操作。粗集处理的对象是类似二维关系表的信息表。

覆盖正例排斥反例方法

它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子，到反例集合中逐个比较。与字段取值构成的选择子相容则舍去，相反则保留。按此思想循环所有正例种子，将得到正例的规则(选择子的合取式)。

统计分析方法

在数据库字段项之间存在两种关系：函数关系和相关关系，对它们的分析可采用统计学方法，即利用统计学原理对数据库中的信息进行分析。可进行常用统计、回归分析、相关分析、差异分析等。

模糊集方法

即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高，模糊性越强，一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。

http://picx.zhimg.com/v2-5b226d0d41a7f8b2f3e2e20869f2d7d7_r.jpg?source=1940ef5c

数据挖掘任务

关联分析

两个或两个以上变量的取值之间存在某种规律性，就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性，还不断引入兴趣度、相关性等参数，使得所挖掘的规则更符合需求。

聚类分析

聚类是把数据按照相似性归纳成若干类别，同一类中的数据彼此相似，不同类中的数据相异。聚类分析可以建立宏观的概念，发现数据的分布模式，以及可能的数据属性之间的相互关系。

分类

分类就是找出一个类别的概念描述，它代表了这类数据的整体信息，即该类的内涵描述，并用这种描述来构造模型，一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。

预测

预测是利用历史数据找出变化规律，建立模型，并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性，通常用预测方差来度量。

时序模式

时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样，它也是用己知的数据预测未来的值，但这些数据的区别是变量所处时间的不同。

偏差分析

在偏差中包括很多有用的知识，数据库中的数据存在很多异常情况，发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。

zxs1394 发表于 2023-10-9 11:52:42

大数据挖掘首先还是数据挖掘, 所以数据挖掘的理论知识(机器学习, 统计分析)是基础再来说大数据的环境下怎么做数据挖掘, 大数据环境有以下这些特点, 因此涉及的技术也与之对应:
1.数据来源多, 大数据挖掘的研究对象往往不只涉及一个业务系统, 肯定是多个系统的融合分析, 因此,需要强大的ETL技术, 将多个系统的数据整合到一起, 并且, 多个系统的数据可能标准不同, 需要清洗。
2.数据的维度高, 整合起来的数据就不只传统数据挖掘的那一些维度了, 可能成百上千维, 这需要降维技术了。
3.大数据量的计算, 在单台服务器上是计算不了的, 这就需要使用分布式计算, 所以要掌握各种分布式计算框架, 像hadoop, spark之类, 需要掌握机器学习算法的分布式实现。
亿信华辰-大数据分析、数据治理、商业智能BI工具与服务提供商关于亿信华辰

亿信华辰是中国专业的智能数据产品与服务提供商，一直致力于为政企用户提供从数据采集、存储、治理、分析到智能应用的智能数据全生命周期管理方案，帮助企业实现数据驱动、数据智能，已积累了8000多家用户的服务和客户成功经验，为客户提供数据分析平台、数据治理系统搭建等专业的产品咨询、实施和技术支持服务。

http://picx.zhimg.com/v2-179133d743401d5ed0ac7f1980286ae7_r.jpg?source=1940ef5c

△亿信华辰全产品架构图（点击查看大图）

欢迎关注公众号：亿信华辰Pro
－让数据驱动进步－

ghostlees 发表于 2023-10-9 11:52:56

同问，能否再简单通俗点解释下大数据挖掘的技术？还是行业菜鸟，但想进一步了解，有大神来个简单点的解说吗？例如下图这些挖掘词是通过什么技术获取的？怎么形成的？

http://pic1.zhimg.com/v2-cc922721d6a6275627a0ae7bc106c82c_r.jpg?source=1940ef5c

http://picx.zhimg.com/v2-e7aa2801e2580b74a74e8984f23b1b67_r.jpg?source=1940ef5c

five 发表于 2023-10-9 11:53:26

大数据挖掘技术包括数据收集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测、结果呈现等多个方面，但最难的是分词技术，它是最重要，最基础的工作，也是关系的数据挖掘的准确性。从1983年第一个实用分词系统CDWS的诞生到现在，国内外的研究者在汉语分词方面进行了广泛的研究，提出了很多有效的算法。可以大致将这些算法分为如下几类：
一、基于词典和规则的汉字分词
切分时，用待切分的字符串去匹配词典中的词条，如果匹配成功，则将其切分成一个词。这类方法包括各种形态的最大匹配分词方法、全切分分词算法等。
1 最大匹配分词方法
最大匹配分词方法又分正向最大匹配、反向最大匹配和双向最大匹配方法。正向最大匹配从左到右每次取最长词；反向最大匹配每次是从右到左取最长词；双向匹配则是进行正向、反向匹配，然后对于两种匹配结果不同的地方再利用一定的规则进行消歧。
最大匹配法可能无法处理部分覆盖歧义、交叉歧义。但这种方法实现简单且切分速度快。
2 全切分分词算法
利用词典匹配，获得一个句子所有可能的切分结果。由于全切分的结果数随着句子长度的增加呈指数增长，因此这种方法的时空开销大；对于比较长且包含较多歧义的句子，往往要经过很长时间才能遍历完所有的切分路径。
3 基于理解的中文分词算法
分词中歧义消除的过程是一个理解的过程，这不仅需要词法信息，还需要句法和语义信息。所以目前也有些研究者尝试模拟人的理解过程，在分词过程中加入句法和语义分析来处理歧义问题。由于汉语语言知识的复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。
二、基于大规模语料库的统计学习的分词方法
这类方法主要是利用从大规模语料库中通过统计得到的各种概率信息，来对中文字符串进行切分。这种方法往往不需人工维护规则，也不需复杂的语言学知识，且扩展性较好，是现今分词算法中较常用的做法。除最常见的词频统计信息以外，目前常用的模型有：
1 N元语法（N-gram）模型和隐马尔可夫模型（HMM）
在N元语法中，一个句子可以看成一个连续的字符串序列，它可以是单字序列，也可以是词序列。一个句子W1W2......Wk的出现概率用P(W)表示，则：

http://pica.zhimg.com/v2-eef1a9a91ff8dc6112ab9a0e8b79d1d8_r.jpg?source=1940ef5c
不难看出，N元语法模型认为产生语句W的概率是产生其第一个字W1的概率，乘以在给定第一个字W1的条件下产生第二个字W2的概率，再乘以在给定前两个字W1W2的条件下产生第三个字W3的概率，……最后再乘以在给定前(n-1)个单字的条件下产生第n个字Wn的概率。产生第i个字的概率是由已产生的前i-1个字w1 w2 ……wi-1来决定的。这其中的二元语法模型（2-gram）也叫一阶马尔可夫链，它有如下的公式：

http://picx.zhimg.com/50/v2-b580ae679917ff3a284b14448c7f95ad_720w.jpg?source=1940ef5c
n元语法的作用是预测了一个单词序列出现的概率。它假设一个单词出现的概率分布只与这个单词前面的(n-1)个词有关，而与更早出现的单词无关。这无疑简化了可能的计算过程。利用大规模语料库和成熟的N元语法模型，可以容易地得到比较高的切分正确率。已经有研究表明，使用三元语法且在不考虑未定义词的情况下，可以将切分的正确率提高到98%以上。
隐马尔可夫模型(Hidden Markov Model，HMM)最先由Baum提出，它在自然语言理解中的语音识别、词性标注等有广泛应用。在该模型中，对于一个随机事件，有一个状态序列{X1, X2 ,…, Xn}以及一个观察值序列{Y1,Y2,…,Yn}。“隐”是指输出链可以被观察到，但状态链是“隐藏”的。隐马模型的作用类似于译码，就是从序列中的每个值（观察值）去推测它可能属于哪个状态。单独用隐马模型来分词的不是很多，通常是和词性标注结合在一起用。隐马模型可以形式化为一个五元组（S, O, A, B,

http://picx.zhimg.com/50/v2-52cb711d46c4dad1d320e107497c66a5_720w.jpg?source=1940ef5c
），其中：S ={q1, q2,…,qn}是状态值的有限集合；O={v1, v2,…vm}是观察值的有限集合；A={aij}，aij =p(Xt+1=qj|Xt=qi)是转移概率；B={bik}，bik =p(Ot=vk| Xt=qi)是输出概率；

http://pica.zhimg.com/50/v2-52cb711d46c4dad1d320e107497c66a5_720w.jpg?source=1940ef5c
={

http://pica.zhimg.com/50/v2-52cb711d46c4dad1d320e107497c66a5_720w.jpg?source=1940ef5c
i}，

http://pic1.zhimg.com/50/v2-52cb711d46c4dad1d320e107497c66a5_720w.jpg?source=1940ef5c
i＝p(X1=qi)是初始状态分布。
2 互信息模型
互信息用来表示两个字之间结合的强度，其公式为：

http://picx.zhimg.com/50/v2-188419e2071febd47c495591ee2f8daa_720w.jpg?source=1940ef5c
MI值越大，表示两个字之间的结合越紧密（如“尴尬”、“匍匐”等词）。反之，断开的可能性越大。当两个词x与y关系强时，MI(x , y )>= 0；x与y关系弱时，MI (x , y )≈0；而当MI(x , y )< 0时，x与y称为“互补分布”。
3 最大熵模型
“熵”是用来表示一个随机事件的不确定性的量度，其公式为：

http://pica.zhimg.com/50/v2-672f05146b710d3e7af66bcf575289ac_720w.jpg?source=1940ef5c
最大熵模型的作用是在已知条件下选择一个合适的分布来预测可能出现的事件，其主要思想是在只掌握关于未知分布的部分知识时，应选取符合这些知识但熵值最大的概率分布。式中，S在实验结束前是实验结果不确定性的度量，实验完成后是从实验中获得的信息量。S越大表明不确定性越大，实验结束后从中得到的信息量也越大。
除了上面的统计算法外，其它的统计和机器学习方法比如决策树、支持向量机SVM、条件随机域（Conditional Random Fields, CRF）、EM等也有研究者用来做过分词。另外针对歧义和未登录词还有一些专门的统计信息，比如基于记忆的交叉歧义排除法来统计所有高频伪歧义字段，统计人名地名用字概率的等方法。
三、规则和统计方法相结合的汉字分词方法

现在多数分词算法都采用规则和统计相结合的方法，这样做既可降低统计对语料库的依赖性，充分利用已有的词法信息，同时又能弥补规则方法的不足。常用的结合方法是利用词典进行初切分，然后用其它的概率统计方法和简单规则消歧来进行未登录词识别。比如，ICTCLAS分词法利用词典匹配进行初切分得到一个切分词图，然后利用词频信息求词图N条最短路径的N-最短路径法。还有些研究者利用词典找出所有的交叉歧义，然后利用Bigram语言模型或其变形来消除歧义。
而在目前在分词领域使用比较好的是大数据语义智能分析技术，它是北京理工大学大数据实验室张华平博士多年的研发成果，里面包括：精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块，平台提供了客户端工具，云服务与二次开发接口等多种产品使用形式。
以上是个人见解，仅供参考，如有问题多多指导。

页: [1]

今日问答's Archiver

大数据挖掘主要涉及哪些技术？