ジ呼喚ジ 发表于 2023-10-4 19:13:54

数据挖掘与数据分析的主要区别是什么?

数据挖掘与数据分析的主要区别是什么?

ATQQ 发表于 2023-10-4 19:14:03

在这里,答主将从四个角度回答您的问题,教您如何理清大数据、数据挖掘、数据分析、数理统计之间的关系

一、基于大数据的数据分析方法

基于大数据的数据分析方法的理论基础是数据挖掘和分布式计算原理。大数据具有海量、快速、多样化和有价值四个方面的重要特征,其海量特性使得数据分析时不可能用单台机器完成而是需要多台机器同时运算,也就是所谓的分布式运算。在大数据时代,大数据技术需要解决两个难题:一是海量数据在多台机器上的存储;二是解决如何对多台机器上存储的数据进行计算分析。大数据技术的基本原理还是聚类、分类、主题推荐等数据挖掘算法的内容,在基于大数据的数据分析方法中,有很多方法都是对原有算法的改进,将原来单机实现的算法改成多台机器的分布式计算。简单地说,基于大数据的数据分析方法就是分析工具不一样的数据分析方法,有的也加入了数理统计的思想。
二、大数据分析常用工具一览

1.Hadoop 大数据生态平台
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
2.Spark,大数据分析的“瑞士军刀”
Spark 也是 Apache 基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。它在 Hadoop 的基础上进行了一些架构上的改良。Spark 与 Hadoop 最大的不同点在于,Hadoop 使用硬盘来存储数据,而 Spark 使用内存来存储数据,因此 Spark 可以提供超过Hadoop100 倍的运算速度。但是,由于内存断电后数据会丢失,Spark 不能用于处理需要长期保存的数据。目前 Spark 完成了大部分的数据挖掘算法由单机到分布式的改造,并提供了较方便的数据分析可视化界面。
3.Storm,实时大数据处理工具
Storm 是 Twitter 主推的分布式计算系统,它由 BackType 团队开发,是 Apache 基金会的孵化项目。它在 Hadoop 的基础上提供了实时运算的特性,可以实时地处理大数据流。不同于 Hadoop 和Spark,Storm 不进行数据的收集和存储工作,它直接通过网络实时地接收数据并且实时地处理数据,然后直接通过网络实时地传回结果。
三、数理统计与数据挖掘的区别与联系

1. 数理统计与数据挖掘的联系
从两者的理论来源来看,它们都来源于统计基础理论,因此它们的很多方法在很多情况下都是同根同源的。例如,概率论和随机事件是统计学的核心理论之一,统计分析中的抽样估计需要应用该理论,而数据挖掘技术的朴素贝叶斯分类就是这些统计理论的发展和延伸。
有的时候两者的一些方法还会出现混淆的情况,例如,主成分分析和回归分析。从严格意义上讲,这两种分析方法都属于数理统计分析方法,但在数据挖掘实战应用中也常常会用到这种方式,从这个角度讲,主成分分析和回归分析也是数据挖掘商业实战中常用的一种分析技术和数据处理技术。
2.数理统计与数据挖掘的区别
更普遍的观点认为,数据挖掘是数理统计的延伸和发展,如果一定要加以区分,它们又有哪些区别呢?数据挖掘在如下几个方面与数理统计存在比较明显的差异。数理统计的基础之一就是概率论,在对数据进行数理统计分析时,分析人员常常需要对数据分布和变量间的关系作假设,确定用什么概率函数来描述变量间的关系,以及如何检验参数的统计显著性。但是,在数据挖掘的应用中,分析人员不需要对数据分布做任何假设,数据挖掘中的算法会自动寻找变量间的关系。因此,相对于海量、杂乱的数据,数据挖掘技术有明显的应用优势。
数理统计在预测中的应用常表现为一个或一组函数关系式,而数据挖掘在预测应用中的重点在于预测的结果,很多时候并不会从结果中产生明确的函数关系式,有时候甚至不知道到底是哪些变量在起作用,又是如何起作用的。最典型的例子就是“神经网络”挖掘技术,它里面的隐蔽层就是一个“黑箱”,没有人能在所有的情况下读懂里面的非线性函数是如何对自变量进行组合的。在实践应用中,这种情况常会让习惯数理统计公式的分析师或者业务人员感到困惑,这也确实影响了模型在实践应用中的可理解性和可接受度。
在实践应用中,数理统计常需要分析人员先作假设或判断,然后利用数据分析技术来验证该假设是否成立。但是,在数据挖掘中,分析人员并不需要对数据的内在关系做任何假设或判断,而是会让挖掘工具中的算法自动去寻找数据中隐藏的关系或规律。两者的思维方式并不相同,这给数据挖掘带来了更灵活、更宽广的思路和舞台。
虽然上面详细阐述了数理统计与数据挖掘的区别,但是在企业的实践应用中,我们不应该硬性地把两者割裂开来,其实它们也无法割裂,没有哪个分析师会说:“我只用数据挖掘技术来分析”或者“我只用数理统计技术来分析”。正确的思路和方法应该是:针对具体的业务分析需求,先确定分析思路,然后根据这个分析思路去挑选和匹配合适的分析算法、分析技术,而且一个具体的分析需求一般都会有两种以上不同的思路和算法可以去探索,最后可以根据验证的效果和资源匹配等一系列因素进行综合权衡,从而决定最终的思路、算法和解决方案。
四、大数据时代企业该如何布局,个人该如何选择?

数据分析师应对上述每种不同的数据分析方法都要了解,因为不同的数据分析方法适用的场景是不一样的,能解决的数据分析目标也是不一样的,例如生物行业用数理统计最多,电商行业用数据挖掘较多,当电商行业的数据量很大时,就要用基于大数据的数据挖掘算法了。在学习具体的数据分析方法时,主要要了解其使用的场景,当你在做具体的数据分析时就知道选择哪一种分析方法了。另外,在选择数据分析方法时,不要热衷于高深的方法,“不管白猫黑猫,抓住老鼠就是好猫”,要用最简单方法把问题解决,有的时候用最简单的描述性统计方法能解决问题,就不要用数据挖掘算法了。
对于是否使用大数据分析方法,这个需要看企业的性质和将来的发展方向,一般不是所有的企业都具有进行大数据分析的可能,企业管理者不应迷失在大数据面前,而应根据自己的实际业务确立商业目标,有选择地获取数据,然后进行分析。面对大数据时代的到来,国内的数据分析师们最需要做的是和企业的管理部一起,探讨如何给企业的现在和未来做一个好的规划,看自己是否具有大数据分析的可能,如果有,则如何实现从现有的小数据分析向大数据分析转型,从人才到数据的准备,这些都需要有一个充分的思考过程才能确定。

如果你想提升,可以参考课程
CDA大数据就业班第九期(3个月)-推荐就业!-CDA数据分析师官网欢迎来撩~

Adamspz 发表于 2023-10-4 19:14:14

我在传统银行,从事数据分析和数据挖掘工作。
从实际工作角度讨论一下,数据分析更侧重业务,数据挖掘更侧重技术。
换句话说,数据分析可以由业务人员独立完成,有了tableau等工具会帮助业务人员实现敏捷数据分析。数据分析强调基于新的发现支持业务决策,最关键的是转换到业务行动中发挥数据价值。
数据挖掘更适合it的人主导完成,关注焦点在于技术创新而非业务含义。当业务问题转化为数据问题后,建模工作主要是寻求可行的技术解决方案,过程中业务人员发挥的是辅助作用。另外,数据挖掘从实验室完成模型孵化,到模型管理、模型部署,都是严谨的工程化过程。
ps:银行传统的风控评分建模,更多的工作在于分析,而非挖掘。

Iriskang 发表于 2023-10-4 19:14:56

数据分析可以分为广义的数据分析和狭义的数据分析,广义的数据分析就包括狭义的数据分析和数据挖掘,我们常说的数据分析就是指狭义的数据分析。
一、数据分析(狭义)
(1)定义:简单来说,数据分析就是对数据进行分析。专业的说法,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
(2)作用:它主要实现三大作用:现状分析、原因分析、预测分析(定量)。数据分析的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。
(3)方法:主要采用对比分析、分组分析、交叉分析、回归分析等常用分析方法;
(4)结果:数据分析一般都是得到一个指标统计量结果,如总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用。
二、数据挖掘
(1)定义:数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。
(2)作用:数据挖掘主要侧重解决四类问题:分类、聚类、关联和预测(定量、定性),数据挖掘的重点在寻找未知的模式与规律;如我们常说的数据挖掘案例:啤酒与尿布、安全套与巧克力等,这就是事先未知的,但又是非常有价值的信息;
(3)方法:主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘;
(4)结果:输出模型或规则,并且可相应得到模型得分或标签,模型得分如流失概率值、总和得分、相似度、预测值等,标签如高中低价值用户、流失与非流失、信用优良中差等。
综合起来,数据分析(狭义)与数据挖掘的本质都是一样的,都是从数据里面发现关于业务的知识(有价值的信息),从而帮助业务运营、改进产品以及帮助企业做更好的决策。所以数据分析(狭义)与数据挖掘构成广义的数据分析。
<hr/>最后分享一些相关资料:
企业数据可视化平台0-1建设方案​10+央国企数字化转型案例集​​BI建设地图(行业独家)商业智能(BI)白皮书3.0

heavenhi 发表于 2023-10-4 19:15:31

转自:
数据分析与挖掘的联系和区别!
      数据分析只是在已定的假设,先验约束上处理原有计算方法,统计方法,将数据分析转化为信息,而这些信息需要进一步的获得认知,转化为有效的预测和决策,这时就需要数据挖掘,也就是我们数据分析师系统成长之路的“更上一楼”。
      数据挖掘与数据分析两者紧密相连,具有循环递归的关系,数据分析结果需要进一步进行数据挖掘才能指导决策,而数据挖掘进行价值评估的过程也需要调整先验约束而再次进行数据分析。
      而两者的具体区别在于:
(其实数据分析的范围广,包含了数据挖掘,在这里区别主要是指统计分析)

[*]数据量上:数据分析的数据量可能并不大,而数据挖掘的数据量极大。
[*]约束上:数据分析是从一个假设出发,需要自行建立方程或模型来与假设吻合,而数据挖掘不需要假设,可以自动建立方程。
[*]对象上:数据分析往往是针对数字化的数据,而数据挖掘能够采用不同类型的数据,比如声音,文本等。
[*]结果上:数据分析对结果进行解释,呈现出有效信息,数据挖掘的结果不容易解释,对信息进行价值评估,着眼于预测未来,并提出决策性建议。
数据分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具,如果我们想要从数据中提取一定的规律(即认知)往往需要数据分析和数据挖掘结合使用。
举个例子说明:你揣着50元去菜市场买菜,对于琳琅满目的鸡鸭鱼猪肉以及各类蔬菜,想荤素搭配,你逐一询问价格,不断进行统计分析,能各自买到多少肉,多少菜,大概能吃多久,心里得出一组信息,这就是数据分析。而关系到你做出选择的时候就需要对这些信息进行价值评估,根据自己的偏好,营养价值,科学的搭配,用餐时间计划,最有性价比的组合等等,对这些信息进行价值化分析,最终确定一个购买方案,这就是数据挖掘。
数据分析与数据挖掘的结合最终才能落地,将数据的有用性发挥到极致。
    关于数据挖掘,涉及的主要方法主要有:数据分析的方法、可视技术、关联法则、神经网络、决策树、遗传算法等。
    主要使用的工具有:R语言,SAS,weka,SPSS Modeler(Clementine)等,可参考几款开源的软件:http://www.iteye.com/news/4693
人大经济论坛数据分析师系统培训第四部分课程是:R软件及数据挖掘技术应用。由中央财经大学统计学院副院长马景义教授主讲,喜欢的同学可以过来一起学习。
使用的具体案例有:


[*]电信客户分类,船只损坏率分析
[*]电信客户流失预测,房价预测
[*]信用卡逾期客户预测
[*]手机用户市场细分,购物篮分析

hhf203 发表于 2023-10-4 19:16:01

不请自来。同样的问题回答过一次数据分析、数据挖掘、数据统计、OLAP 之间的差异是什么?,直接搬运过来好了。
简单说:数据挖掘就是从海量数据中找到隐藏的规则,数据分析一般要分析的目标比较明确。
主要区别:

[*]“数据分析”的重点是观察数据,而“数据挖掘”的重点是从数据中发现“知识规则”KDD(Knowledge Discover in Database)。
[*]“数据分析”得出的结论是人的智力活动结果,而“数据挖掘”得出的结论是机器从学习集(或训练集、样本集)发现的知识规则。
[*]“数据分析”得出结论的运用是人的智力活动,而“数据挖掘”发现的知识规则,可以直接应用到预测。
[*]“数据分析”不能建立数学模型,需要人工建模,而“数据挖掘”直接完成了数学建模。如传统的控制论建模的本质就是描述输入变量与输出变量之间的函数关系,“数据挖掘”可以通过机器学习自动建立输入与输出的函数关系,根据KDD得出的“规则”,给定一组输入参数,就可以得出一组输出量。
举个简单的例子:

[*]有一些人总是不及时向电信运营商缴钱,如何发现它们?
数据分析:通过对数据的观察,我们发现不及时缴钱人群里的贫困人口占82%。所以结论是收入低的人往往会缴费不及时。结论就需要降低资费。
数据挖掘:通过编写好的算法自行发现深层次的原因。原因可能是,家住在五环以外的人,由于环境偏远不及时缴钱。结论就需要多设立一些营业厅或者自助缴费点。
以上。
页: [1]
查看完整版本: 数据挖掘与数据分析的主要区别是什么?