论坛灌水员 发表于 2023-10-4 19:13:22

数据挖掘到底该学什么?

本人计算机大三学生,数据挖掘上课内容百分之80与机器学习上课讲的一样,最离谱的是,两个老师部分上课的ppt都是一样的。数据挖掘上课不讲数据,只是推导一些机器学习课中学过的算法,比如说决策树、k最近邻、SVM、PCA、LDA、神经网络、聚类、k-means、bagging、boosting等,当然也比机器学习多学了一些频繁项集、Apriori算法、FP增长算法、Adaboost等偏数据的算法。
作为一名初学者,数据挖掘与我预期相差很多,课上几乎没有涉及到对数据的挖掘,几乎都在做算法的推导。
虽然算法很重要,算法基础是以后学习的关键,但是学了这么多之后我真的一点不清楚数据挖掘到底该学什么?如何应用?为什么不侧重数据处理?挖掘又是什么?这些算法如何来挖掘数据关系?
希望有相关领域的学长学姐领我入门一下

zk839y 发表于 2023-10-4 19:13:59

撸模型,调参数

zhang1694 发表于 2023-10-4 19:14:05

学校的培养方案,其实都是偏理论基础性质的,真正要做挖掘,建议还是自己找数据练习,包括国内外都会有很多的公开数据可以获取,练习用足够了。而如果以后要往数据挖掘方向去走,那么需要学的东西还很多。
从市场来说来说,数据挖掘工程师技能要求包括但不限于:
熟悉至少一门编程语言如(C,C++,Java,Delphi等)和数据库原理和操作,对数据挖掘有扎实的基础,可以参考《数据挖掘概念与技术》、《人工智能及其应用》、《数据挖掘:实用机器学习技术及Java实现》等一些资料学习。
其次,需要有深厚的数理统计基础,需要熟练使用主流的数据挖掘(或统计分析)工具。
从这个方面切入数据挖掘领域的话,你需要学习《数理统计》、《概率论》、《统计学习基础:数据挖掘、推理与预测》、《金融数据挖掘》,《业务建模与数据挖掘》、《数据挖掘实践》等,当然也少不了你使用的工具的对应说明书了,如SPSS、SAS等厂商的《SAS数据挖掘与分析》、《数据挖掘Clementine应用实务》,如果多看一些如《数据挖掘原理》等书籍那就更好了。

dollon 发表于 2023-10-4 19:14:31

学校学的基本都是偏理论的,这些是基础,如果导师也在做一些项目,那还能带着做一些实际的
这里有一个企业编的数据挖掘的课程,在线看都是免费的,可以抽时间去学习一下,看看实际业务中,数据挖掘是怎么用的
乾学院图书课程
http://picx.zhimg.com/v2-0e8aaf7ba586a4d9fd5fe611056240b2_r.jpg?source=1940ef5c

http://pica.zhimg.com/v2-a2c8a794199891ece2bd2fd7c70d7320_r.jpg?source=1940ef5c

标签号 发表于 2023-10-4 19:14:36

首先要理解什么是数据挖掘。根据我的工作经验来看(不一定准确,纯个人感受),从收集到的数据中总结一系列的规律,为之后的事务提供坚实的保障和有力的指导,这也有另一个说法叫做释放数据价值。所以,数据挖掘的根本问题不是数据挖掘,而是提供保障甚至是直接的盈利手段。单单只说数据处理,数据统计,那不叫数据挖掘。

其次,还是要从上面的表述出发,从数据中总结规律都有什么样的手段:
第一大类是依靠人的理解能力进行经验的归纳:简单的数据汇总、统计学分析、专家评价等等,这种方法归纳出的规律,是存储在人脑里面的,至少他是可以被人短时间内理解的;第二大类是依靠计算机的运算能力进行经验的总结,这一类总结的经验不是存储在人脑里面,而是储存在计算机内(或者云上的),他们无法被人短时间内理解他们的具体细节,但是它们能够快速的给出指导性的意见(就是直接输出某种结果),这一类就是你问题之中提到的各种传统的机器学习算法,各种神经网络模型。两种方法没有优劣,只是各自有相应的适用范围(这一点很重要)。
展开说:
第一,就是描述性的报表统计分析,大到国家统计局、小到打工人的日常工作,都可以对于已经发生的事务所产生的数据进行一下总结,归纳其中规律,找到哪些点可以改善。
第二,通过数学模型模拟某种事务,这种区别于简单统计学分析,也区别于机器学习和深度学习算法。他是通过将某件事进行简化或者抽象,变成一种数学模型,然后都通过研究这种数学模型来找到具体事件背后的规律,例如,大量的经济学模型,今年初预测新冠传染人数的传染病模型,金融证券领域一些传统模型,还有一些基于数学建模的排班制度制定等等,甚至一些具体的理工学科的公式(力学、热力学、流体力学等等等)本质上都属于这一类。
第三,基于传统机器学习模型的数据挖掘,通常用来分析二维的结构化数据(行代表样本,列代表特征),可以直接得到对未来事务的指导,而不必理解模型的具体细节。通常都是通过模型训练时的某些XX率(准确率、精确率、召回率、F1-score)或者各种损失函数值来判断模型对于未来事务的指导是否有效。这里有一个问题,每种算法和模型的适用范围都有它的局限性,他们的适用性往往不只是网上能够查到的“XXX算法的优缺点”能够概括的,需要对算法背后数学基础有一定的了解,才能够根据具体的情况选择适合的算法。
第四,基于深度神经网络的数据挖掘,尝尝用来处理非结构化数据,比如,文本、语音、图片、视频等等,实际上理论不算很难,层出不穷的模型得益于各种精妙网络结构设计和计算用的硬件能力的长足发展。
具体怎么用,需要我们把平时业务问题抽象成我们接触过的各种数学模型和算法。

再次,就是都可以为什么样事务提供保障、指导甚至是成为直接的盈利手段
这里举几个简单的例子(注意:实际情况比例子复杂很多很多),我有一家公司,是卖摄像头的
第一、我的公司在全国三个区域进行销售,东北、华北、华中,我全年的销售额是这样的,

http://pic1.zhimg.com/v2-f39d98630f906f9b37583d42c477f3ae_r.jpg?source=1940ef5c
这样的通过简单的统计分析,了解了我全年的收入情况,华北是第三季度才刚刚成立,所以盈利能力还没有形成,对比东北和华中,东北销量比较低,华中的某些做法是不是可以引入到东北以促进东北地区的收入呢,这些都可以引入到后续的观察
东北四个季度销售数据是波动的这个波动情况是否合理,通过跟去年的数据对比或者采用某种异常检测模型检验销售数据的波动。

第二、因为华北地区销售网络刚刚铺开,我想预估一下整个摄像头市场大概有多大,这里可以采用费米估计算法,对问题进行研究。具体原理不说,费米估计是一种在掌握信息较少或者掌握信息粒度较粗情况下,一种进行适当推理的算法,它适用于只要求结果跟真实值之间在数量级上能够大体相当即可
第三、因为近期国家在大力建设雄安新区,市场很大,但是,我们的产品跟其他公司同质化严重,我们进入华北市场比较晚,不容易脱颖而出,所以只卖摄像头肯定不行。我们可以同时卖智能安防系统,里面带有摄像头,智能安防提供人脸检测,体态检测等一系列的能力,这实际上就是把结合深度学习模型和一些其他系统组件组装成了一个产品对外销售,直接进行获利。

最后,通过一个类比总结一下,数据挖掘只是一个工具间,里面有需要人力的螺丝刀,砂纸,也有插电的电钻、砂轮,也有精密的数控车床。这个工具间的能力强,可以造出很多实际的产品,也可以造出其他工具。但是,需要拿工具的人知道什么时候用螺丝刀,什么时候用数控车床,然后你现在学习的内容就是积累这个知识的过程。

当然如果着急想实际操作,就去Kaggle找点数据试一试就行了。
最后的最后,实际的数据挖掘过程大量的时间在进行特征工程(这个在学校是学不到的需要大量实践经验,因为特征之间的关系层出不穷,没有一定之规,需要具体问题具体分析),输入模型的数据质量决定最终挖掘结论准确性的上限(达到的高度),而应用合适的模型决定结论准确性的下限(逼近上限的能力)
页: [1]
查看完整版本: 数据挖掘到底该学什么?