大数据挖掘首先还是数据挖掘, 所以数据挖掘的理论知识(机器学习, 统计分析)是基础 再来说大数据的环境下怎么做数据挖掘, 大数据环境有以下这些特点, 因此涉及的技术也与之对应:
1.数据来源多, 大数据挖掘的研究对象往往不只涉及一个业务系统, 肯定是多个系统的融合分析, 因此,需要强大的ETL技术, 将多个系统的数据整合到一起, 并且, 多个系统的数据可能标准不同, 需要清洗。
2.数据的维度高, 整合起来的数据就不只传统数据挖掘的那一些维度了, 可能成百上千维, 这需要降维技术了。
3.大数据量的计算, 在单台服务器上是计算不了的, 这就需要使用分布式计算, 所以要掌握各种分布式计算框架, 像hadoop, spark之类, 需要掌握机器学习算法的分布式实现。
亿信华辰-大数据分析、数据治理、商业智能BI工具与服务提供商关于亿信华辰
亿信华辰是中国专业的智能数据产品与服务提供商,一直致力于为政企用户提供从数据采集、存储、治理、分析到智能应用的智能数据全生命周期管理方案,帮助企业实现数据驱动、数据智能,已积累了8000多家用户的服务和客户成功经验,为客户提供数据分析平台、数据治理系统搭建等专业的产品咨询、实施和技术支持服务。
△亿信华辰全产品架构图(点击查看大图)
欢迎关注公众号:亿信华辰Pro
-让数据驱动进步- |