[IT技术] 毕业后想从事数据挖掘和数据分析方面的工作,需要考什么证书,或者需要做什么必要的准备?

[复制链接]
wo177775 发表于 2023-10-4 19:13:50|来自:北京大兴 | 显示全部楼层 |阅读模式
我目前在德国留学,在本领域有没有国际通用的一些证书之类的
全部回复5 显示全部楼层
w66133 发表于 2023-10-4 19:14:27|来自:北京大兴 | 显示全部楼层
想要掌握好这门技能,是一定是要多做数据分析项目的,证书相对于经验,还是微不足道了一些,从我多次的面试结果和经验上来看,在HR那里证书只能证明你很会考试,并不能证明你很适合这份工作,职场不是刷题,想要通过考证来学习专业知识,挺难的。
毕竟实践是检验真理的唯一标准,只有做得够多才能以不变应对万变,相信大家也深有体会……如果你的目标是找工作,那还是老老实实做几个项目放到简历上吧,这比什么都管用下面我就来唠一唠从事数据挖掘和数据分析方面的工作需要做什么准备吧,毕竟企业都需要的是实干型人才。
好马配好鞍,成为大神的第一步就是懂得学习和梳理。那我就来给大家梳理一下从事数据挖掘和数据分析方面的工作需要做的准备吧!
首先我给大家准备了一张思维导图,更加直观和明确。我们一步一步来进行介绍。


我们一个个来说
一、论基础——统计学分析,一听这个词大家肯定不会觉得陌生,但如果要让你分析介绍什么是统计学,那定是要难倒一大批人。其实我们只需要简单举个栗子,就能够一下子讲清楚。就比如我们平时最爱谈论的帅哥美女,我们对他们的描述一定少不了:大眼睛、高鼻梁、大长腿,不可能会有人见过全世界所有的美女帅哥,但是每个人却都能通过这几个代表美女的指标大概清楚什么样子的人是帅哥或者美女。所以我们得出结论:描述统计学的关键点在于,需要通过几个关键词来概述整体情况,专业术语中他们分别又被称呼为平均值,四分位数、标准差和标准分。
我认为统计是数据分析的基石,统计分析可以解决日常百分之八十的分析需求,所以强烈建议一定要从统计学学起。这里推荐几本书
1、《商务与经济统计》
说下推荐理由吧,豆瓣评分9.3,是非常可观的分数了。这本书的特点是案例很丰富,讲解通俗易懂,并不是成堆成堆的专业术语堆积出来的,非常适合零基础的读者。


2、《深入浅出统计学》


豆瓣评分8分以上,颇受好评。深入浅出系列的书籍都很通俗易懂,非常适合作为入门去学习。
3、《赤裸裸的统计学》


豆瓣评分8.1,讲解很多生活案例,可以从不同的观点去了解和熟悉统计学,可以用统计学的知识学会观察我们周边真实的世界,用很轻松的心态去了解统计学。
二、数据分析工具
相信就算没有从事这个职业的人,看到Python也不会陌生,可以明显感知到Python真的很火爆,当然,火爆的同时不乏很多人跟风盲目学习,但最后基本都是要么发现自己学不会,要么发现自己学完用不到。
其实,这里藏有一个误区,在工作中我们最常用的数据分析工具其实是excel、sql。
Excel:功能非常的强大,各类函数非常丰富,尤其是数据透视表的功能如果运用好,分析能力一定是巨大进步。
Sql;Excel局限在于数据量受到限制,当你需要研究的数据超过百万级别的时候,Excel就太过于力不从心,这个时候就比较需要数据库来解决问题。
在这里我真心的建议,没有基础的人,不要没学过走,就想着跑,一上来就学习Python,而是应该先把excel和sql掌握到。这样下来,在学习Python会更加的容易和便于理解,少走很多的弯路。


三、可视化工具
既然话说到这里了,我就给大家推荐三个可视化工具吧!



BI工具相比起excel,无论是图表制作还是分析,也都相对于专业,不用写大量的公式,耗时耗力,BI处理速度快,做报表也方便。
1、FineBI
FineBI商业智能软件 - 新一代自助大数据分析的BI工具应该是我最常用的BI分析工具了,用惯了之后觉得其他的工具都有点麻烦,FineBI操作简单,仅需轻轻拖拽字段即可自动生成图标,系统会精准智能的给你推荐最为合适的图标。在运用的过程中几乎不需要写函数,因为FineBI的功能已经足够强大,内置各种的计算功能,数据过筛条件等。它里面自带几十种常用图表,以及动态效果,无论是实用性还是美观性都非常在线。
最后提一句,重点是个人版永久免费,且没有阉割功能,对比起来说算是非常良心了。




2、ECHARTs
ECHARTs可以直接在网页做图。门槛相对于较低,不懂得编程也没有影响,它可以一键自动生成十分完善的图标,当然,如果你懂得编程,那么你可以随心所欲的按照自己的想法进行改进和个性化设置。ECHARTs支持用户的个性化定制,有多种多样的图形库,用户可以自发的对数据进行挖掘、整合。但缺点是,移动端使用不太方便,比较卡顿,一定程度上面会减少用户体验感。




3、PowerBI
微软出的一个商业分析工具,操作类似于Excel,但是起点较高,对于掌握函数的人群更加方便,它集成了Python,可以直接爬取网页数据,自动分析形成可视化。个人版使用免费。但由于是国外的软件,所以对于国内复杂的业务需求不是完全能够匹配和适应。


四、分析思维
在这里我称它为数据分析思维,数据分析,一定要带着目的去推进。以前同事总是打趣我“你的数据分析思路怎么那么多,可以写那么长?”而我只是恰恰掌握了,以下几种能力。
1、 在别人的角度进行思考
把自己想象成公司领域不同的角色,站在他人的视角寻找和思考自己有没有需要进行数据分析的点,比如我就会把自己想象成公司的运营、销售、客户、供应商,用他们的思维去看待自己的数据分析,十分有助于分析思路。
2、 随时关注行业信息,并从中获取灵感。
当一个人学会站在公司战略层面趋向问题的时候,你已经成功一半了,因为行业内绝大多数的公司一定是追随着行业的潮流而动的,俗话说“行情不动,我不动”,因此如果能够提前关注到行业最近的动向,并学会“动之以情,晓之以理,诱之以利,那么你的分析就能从支撑战略转化为决策了。 所以平时可以把关注行业网站作为自己的习惯,多多阅读,厚积而薄发。
3、 发挥主观能动性
闪闪发光的数据分析思路永远都是来自自己聪慧的大脑的,如果一味的听领导上级的指示,推一下走一步,那永远只是可替代性员工,数据分析不仅要能实现,也要能思考。懂行业,有头脑的数据分析师是凤毛麟角,
五、通用能力,这里我列举出来的有PPT能力和表达能力。
表达能力又能再次分为


1、 逻辑能力顾名思义,就是能够逻辑自洽,能把一件事情给别人讲清楚,千万不能心如明镜但说不出,表达不出。逻辑能力强的人写下的文字,也更容易被接受,读起来更通顺。
举个例子,都美竹的微博和郑爽的微博,大家更愿意看哪个?显而易见是都美竹的,都美竹的微博条理清晰,吃瓜群众通读下来便能掌握到信息,重点一目了然。
2、 文字能力
数据分析师本身就是每天和分析报告不停打招呼的人,优秀的表达能力总是能让人事半功倍,在多个领域都是加分利器。提高这个能力的办法就是不断去写作,其次就是要拓宽知识面,知识面的宽度就是思路的宽度,我们不能局限于业务的学习,应该多读一些好书,多读一些经典著作,这非常有助于我们开阔视野打开思路。
3、 沟通能力
在实际工作中,一个人的沟通协调能力是尤为重要的。善于沟通,良好的沟通效果往往会使人在工作中打开局面,赢得宽松的发展空间。不擅长沟通则会使人举步维艰,还会产生较强的挫败感。工作中每个人都会或多或少的碰到一些沟通障碍,可以碰壁但不能放弃主动沟通,因为如果房企沟通,就相当于关闭自己,那样就真的失败了。
最后,就是PPT能力了,其实很多人都会下意识的忽视PPT,认为它和数据是没有丝毫关系的。如果你也这么认为,那就真的是大错特错,想的太过于简单了。俗话说“能干的不如能说的”,很多时候数据分析师都需要用PPT来向领导汇报分析结果,可能你所有熬夜掉的头发最后的价值都体现在这几张PPT上面了,所以学会用PPT制作分析报告也是必须的。
在这里也给大家推荐几个学习PPT的网站吧
1、 锐普PPT论坛
虽然说现阶段来说已经很久不再更新了,但是里面还是有很多实用性的PPT技巧的,干货满满。
2、B站
这只是我用过的一个视频,当然,因人而异,B站上面的可供选项还是非常多的,搜索关键词,任君挑选就好咯。
必须强调的是——“PPT一定要多练!”
记得一定要经常动手做,可以边看视频边跟着做。不然你就会变成“一看都会 一做就废”“手学会了,脑子没学会”


以上答案均只供参考,希望对你有帮助。
好了,说了那么多,归根结底就是工具+方法+坚持。希望同学能好好把握。
<hr/>最后分享一些资源:
企业数据可视化平台0-1建设方案​10+央国企数字化转型案例集​​BI建设地图(行业独家)商业智能(BI)白皮书3.0
aiayuan 发表于 2023-10-4 19:14:52|来自:北京大兴 | 显示全部楼层
关于如何准备数据分析类的工作,这可能是你看过的最全的,同时,我会在文末教你如何找到适合数据岗位发展的公司,这个别人应该没写过吧。
“我是文科生出身,可以学习数据分析吗?”
“我没有编程基础,可以成为数据分析师吗?”
“学习数据分析必须学习R和Python吗?”
… …
其实,数据分析没有想象中那么难,入门也没有那么多条条框框。
我认识的HR转数据分析,市场营销转数据运营的,大有人在。
数据分析重要的是问题的理解、分析的思路、分析的流程以及结果的解读,工具和编程都是实现这些分析思路的手段。
这里分享一下我整理的一份数据分析自学进阶的资料合集,欢迎大家按需自取,包括:我原创的《十周入门数据分析》专栏文章合集、20本数据分析经典电子书、50+个数据分析实操项目、14个行业的数据分析指标体系
数据分析自学、进阶资料合集下载-----
最近我也在给公司内部和团队培训数据分析,有技术也有业务。盘算了一下数据分析的入门知识,大体分为以下这些,只要拿出你大学时啃高数的状态,每周夯实一个基础,三个月基本能学成。
学习大纲:


  • 数据分析的思维和方法
  • Excel进阶
  • 数据库和SQL入门
  • 数理统计学
  • 数据分析软件应用
  • 数据可视化
  • 常见的业务分析模型
  • Python/R语言掌握
  • 业务理解和指标设计
  • 增长黑客:数据驱动增长
第一周:培养数据分析思维

为什么数据分析思维很重要?
如果我们在分析一个问题前,思维缺失就像下面图中所表达的一样,往往不知道问题从哪里下手,即使拿到数据也是一脸懵逼。
所以我们要通过训练数据分析思维,帮助在遇到问题时,大家脑中能快速梳理出分析的切入点以及思路,这一点很重要。



图片源自网络

常用的一些思维方式:
1、金字塔/结构化思维
把待分析问题按不同方向去分类,然后不断拆分细化,能全方位的思考问题,一般是先把所有能想到的一些论点先写出来,然后在进行整理归纳成金字塔模型。主要通过思维导图来写我们的分析思维。
2、公式化思维
在结构化的基础上,这些论点往往会存在一些数量关系,使其能进行+、-、×、÷的计算,将这些论点进行量化分析,从而验证论点。所谓指标体系,就是这么梳理得来的。
3、业务化思维
业务化即是深入了解业务情况,结合该项目的具体业务进行分析,并且能让分析结果进行落地执行。用结构化思考+公式化拆解得出的最终分析论点再很多时候表示的是一种现象,不能体现产生结果的原因。所以需要继续去用业务思维去思考,站在业务人员或分析对象的角度思考问题,深究出现这种现象的原因或者通过数据推动业务。
增加业务思维方法:贴近业务,换位思考,积累经验。
同时,这样的思维模式在一些特定业务场景下,还衍生出一些基础的分析方法,比如象限法、多维法、假设法、指数法、二八法、对比法、漏斗法,这个对未来构建分析模型都有帮助。
思维模型的好处是他能提供一种视角或思维框架,从而帮助你建立起观察事物和分析问题的视角。通过对思维模型的学习和训练,能提高你成功的可能性。
第二周:Excel技能进阶

学习Excel是一个循序渐进的过程
基础的:简单的表格数据处理、筛选、排序
函数和公式:常用函数、高级数据计算、数组公式、多维引用、function
可视化图表:图形图示展示、高级图表、图表插件
数据透视表、VBA程序开发
按照我习惯的方法,先过一遍基础,知道什么是什么,然后找几个case练习。多逛逛excelhome论坛,平常多思考如何用excel来解决问题,善用插件。
函数和数据透视表是两个重点,结合业务场景来学习,可参考《谁说菜鸟不会数据分析》。
制作数据模板必须掌握的excel函数
日期函数:day,month,year,date,today,weekday,weeknum。日期函数是做分析模板的必备,可以用日期函数来控制数据的展示,查询指定时间段的数据。
数学函数:product,rand,randbetween,round,sum,sumif,sumifs,sumproduct
统计函数:large,small,max,min,median,mode,rank,count,countif,countifs,average,averageif,averageifs。统计函数在数据分析中具有举足轻重的作用,求平均值,最大值,中位数,众位数都用得到。
查找和引用函数:choose,match,index,indirect,column,row,vlookup,hlookup,lookup,offset,getpivotdata。这几个函数的作用不用多说,特别是vlookup,不会这个函数基本上复杂一点的报表寸步难行。
文本函数:find,search,text,value,concatenate,left,right,mid,len。这几个函数多半用在数据整理阶段使用。
逻辑函数:and,or,false,true,if,iferror。
数据透视表
数据透视表的作用是把大量数据生成可交互的报表,数据透视表具有这样一些重要功能:分类汇总、取平均、最大最小值、自动排序、自动筛选、自动分组;可分析占比、同比、环比、定比、自定义公式。
第三周:学习数据库原理和SQL

做数据分析,数据从哪里来?数据库!怎么取数据?写SQL!
做数据分析,取数、清洗数据,基本都要依赖SQL。
初入门阶段,对于数据库不必精通,只需了解常用的数据库类型,能够在现有的表格里面查询出数据,能够更新数据对数据进行重编码,知道怎么增加添加数据,把数据变得规整就行。理解主键,索引等含义和用处。导入导出数据可以使用工具,分析数据可以使用ODBC或者其他的接口对数据库进行连接。取数的排序,做数据的交集并集,数据转换,数据表合并等这些,最好也能掌握。
sql的学习,看这个就够了:SQL教程_w3cschool
这里总结了几个核心技能:
引自:数据分析人员如何快速入门SQL-SQL学习感悟(一) - Ash_Zhang的技术小屋
技能一:学会用select语句​添加字段和找出需要的数据​
直接给一个随时可以套用的万金油模板吧:​
select cola,colb,colc into newtable from oldtable wherecola='x' and colb is not null;
基本上,学会这个就可以完全的查出大部分的数据了。
select后面是一个个的字段,要哪个选哪个。有into意味着放到一张新表里面,没有就是查询出来。where之后的就是我们的条件,等于某个值,或者是不是空值,是最常用的几种查询方式吧。
还有一种select也用的非常多:select cola from oldtable group by cola;
这个语句是看看cola有多少种值的可能性。
select进阶学习,可能要讲讲join,union,以及多个查询组合成的嵌套查询,或者是子查询的模式,以及模糊查询。这个后面我会再花篇幅写出来给大家参考。
技能二:学会alter学会增加,减少字段
alter可以做的事情很多,增加字段,减少字段,​增加主键减少主键等等,非常常用。
1. 增加字段:alter table tablename add colname varchar;
这样就可以增加​一个空字段,varchar是一种数据类型。
2. 减少字段:alter table tablename drop column colname;
这样就去掉了一个原有的字段。
技能三:学会update学会更新数据更新数据
大概常用的有两种,一种是更新成一个固定值:
update table set col=1;
另一种是从另一张表里面更新,这种方法,在处理一些小型数据的时候经常会导出,然后导入到数据库,就可以用:
update table set col=tableb.col from tableb where table.id=tableb.id;
里面table和tableb是两张表,然后通过两张表的id关联起来,学会这个书写结构就行。
第四周:数理统计学

统计学是数据分析师必备的基础知识之一,是一组用于汇总数据和量化给定观测样本域属性的工具。
单独的原始观察数据只是数据,还不能变为我们想要的信息或知识。有了原始数据,那么接下来的问题是:

  • 什么是最常见或可预期的观测?
  • 观测的限制条件是什么?
  • 数据是什么样子的?
回答这些问题,我们需要借助一些统计工具来得出一些结论。借助统计学,你的分析深度、专业度和科学性都会有很大提升。
所以这一周,我们需要掌握统计学的以下几大概念:
1.集中趋势(中数、众数、平均数)
2.变异(四分位数、四分位距、异常值、方差)
3.归一化(标准分数)
4.正态分布
5.抽样分布(中心极限、抽样分布)
6.估计(置性度、置信区间)
7.假设检验
8.T检验
推荐书籍:吴喜之-《统计学·从数据到结论》
第五周:数据分析软件应用

有了数据分析思维基础,懂一些统计学知识之后,我们就可以着手开始相对专业的分析,用可视化的方法探索数据的规律。
这一周,除了Excel,你需要掌握一个傍身的数据分析工具。
考虑到快速入门,这里暂时放一放SPSS、R、Python一类工具,先掌握BI工具的运用,帮助快速熟悉起数据分析的流程。知名的BI产品有Tableau,Power BI,还有国内的FineBI,网上都有体验版和免费版下载。处理好的数据拿来放BI分析,分分钟就能出很漂亮的可视化,比Excel的图表高级多了,而且绝大多数人都能轻松上手。
BI需要掌握数据的连接,连不上数据怎么分析。还有仪表盘Dashboard的概念,知道绝大多数图表适用的场景和怎么绘制,维度和指标的区分。一些数据的清洗,如果BI掌握得透彻也可以放BI处理,但不熟悉还是用SQL处理吧。
这里的工具推荐几个:
FineBI商业智能 - 帆软,专业的大数据BI和分析平台提供商FineReport报表 - 帆软,专业的大数据BI和分析平台提供商下面可视化的工具也可以用到
第六周:数据可视化

可视化看似是简单的步骤,但也是有造诣的。可视化说白了是一种表达,数据分析结果表达的是否到位,领导是否认同,工资涨不涨,全靠这一纸dashboard(当然还有你“讲故事”的功力)。
如何选择最佳的图表类型?趋势性、相关性、分布性、周期性、地理位置分布性……
颜色和字体等细节样式方面,如何进行更加美观的调配。
布局设计原则,故事性布置可视化仪表板,报告的标题和结论注释,以及整体展现的逻辑性。
还有很多可视化的陷阱,都是值得花一周探究的。


第七周:常见的业务分析模型

基于一些数据分析方法,如象限法、多维法、假设法、指数法、二八法、对比法、漏斗法,在特定业务场景下,还衍生了通用的业务分析模型,常用的有购物篮分析模型,RFM模型,漏斗分析模型,客户生命周期,以及预测、聚类分析等挖掘模型。
这一周我们要掌握常用的分析模型,最好能有深刻的认识,直接套用到实际的业务场景中,活学活用。
第八周:Python/R语言掌握

到这一周,数据分析的入门之路基本上完成一大半。
本着提升自己,以及加大自己求职和面试的筹码,掌握Python或R绝对是加分项。
有关数据分析的编程语言有Python和R语言。R语言倾向于统计分析、绘图等。统计学家或者学统计学的喜欢用R语言,而我更青睐学习Python,因为Python是面向未来的语言,无论从流行度、可用性还是学习难度来讲,Python都是最好的入门语言。
当然,如果可以的话,再掌握一下R语言是最好不过的,学习嘛,永无止尽。
Python有很多分支,但我们学习的主题是数据分析,入门推荐《深入浅出Python编程》
从code academy开始学起,完成上面的所有练习。Code academy涵盖了Python基本概念。当完成了code academy练习之后,看看这个Ipython notebook:
其次,掌握三个库Numpy、Pandas、Matplotlib
Numpy是利用Python科学计算的基础包,对Numpy好的掌握将会帮助你有效地使用其他工具例如Pandas。包括N维数组,索引,数组切片,整数索引,数组转换,通用函数,使用数组处理数据,常用的统计方法等等。
Numpy Basics Tutorial,Index Numpy 遇到Numpy陌生函数,查询用法,推荐!
Pandas包含了高级的数据结构和操作工具,能使得Python数据分析更加快速和容易。包含series, data frams,从一个axis删除数据,缺失数据处理等等。
Pandas Basics Tutorial,Index Pandas 遇到陌生函数,查询用法,推荐!
Matplotlib是一个强大的Python可视化库。几行代码就能绘制出散点图、折线图、直方图、柱状图、箱线图等。
第九周:业务理解和指标设计

到了第九周,大家可以发现,这个学习计划更多是偏业务的数据分析,可见业务理解的重要性。但业务理解需要多年的积累,没有掌握的捷径。刚入门也不会拷问太多业务上的问题,更多时候是考验你逻辑思维能力和数据分析的方法。所以简单花一周时间了解各行业的业态,各业务的通用指标。
其次,指标体系。几乎一个数据岗的岗位要求都会涉及这样一句话:“负责建立和优化部门的数据指标体系”。事实上目前大多的数据岗主要工作都是不断完善与优化数据指标体系,而对层面的工作是比较少的,即使岗位叫做数据分析师 。一个优秀的数据指标体系,不仅能让你快速解决数据需求,洞察出可能会被忽略的价值数据,还能反映出你目前最需解决的业务问题。所以,这一周还要掌握梳理业务指标的思路。
第十周:数据驱动&增长黑客

这个话题比较严肃,需要把数据分析师这个岗位放到整个公司甚至整个行业来看。任何一个岗位的设定都是要为企业带来价值或利润的,数据分析师也是如此。要搞清未来价值所在,升职加薪之路才会明朗。
目前有一个非常火的词来形容一类数据分析师,叫“增长黑客”,所做的事也很时髦,叫“数据驱动”。字面意思很好理解,就是利用数据分析技术给业务带来增长,驱动企业转型。
本周,你要了解业界不管是传统行业还是互联网行业数据驱动业务增长的成功案例。
未来成为增长黑客要做好哪些准备?
日常工作中,如何让自己避免成为“取数机”?
如何推动数据分析工作并得到老板重视?
工作中有哪些工作细节,去潜移默化的改变身边人尤其是老板对数据价值的认知?
<hr/>入门时大家需要对这个行业和企业了解更多,有些明知进去1~2年会有瓶颈的企业,是不是可以作为跳板或者大可不必要去。
从4个维度判断企业现的“数据内涵”

为了帮大家理解,我们从使用深度,工具平台,文化特征,企业人群4个角度去看数据发展的不同阶段的差异和特点。
沉睡型企业。基本就是用excel做一些基础统计和数据整理,在企业文化中数据就是excel,做数据分析的人也基本是兼职,其实就是表哥表姐。
在起步阶段,企业已经开始有了数据报表进行报告的习惯,企业特质就是excel满天飞,“谁要个数据,习惯说,稍等一下,我马上用excel飞给你”,工具还是以excel为主,数据库为辅,企业内部也出现少量的专职人员维护数据库。
发展型的企业。应用深度逐渐转向了分业务专题,分汇总明细的数据分析,文化特质变成了用数据说话,用数据规范工作,使用的工具也开始变成了以数据库,专业的分析工具为主,并且有了数据仓库的尝试,并且有专业团队负责数据工作。
成熟性企业。特点更加鲜明,应用深度上在企业级数据门户,已积累出不少对应业务场景的数据产品,数据类产品或服务是业务运营的核心组成部分,工具往往是大数据平台或者是各类成熟的数据组件,这时候管理数据运营的是企业的一级机构,叫大数据中心。
所以,不同的企业或者说企业在不同发展阶段,对于数据挑战和相应的资源储备是有极大差异的,对数据人才的要求自然也不尽相同。
最后分享一些BI建设、数据分析相关的优质资料:

大数据决策分析平台建设方案30+可视化大屏模板合集零售自助数据分析解决方案商业智能(BI)白皮书4.0我是做数据分析的老李 @李启方
zsq55281 发表于 2023-10-4 19:15:28|来自:北京大兴 | 显示全部楼层
一定一定要多做数据分析项目!!!
不是说看书和考证无用,只是纸上得来终觉浅嘛,如果想从事数据类的工作,那学生时代和数据相关的一些项目还是很重要的。
接下来就以一位粉丝的亲身经历作为例子。
首先鄙人工作岗位是销售运营岗,汽车行业,每天围绕一堆全国经销商的进销存数据和市场份额数据打交道,每天加班苦练EXCEL,仍然是做不完的表,加不完的班,相信每一个业务相关部门都深有体会……


就这样,我的分析能力还是没有进步,因为我根本没有时间停下来思考,每天只是一台机器,做着重复且无聊的事情。
我发现这样不行,是时候进行一次彻头彻尾的思考了。
我认为数据分析能力的核心有三个:梳理流程,寻找原因,提出建议,就从这3个方面展开。
一、梳理流程

基于流程梳理,我们才能提炼出指标体系,建立对业务逻辑的数据化认知。


1.目标越纯粹,越容易梳理清楚
目标不同的情况下,其流程和考核体系是完全不一样的
恋爱:风花雪月--吃吃喝喝玩玩--人吃饱全家不愁--浪漫
结婚:柴米油盐-买车买房-照顾家庭
2.流程越具体越好
对流程了解的越详细,设立的指标就越全面合理


3.方法知道的越多越好
遇到问题先不要着急找数据,先要找方法,目标是解决问题
梳理流程的方法总结:

  • 目标要分清,要明确,要聚焦
  • 拆分过程中达到目标的步骤越细越好
  • 每一个步骤能干什么框出一个范围
  • 最后确认数据记录了哪些没记录哪些(没记录的有没有可能多记录一些)
二、寻找原因

我们总喜欢问为什么,为什么新增激活的用户数上个月下降了?为什么销售数据下降了?
很多人的回答都不明确,比如说销售业绩下降了这个问题,需要明确从哪里得来的数据,数据是否准确,和什么时候对比下降了,为什么这个时候下降是个问题,是否是严重问题?


在动手分析前,我们要先了解销售数据包含哪些数据,以零售企业为例,销售数据一般包括:销售日期、销售区域、销售地点、经销商、渠道分类、产品系列、产品名称、产品价格、销售额、销售数量等数据。
了解了数据也不能急着开始分析,我们还要需要简单了解业务背景,比如公司目前所处的市场状况,重点销售的区域、重点关注产品、产品类型、竞品数据等等,这样在数据分析过程更容易找到分析的思路,分析的结果也能够发挥业务价值。
上面的这些都叫指标,也是分析的重点。

  • 指标的监控,实时&累计
  • 指标的规律分析
  • 指标的对比分析
1、指标的监控
一般都会对这些指标进行监控,有比较传统的:邮件报送(虽然数据的整合处理要花费业务人员很长时间,但也是要比没有好的);也有比较高端的:led屏幕实时监控。不管怎样的方式,也都是为了这一目的。现在很多公司已实现了指标监控的自动化,以及多平台整合与移动化监控等。
这儿举例用 FineReport 搭建的数据报表:


上面的图表是针对上一天销售指标的监控,最重要的两个指标(销售额与订单量)通过仪表盘展示出来,同时展示目标达成率,可以非常醒目的掌握最重要的信息。不达标?根据此信息就可以找到负责人进行责问了。
其他几个主要是订单分布情况,分别为各个价位的订单数量:体现客单价分布,若某一天的数据异常,比如发现客单价150的数量突然增加,则可能是店铺促销带来的效应(如果客单价下滑,但是销售额并没怎么增加,则非常明显的这次活动并不成功),也可能是某新品上线带来的冲击。总之,通过观察客单价的分布,是能够掌握很多信息的。
商品销量与平台销量的分布:主要是对销售分布的掌握,这类信息要说只通过这一天的数据来看出问题来,还是有些困难的,需要连起来看。下面会有提到。
订单时段分布:分析各个时间段的订单集中情况,例如上图中可以看出用户消费高峰期在晚上9点和10点左右。通过这些信息可以有针对性的调整销售策略。当然,如果突然某一天的订单分布有了很大的变动,也值得深入分析原因。
不止是每天的销售指标值的追踪,累计起来的数据可以产生不同的感觉,如下图所示。


一是累计销售额达成率,从图中可以看出整体的业绩表现。右边图表可以与该图形成联动,当数据异常时,可以进一步查看各月份的明细数据。
销售指标的累计值监控,是对整体销售业绩的掌控,而日报则关注与最近的数据,两者应更多的是结合起来使用,既要掌控全局,也要关注眼前。
2、指标的规律分布
很多事请,独立的去看,很难发现有什么异样,但是将时间维度拉开,扩大观察的视野之后,就会有很多新的发现。正如前面所说的产品销售分布与平台销售分布。


上图展示了各平台订单的占比分布情况。仔细浏览可以发现:在2月份(春节)期间,总体上天猫平台的订单占比很高;而京东平台上两个旗舰店,随着时间占比越来越高。这些信息会有助于帮助公司调整销售策略。
当数据出现异常变动,可以进一步浏览月份明细数据,可以获知店铺订单量占比的下降,是因为该店铺的业绩下滑,还是其他店铺的业绩提高,这类报表,不仅是对数据的跟踪,也是对各负责人对追踪。
3、指标的对比分析
比如从地区维度出发,从多个角度对比地区之间的差异,通过数据来给相关的团队以无形的压力,提醒各团队的异常情况并及时处理。


上图中,通过地图对各地区的销售情况进行直观的展示,可以选择不同的对比标准来展示。而右侧两个图表与地图形成联动,分别展示该地区的目标完成情况、同比环比情况。
通过上图中可以看出,2月份之前实际销售情况是优于计划值,而在2月份之后有些疲软,5月份的累积完成额已经落后于计划额。需要进一步分析销售情况不佳的原因。这时选择计划完成率对比指标,如果所有地区的完成率都偏低,那或许是大环境的问题,如果是大部分仅少部分地区的完成率偏低,那或许更多的是地区团队的问题。
通过这样的布局,可以对地区的销售情况进行较全面的展示,不能通过单一标准的好坏来展示团队的业绩。
比如,从商品维度出发,对比不同商品的价值贡献度,给到品牌负责人压力,以及为调整商品策略提供参考。


上图中,核心为左上角的商品利润分布图,通过该图对各商品的价值进行体现,这种图表适合商品数量较多的情况,可以很直观的显示出各商品的份量。
右侧两个折线图可与该气泡图实现联动,我们分别介绍一下:
权重曲线图:显示商品的权重分布情况,权重值=销售额/周权重系数,周权重系数在上一篇已经介绍过,是根据一周中每天的销售情况,对每天进行权重比例分配,例如周一到周日分布为:1.1,1,1.3,1.2,1.5,1.6,1.4。
这样计算后得到的值应该是一个较为平缓的曲线,但是我们从图中看出,6月18日的销售额明显高于正常值,我们可以推断这一天是活动日,通过下面的图中我们可以发现6月18日的单价较低,也可以侧面证明该商品在6月18日属于活动促销期间。
同时,在6月17日的销售情况比正常值要低,很可能是因为第二天活动造成的。而月初偏低、月末偏高,则有可能是营运团队在月初有一定的懈怠,月末有追赶业绩的情况。
当然,上面的结论都是根据数据推测出的,若要对结论进行验证,还需其它方法,比如进行ab测试等。
上面说到的FineReport报表工具,对于IT人来说是个不错的选择,简单拖拽写一写sql就会很轻松地做出nice的数据分析。
但是对那些不懂代码和编程的人来说,FineBI工具才是更合适的利器。
通过灵活的过滤组件,以及丰富的图表展示类型能够瞬时取出所需要的数据,输出各类美观图表,最最关键的是所有这些都是可以通过拖拽或者点击各类下拉筛选框,灵活使用,无需编写任何代码就能实现。


三、提出建议

4个因素,执行人、现状、方法、目标


比如,我今年赔了100万?我该怎么办?
现状:
什么叫“赔”?账面亏损 or 实际亏损
赔了100万,是不是个事??是九牛一毛还是全部家底
如果不清楚赔的严不严重,如何给出靠谱建议
目标:
如果是为了追求心理安慰,那就是开导一下喽
方法:
需要还多少?目前差多少?
有没有融资渠道?自己出还是找人借?
还不上会怎样?有多大回旋余地?
执行人:
在企业里,提问的可能是老板,但执行人却是业务方
再举个例子,当你感冒了,医生给你的建议:

  • 阿斯匹林一日三次,一次2片,吃3天——有具体行动
  • 3天内不能再着凉,不能喝酒,吃辣椒——有假设前提
  • 3天后如果还在打喷嚏,要复诊——有监控指标,有目标,目标就是康复,没有症状
有了执行人「自己」,有了现状「感冒」,有了方法,有了目标,才是一个靠谱的建议。
以上就是一个完整的数据分析能力培养过程。
我一直觉得,数据分析最不能纸上谈兵,所以我才在上面给了一个详细的销售分析案例。
当然,如果细分到各个行业的数据分析,我这里也有!
帆软:建筑行业如何做数据分析?19 赞同 · 6 评论文章帆软:3个角度解读销售数据应该如何分析138 赞同 · 3 评论文章也有商业分析能力的培养!
商业分析能力是怎样炼成的?199 赞同 · 13 评论回答  <hr/>最后分享一些相关资料:
大数据决策分析平台建设方案《数字国资》案例集(半年刊)BI建设地图(行业独家)商业智能(BI)白皮书3.0
screets 发表于 2023-10-4 19:15:35|来自:北京大兴 | 显示全部楼层
证书没用,因为面试官不看这个。
考过了只能证明:你很会考试,却不适合工作。
你可能会说“可以借助考试资料系统学习一下顺便考个证,给自己一个动力学习是关键。”
这纯属想给自己花钱找个理由。我只能说你想多了,有那钱干啥不香,动力只能花钱找吗?考证培训只会教你如何做题,而职场不是做题。想要通过考证来学习专业知识,很难。
如果你的目标是找工作,那还是老老实实做几个项目放到简历上吧,这比什么都管用。
公司的筛选方式也是通过面试来考察呢,而不是看你有没有证书。所以,现实是没人会把这个证书当回事。
一个人的时间是有限的,请把你的时间花到最值得、最重要的事情上面,而不是考证。
如果非要给考试一个意义,那么我只能说:唯一有用的地方在于办考证培训的机构赚到了。
学习准备的话,可以看
数据分析和挖掘有哪些公开的数据来源?有哪些你看了以后大呼过瘾的数据分析书?
itestit 发表于 2023-10-4 19:15:42|来自:北京大兴 | 显示全部楼层
整理了一系列关于数据分析师基础入门知识的问答,希望能给你帮助。以下:
————————————————————————

PART ONE 做数据必知五条!

Q1:什么是大数据?

A:大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

特点:数据量大、数据种类多、 要求实时性强、数据所蕴藏的价值大。对你没看错,光有量也不能称作合格的大数据!

Q2:大数据与什么专业有关?

A:传统的数学、统计学,就与之十分接近。后来的计算机、信息处理等等,也都与之密切相关。经济学中早就大量运用统计和数据。即使在历史学中,数据资料的运用也越来越广泛。

Q3:大数据能为我们做什么?

A:说到大数据的应用,主要有两个:精准化的定制和预测。

精准化的定制主要是针对供需两方的,获取需方的个性化需求,帮助供方定准定位目标,然后依据需求提供产品,最终实现供需双方的最佳匹配。

预测则主要围绕目标对象,基于它过去、未来的一些相关因素和数据分析,从而提前做出预警,或者是实时动态的优化。

Q4:大数据不是万能的吧?什么是它不能做的?

A:

1)大数据不能对具体行为作出精确预测

事实上,人们的社会行为具有不可预测性。甚至我们不妨可以定性地归成一个大数据测不准原理:人和事件,如果放到越大的空间和时间范围,则是越可以精确预测的;如果放到越小的空间和时间范围,则是越不可以精确预测的。

举个栗子:我们几乎可以在100%的程度上预测一个人24小时的范围内会吃饭,但若精确到某一分钟,则几乎不可能预测准确。进一步我们会发现,利用更多过去一段时间的数据,能够帮助我们提高预测某半个小时内是否吃饭的几率,但如果把时间精确到某一分钟,则更多的数据几乎提高不了预测的准确性。

2)大数据不能用来消除不确定性

3)大数据不能预测新业务

不能从大数据的相关性直接得出结论,而是要先确定业务逻辑,再用数据相关性去验证。数据只是行为的结果而不是相反,大数据之所以能够辅助预测,是因为人的行为具有规律性,一个具有朝九晚五、周末大休规律的白领,行为数据才会呈现出以日、周、月、年为周期。创新业务,也就是跟过去不一样的业务,因此,大数据是没法预测新业务的,也没法根据数据分析确定新出现的业务关联性是临时的,还是可持续的。

Q5:数据分析和数据挖掘的区别是什么?

A:

从分析的目的来看,数据分析一般是对历史数据进行统计学上的一些分析,数据挖掘更侧重于机器对未来的预测,一般应用于分类、聚类、推荐、关联规则等。

从分析的过程来看,数据分析更侧重于统计学上面的一些方法,经过人的推理演译得到结论;数据挖掘更侧重由机器进行自学习,直接到得到结论。

从分析的结果看,数据分析的结果是准确的统计量,而数据挖掘得到的一般是模糊的结果。

“数据分析”的重点是观察数据,“数据挖掘”的重点是从数据中发现“知识规则”KDD(Knowledge Discover in Database)。

“数据分析、数据统计”得出的结论是人的智力活动结果,“数据挖掘”得出的结论是机器从学习集(或训练集、样本集)发现的知识规则。“数据分析”需要人工建模,“数据挖掘”自动完成数学建模。

PART TWO 想要成为数据分析师,这些你不能不知!

Q6:数据分析师属于什么职业?

A:数据分析师更注意是对数据、数据指标的解读,通过对数据的分析,来解决商业问题。主要有以下几个次层次:

1)业务监控:诊断当前业务是否正常?是否存在问题?业务发展是否达到预期(KPI)?如果没有达到预期,问主要问题在哪?是什么原因引起的?

2)建立分析体系:这些数据分析师已经对业务有一定的理解,对业务也相对比较熟悉,更多帮业务方建立一套分析体系,或者更高级是做成数据产品。例如:营销活动。分析师会告诉业务方,在活动前你应该分析哪些数据,从而制定恰当的营销计划。在营销过程中,你应该看哪些数据,从而及时做出营销活动调整。在营销活动,应该如何进行活动效果评估。

3)行业未来发展的趋势分析:这应该是数据分析师最高级别,有的公司叫做战略分析师/商业分析师。这个层次的数据分析师站的更高,在行业、宏观的层面进行业务分析,预测未来行业的发展,竞争对手的业务构成,帮助公司制定战略发展计划,并及时跟踪、分析市场动态,从而及时对战略进行不断优化。

☆主要技能要求:数据库知识(SQL至少要熟悉)、基本的统计分析知识、EXCEL要相当熟悉,对SPSS或SAS有一定的了解,对于与网站相关的业务还可能要求掌握GA等网站分析工具,当然PPT也是必备的。

Q7:新人如何学好数据分析?

A:零基础学员建议先学习理论基础知识。例如:统计学,概率论和数理统计,计量经济学。然后再学习软件,从最基本的人人必会的excel,到spss,再到SAS。

Q8:CDA是什么

A:【关于CDA】
CDA(Certified Data Analyst),即“CDA数据分析师”,是大数据和人工智能时代面向国际范围全行业的数据分析专业人才职业简称,具体指在互联网、金融、咨询、电信、零售、医疗、旅游等行业专门从事数据的采集、清洗、处理、分析并能制作业务报告、提供决策的新型数据分析人才。全球CDA持证者秉承着先进商业数据分析的新理念,遵循着《CDA数据分析师职业道德和行为准则》新规范,发挥着自身数据科学专业能力,推动科技创新进步,助力经济持续发展。
CDA数据分析师行业标准由国际范围数据科学领域的行业专家、学者及知名企业共同制定并每年修订更新,确保了标准的公立性、权威性、前沿性。通过CDA认证考试者可获得CDA数据分析师中英文认证证书。
“CDA数据分析师认证”是一套科学化,专业化,国际化的人才考核标准,共分为CDA LEVELⅠ ,LEVEL Ⅱ,LEVEL Ⅲ三个等级,涉及行业包括互联网、金融、咨询、电信、零售、医疗、旅游等,涉及岗位包括大数据、数据分析、市场、产品、运营、咨询、投资、研发等。该标准符合当今全球数据科学技术潮流,可以为各行业企业和机构提供数据人才参照标准。CDA数据分析师行业标准由国际范围数据科学领域的行业专家、学者及知名企业共同制定并每年修订更新,确保了标准的公立性、权威性、前沿性。通过CDA认证考试者可获得CDA数据分析师中英文认证证书。
CDA Level Ⅰ
面向范围:人人皆需的职场数据思维与通用数据技能
1. 零基础就业转行者、应届毕业生
2. 产品、运营、营销等业务岗与研发、技术岗在职者
3. 企业创始人、经理人、管理咨询类岗位从业者
岗位去向:商业(业务)分析师、初级数据分析师、(数据)产品运营、(数字)市场营销、数据专员等

CDA Level II
面向范围:企业数字化发展中必备的数据分析流程与技能。
1. 产品、运营、营销等业务部门与研发、中台、技术类部门数据分析相关岗位在职者。
2. 数字化转型企业创始人与数字化流程中相关负责人。
岗位去向:数据分析师、(数据)产品运营经理、(数字)营销经理、风控建模分析师、量化策略分析师、数据治理(质量)等

CDA Level III
面向范围:企业数字化发展中必备的高级数据分析方法与技术。
1. 业务岗与技术岗从事数据分析、数据挖掘、机器学习等技术在职提升者。
2. 从事算法科学、深度学习等工作的科研人员、分析师与工程师等。
岗位去向:高级数据分析师、机器学习工程师、算法工程师、数据科学家、首席数据官等

想了解更多CDA数据分析师证书考试信息和考试大纲的同学,可以请点击下方链接领取相关资料:
CDA数据分析认证中心-官网

Q9:有哪些常用的数据分析方法?

A:数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析等。

①分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。

②回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。

③聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。

④关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。

⑤特征。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。

⑥变化和偏差分析。偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。

Q10:常用的数据分析软件又有哪些?

A:最常用的是spss,属于非专业统计学的,当然,没有统计功底还是很难用的。sas是专业的统计分析软件,需要编程用,都是专业人士用的。

还有,数据分析中的数据挖掘,可以使用spss公司的clementine,经济类的计量经济学s-plus,stata。软件其实不重要,关键看你要解决什么问题,Excel与SPSS用的多一点,如果侧重在数据可视化的话需要用D3或者Python。如果是处理大数据量的要求,那就需要用到BI工具,数据仓库之类的东西了。 当然,还可以给你推荐FineExcel试用一下。功能强大而且操作一点都不负责。

PART THREE 不会数据挖掘?Oh ,No!

Q11:数据挖掘方向前途怎么样?

A:在国外很好;在国内,还处于起步阶段,真正的数据挖掘运用还比较少,找工作还是比较容易,学这个方向的,基本上出来是做数据处理、数据分析,或是有些干脆做软件开发师。

如果找数据挖掘的工作,地点也很重要,国内发展比较好的城市是北京和上海,广东也有少数。一般来说,比较大型的企才有投有数据挖掘工程师这个职位,其它企业如果需要,都是外包给专门的数据挖掘公司来做的。

比较能用得上数据挖掘的行业是大型网站、银行、医院,针对网站,一般要学习WEB挖掘,挺有前途,大型网站公司也会招这个职位。银行的数据挖掘也用得广,但它一般包给专业公司来做,有个方向叫商业智能,简称BI,觉得挺有前途的。应该是数据挖掘中以后会很热的行业

Q12:新人如何学习数据挖掘呢?

A:沈浩老师这么说——

数量统计知识方面:我认为统计思想是数学在实践中最重要的体现,但对于实际工作者最重要的是掌握统计思想,其实统计理论非常复杂,但实际应用往往是比较简单的!

掌握软件问题:从软件角度学,是非常好的思路,我基本上就是这样学的。我常说编软件的人最懂理论,否则编不出来,编软件的人最知道应用,否则软件买不出去;现在软件越来越友好,把软件自带案例做一遍,你会自觉不自觉的掌握软件解决问题的思路和能解决的问题类型;

数据仓库问题:OLAP和数据挖掘是数据仓库建立基础上的两个增值应用,从企业整体角度,数据挖掘应该建立在企业数据仓库完备的基础上。所以说数据仓库是针对企业级数据挖掘应用提出的,但我们应该记住,企业从来不是为了数据挖掘建立数据仓库,而是因为有了数据仓库后必然会提出数据挖掘的需求!现在随着数据挖掘软件的工具智能化,以及数据仓库和ETL工具的接口友好,对数据库层面的要求越来越少;

数学不好可能反应了一个人思考问题的方式或深入理解问题的能力,但数学不是工具是脑具,不断解决问题的过程可以让我们思考问题更数学化!

Q13:数据挖掘的应用领域有哪些?

A:目前擞据挖掘的应用领域包括以下八个方面:

金融、医疗保健、市场业、零售业、制造业、司法、工程和科学、保险业

在选择一种数据挖掘技术的时候,应根据问题的特点来决定采用哪种数据挖掘形式比较合适。应选择符合数据模型的算法,确定合适的模型和参数,只有选择好正确的数据挖掘工具,才能真正发挥数据挖掘的作用。

Q14:数据挖掘跟神经网络有什么关系?

A:神经网络是属于人工智能范畴的,但可以用于数据挖掘,比如通过一批样本数据,训练出神经网络模型,然后再去测试新数据。就是对数据挖掘中分类技术的一个应用。

数据挖掘就是从大量数据中挖掘有用的知识,神经网络就是一种有学习能力的类似人脑活动的技术,其实也是在提炼知识。数据挖掘和许多学科都有交叉,概率统计、数据库、机器学习等等。

Q15:数据挖掘有哪些经典算法?

A:一般数据挖掘算法分为两种,有监督和无监督算法,其中有监督算法主要有逻辑回归、决策树、神经网络等,无监督学习主要包括聚类、最邻近距离、支持向量机等不过这些都是比较通用的算法。

Q16:常用数据挖掘工具有哪些?

A: 市场上的数据挖掘工具一般分为三个组成部分:a、通用型工具;b、综合/DSS/OLAP数据挖掘工具;c、快速发展的面向特定应用的工具。

通用型工具占有最大和最成熟的那部分市场。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,其中包括的主要工具有IBM 公司Almaden 研究中心开发的QUEST 系统,SGI 公司开发的MineSet 系统,加拿大Simon Fraser 大学开发的DBMiner 系统、SAS Enterprise Miner、IBM Intelligent Miner、Oracle Darwin、SPSS Clementine、Unica PRW等软件。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。

综合数据挖掘工具这一部分市场反映了商业对具有多功能的决策支持工具的真实和迫切的需求。商业要求该工具能提供管理报告、在线分析处理和普通结构中的数据挖掘能力。这些综合工具包括Cognos Scenario和Business Objects等。

面向特定应用工具这一部分工具正在快速发展,在这一领域的厂商设法通过提供商业方案而不是寻求方案的一种技术来区分自己和别的领域的厂商。这些工具是纵向的、贯穿这一领域的方方面面,其常用工具有重点应用在零售业的KD1、主要应用在保险业的Option&Choices和针对欺诈行为探查开发的HNC软件。

Q17:常用的加密算法有哪些?

A:

DES(Data Encryption Standard):数据加密标准,速度较快,适用于加密大量数据的场合;

3DES(Triple DES):是基于DES,对一块数据用三个不同的密钥进行三次加密,强度更高;

RC2和 RC4:用变长密钥对大量数据进行加密,比 DES 快;

IDEA(International Data Encryption Algorithm)国际数据加密算法:使用 128 位密钥提供非常强的安全性;

RSA:由 RSA 公司发明,是一个支持变长密钥的公共密钥算法,需要加密的文件块的长度也是可变的;

DSA(Digital Signature Algorithm):数字签名算法,是一种标准的 DSS(数字签名标准);

AES(Advanced Encryption Standard):高级加密标准,是下一代的加密算法标准,速度快,安全级别高,目前 AES 标准的一个实现是 Rijndael 算法;

BLOWFISH,它使用变长的密钥,长度可达448位,运行速度很快;

其它算法,如ElGamal、Deffie-Hellman、新型椭圆曲线算法ECC等。

Q18:数据挖掘的分类算法有哪些?

A:

Bayes

贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。目前研究较多的贝叶斯分类器主要有四种,分别是:Naive Bayes、 TAN、BAN 和 GBN。

Lazy Learning

相对其它的 Inductive Learning 的算法来说,Lazy Learning 的方法在训练是仅仅是保存样本集的信息,直到测试样本到达时才进行分类决策。也就是说这个决策模型是在测试样本到来以后才生成的。相对与其它的分类算法来说,这类的分类算法可以根据每个测试样本的样本信息来学习模型,这样的学习模型可能更好的拟 合局部的样本特性。kNN 算法的思路非常简单直观:如果一个样本在特征空间中的 k 个最相似 ( 即特征空间中最邻近 ) 的样本中的大多数属于某一个类别,则该样本也属于这个类别。其基本原理是在测试样本到达的时候寻找到测试样本的 k 临近的样本,然后选择这些邻居样本的类别最集中的一种作为测试样本的类别。在 weka 中关于 kNN 的算法有两个,分别是 IB1,IBk。

Trees

即决策树算法,决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。决策树由决策结点、分支和叶子组成。决策树中最上面 的结点为根结点,每个分支是一个新的决策结点,或者是树的叶子。每个决策结点代表一个问题或决策,通常 对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。沿决策树从上到下遍历的过程中,在每个结点都会遇到一个测试,对每个结点上问题的不同的 测试输出导致不同的分支,最后会到达一个叶子结点,这个过程就是利用决策树进行分类的过程,利用若干个变量来判断所属的类别。

Q19:朴素贝叶斯与决策树孰优孰劣?

A:朴素贝叶斯模型(NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC 模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。NBC 模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给 NBC 模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NBC 模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC 模型的性能最为良好。

Q20:有什么入门书籍可以推荐?

A:关于入门的教材:SPSS和Clementine软件的说明和案例,都做一遍;《数据挖掘——客户关系管理的艺术》;《调查研究中的统计分析法》;《Excel高级应用与数据分析》;《数据展现的艺术》

PART FOUR 考证考证!Fighting!

Q21:数据挖掘有哪些含金量高的证书?

A:有IBM PASW Modeler和SAS两个数据挖掘认证,你可以根据实际情况自己查一下。会编程对学习数据挖掘有一定的好处,但如果是走业务分析,编程不是必须的。

Q22:数据分析师又有哪些必备证书呢?

A:主要的有三种:CDA(注册数据分析师)证书、统计师、统计从业资格

Q23:CDA考试有啥要求?

A:有三挡考试——
CDA Level I 包含以下科目:《职业道德与操守》、《数据库与 SQL 基础》、《统计学(初级)》、《业务数据分析》、《数据可视化》

CDA Level II 包含以下科目:《数据采集与数据处理》、《统计分析》、《商业策略分析》、《数据治理》

CDA Level III 包含以下科目:《数据挖掘与高级数据处理》、《自然语言处理与文本分析》、《算法应用与实战》

招生对象及报考条件:

Level Ⅰ:
无要求,皆可报考。

Level Ⅱ:
获得CDA Level Ⅰ认证证书。

Level Ⅲ:
获得CDA Level Ⅱ认证证书。

Q24:楼主你为啥不介绍SAS和SPSS两个证书?光介绍数据分析师这块的?

A:咳咳,是这样的。因为楼主我,觉得这两个证书虽然也很有价值,但是对于软件还是应用为主,如果能拥有最好,但是不考能会用那也是一样能解决问题。而数据分析我个人觉得更多的是数据处理方法上的认可。楼主始终觉得脑袋比手贵~~观点偏颇,就等你辩驳!
想了解更多CDA数据分析师证书考试信息和考试大纲的同学,可以请点击下方链接领取相关资料:
CDA数据分析认证中心-官网

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则