defect 发表于 2023-11-30 06:41:35

所谓大数据分析,究竟要学什么?

非计算机、非数学专业,目前做一些跟数据相关的工作,想了解一些做大数据分析如何利用碎片化时间自我提升

rockhdd 发表于 2023-11-30 06:42:32

大数据是客观、动态的数据,不论是 全国的交通数据、还是人全身细菌的运动数据,或者宇宙中可能冒气泡的星球冒气泡的数据。
我们去收集这些个数据,可能出于兴趣,但企业一般都为了解决业务的特定问题。比如说通过交通数据 设计红绿灯动态解决方案。 而某个人全身的细菌运动数据,是一个过于特定的场景,冒气泡这个就可能一时还解决不了什么公司的具体业务问题。
所以说你看的大数据的价值,决定了你所在的业务的价值,之后才是你能从中创造多少价值。
具体到一个人去做业务,要注意两个特点,首先是 数据量极大需要特定的工具甚至多个工具组成工具链帮助分析;其次是 分析一定要落到与业务相关性大、有前瞻性的点。
我看到这里题主说 “非计算机、非数学专业” ,但是没有讲是什么行业,以及自身的职业负责的是什么层级,对什么业务,作为曾经参与数据公司组建的从业者,在这里宽泛的讲一点。
1. 学习工具
这些个工具,一定是结合应用场景,具体问题,具体学习。再说一遍,一定是找具体场景,具体学习,因为每个工具,不光用法五花八门,临机应变的小技巧更是需要实战中学习。
2.紧盯业务
我们当时做数据公司的时候,一开始在选方向尝试的时候,着眼比较大众的数据,但是在同行中对比,越来越发现扎根深的业务,用现在流行话来说就是非常垂直的业务,离赚钱更近。
你可以做和业务有一定距离的项目或者研究,但是一定要 明白现在这条业务线最重要且紧急的问题是什么,否则大有可能做很长时间,没有什么实际结果。

3. 回到“碎片化”这个词,这是前两点 建立认知以后才应该想的问题。
以我的观点,咱们不用 数据来举例,用学语言来举例好了。
拿着一本单词书狂背,顶多解决马上要来的考试。到了具体交流的场景,还是完蛋。所以说关键场景找好以后,整块的学习、理解、练习、交流 才是提升的方式。
如果只有碎片时间的原因是加班太多,那可以先这样想:哪个环节花费时间最多,可以不可以优化这个环节花的时间。如果不能,你懂的。

eking 发表于 2023-11-30 06:43:16

大数据分析是一门实践科学。所谓“学以致用”,学好,是为了用好。
很多人说,大数据分析要学习各种数据分析方法和数据挖掘模型。虽然说得没错,但其实大数据分析最核心的价值,还是对业务的深入洞察和理解,进而为业务提供问题解决方案。
所以,如果你要从事数据分析,不仅需要有深入的数学和统计学背景,更需要有对业务的深刻理解,在学习时,需要偏重很多与业务分析相关领域的知识,如经济学、心理学、营销学,甚至财务和企业管理方面的学科。
优秀的数据分析师,往往来自于对业务观察、思考和理解,也来自于对产品的认知、看法和判断,这些都是无法量化的东西。这也是我们常说的,“从业务中来,到业务中去”。
在互联网公司中,经常能看到这样的“懂技术也懂业务”的大数据分析人才。主要是因为目前互联网企业的数据量很大,不依靠编程,甚至分布式编程,无法高效地处理数据。
比如最近看到的一家互联网大厂的大数据部招聘JD:
社会网络挖掘工程师

[*]工作职责:
-基于海量用户行为数据,深度挖掘网络用户的行为模式
-负责大数据应用算法的设计、研发与产品化,包括但不限于复杂网络分析、个性化推荐、群体标签建设等方向

[*]职位要求:
-计算机专业复杂网络分析、自然语言处理方向优先
-熟悉大规模图挖掘、机器学习、自然语言处理、分布式计算等相关技术,并具备工程实践经验
-熟练运用各种常用算法和数据结构,有独立的实现能力
-熟悉hadoop/spark等一个或多个分布式计算框架/算法平台
http://pica.zhimg.com/v2-d8504ea37725ce5fb20a192d841f0b4c_r.jpg?source=1def8aca

国内 IT 、通讯行业招聘中,有 10% 都与大数据相关,且比例还在上升。图源:百度经验,《大数据工程师的薪资和职业发展路径是什么样的?》https://jingyan.baidu.com/article/0f5fb099b3c8902d8334eac8.html

<hr/>大数据分析具体要学什么 ,还可以从“什么是大数据分析?”这个问题出发,来拆解一下它所包含的技能点。
直白地说,把“大数据分析”这个词拆开来看,就是所需要学习的两大方面的技能点——
“大数据”和“分析”。
这两个词意味着大数据分析的两大必备能力:
一方面,它包括收集、整理和加工数据;另一方面 ,从数据中提取有价值的信息,从而形成对业务有帮助的结论和发现。
看,这么一拆开,关于大数据分析要学什么,就很清楚了。
如果你想要快速又全面地了解数据分析师的基本能力要求,希望入门数据分析实践,推荐看看知乎知学堂的这个“3天实战训练营”:
首先,大数据基础理论和技术要懂。这是做好大数据分析的前提条件。

比如统计学、R语言、数据挖掘等(所以也有人认为统计学、数学不好的人是搞不了这个的) 。
数据分析通常分为两种:批处理和流处理。

[*]批处理:对一段时间内海量的离线数据进行统一的处理,对应的处理框架Hadoop MapReduce、Spark、Flink 等;
2. 流处理:对运动中的数据进行处理,即在接收数据的同时就对其进行处理,对应的处理框架有 Storm、Spark Streaming、Flink Streaming 等。
上面这些框架都需要通过编程来进行数据分析。
会有人问,我是不是可以不学编程,用一些数据挖掘软件来解决工作需求呢?个人认为,只用软件已经不再适合大数据时代。一方面,现在很多平台处理的数据量,易受软件性能的限制;另一方面,即使你在工作中不需要处理大数据量,但你在分布式编程也要比软件在单机处理速度快很多(虽然很多商业化软件都在逐渐支持分布式部署,但终究不如自己写程序处理要更香,不是吗?)。

http://picx.zhimg.com/v2-79ac36c9f32b6d3d73b382544bbbd61e_r.jpg?source=1def8aca

简易的大数据处理流程图,这其中需要用到不少大数据处理相关的工具和系统。如,MySQL、Oracle 及传统的Hadoop HDFS 、KFS、GFS等分布式文件系统。图源:http://baijiahao.baidu.com/s?id=1670065429107487466&wfr=spider&for=pc

其次,掌握典型的业务需求场景的分析技术。

比如,通过大数据分析掌握业务状态、分析业务潜力、评估业务进展等。下面简要分析一下:
1. 掌握业务状态场景:也就是我们通过对业务核心指标的监控,解读和分析,掌握业务经营现状。
比如 ,某款教育类产品的流量出现异常波动,需要数据分析来定位原因:某款暑期线上英语集训营的产品,流量在某一周出现异常幅度的上涨(+13%),是什么原因?怎么作进一步分析?这个问题,如果要追查流量异常,可使用“OLAP技术”(联机分析处理),通过多个维度拆解数据,逐层追查问题所在。使用的分析思路可以是分组分析(细分样本)和因素分析(细分指标)。定位异常点后,如果不是系统程序的问题,可以进行“异常分析”,基于事先未预料的用户需求,改进产品策略。

[*]在这个业务问题中,大数据分析需要学习的方法包括:OLAP技术、分组分析、因素分析、异常分析、趋势分析和设计指标等。
2. 分析业务潜力:这个产品当前的主要问题是什么?下一步发展潜力在哪儿?从数据中挖掘问题原因并提出对策,指导产品下一步的改进方向 。比如:某教育网站一款针对小学5-6年级的英语一对一产品,Q1-Q3流失了200个客户(占比总客户量的30%),原因是什么?如何在Q4减少客户的流失(找到对策)?面对宽泛的业务问题,我们不能只观察数据,而要用“个案分析”摸清楚具体情况,启发分析思路。
比如对于上面这个客户流失分析的案例,可抽样30+位家长用户,逐一打电话询问流失原因。通过反复抽样调研和统计归类,最后得到诸多流失原因及相应占比。
同时,也可用“聚类分析”,选取客户的一些典型特征进行聚类。最后建立一个“回归预测模型”,基于客户的近期情况,预测其流失的可能性。

[*]在这个业务问题中,大数据分析需要学习的方法包括:个案分析、聚类分析、回归模型、结合模型的业务应用等 。
3. 评估业务进展:新上线的产品策略或新推进的运营活动,带来多少业绩提升?项目的覆盖面和影响面如何?其中存在怎样的问题,如何进一步优化等。比如:针对VIP客户,某教育网站在“618”期间设计了一种全新的优惠促销策略。在当月下发执行后,如何评价促销策略带来的业务提升?是否这批VIP目标客户,同比于去年同期的购买额增长,可否作为促销策略的成果?购买额的同比增长,难以排除其他因素的干扰,只能用“同质对照组”评估促销策略的收益。分析业务,选择三个最影响客户购买额的特征(行业、地域、企业规模)对样本分层抽样,尽量保证实验组和对照组在购买额变化上的同质性。哪些特征对购买额的影响较大,可以依据业务经验,也可以计算每个特征和购买额的相关性来得到。最后用因素分析的漏斗法进行分析,就能很容易分析出哪个阶段是主要问题。

[*]在这个业务问题中,大数据分析需要学习的方法包括:同质对照组、相关性计算、因素分析-漏斗法。
可见,大数据分析是一个复杂的系统,要学的东西也是多元而丰富的。
数据分析师属于企业中稀缺又特殊的岗位,个人的体会是,优秀的大数据分析师,他最好的状态并不是因为所从事领域的“高级感”,而站在鄙视链的顶端去审视传统的统计技术和理念,反而更能用欣赏和开放的心态去看待和借鉴他人的工作。

wwwrxt 发表于 2023-11-30 06:43:43

大数据这行业,目前鱼龙混杂,啥人都有,本质上是因为它是一个在旧行业基础上硬长出来的新行业。说它旧是因为:数据分析、人工智能这些概念,几十年前就有了,只是碍于运算能力一直跟不上,所以行业发展缓慢。像是数据分析,从Oracle这公司80年代创造出商用SQL后就出现了,数据库和仪表板甚至机器学习(以前叫作:数据挖掘 Data Mining),也都不是很新的概念了,现在职场中不少专家都有相当长久的类似经验。
那最近几年来的大数据热潮又是怎么回事呢?它其实是构建在强大的数据处理能力,比如并行计算、GPU以及云计算这些牛逼的底层架构上发展出来的新技术。它的理念很简单,就是
大力出奇迹!
靠庞大的数据量和运算能力,实现了以前的人想都不敢想的智能奇迹。再加之某些软基础:比如Python这种极其符合人类语言的编程社区日渐庞大,和可视化BI软件的出现(比如:Tableau、Power BI),这才奠定了这波每个人都在畅谈的热浪。
某在BAT的专家朋友点评:虽然很多人说现在这个岗位人才过剩,需求降低,但实际的情况是:称职和优秀的人才一直稀缺!
了解这个历史,进入这个行业学习就清楚多了~


[*]首先我们要认清,这个数据行业有非常多的岗位,有数据分析、数据运营、数据工程等等。甚至你还能找到极其传统的搭建 Oracle/SAP 数据库的工作,也可能被HR称做大数据工程师。
[*]我们目前只讨论数据分析相关的岗位。很多工程师本质上更像是盖房子的壮汉,只负责把房子盖好,不负责出租和住这个房子。我们现在说的大数据分析工作,指的是住房子的人。
而所有大数据分析相关的工作,说到底,万变不离其宗,你唯一要学也是这个岗位里最重要的技能就是:结合业务/行业知识 解读数据,快速获取有价值的信息。
我把它叫做 Puzzle Solver:解读和解决谜题的人。这个行业里的最优秀的人都有这样的特点。本质上就是个侦探嘛。把不同地方的蛛丝马迹连接在一起,找到凶器,拼接成一幅完整的惊吓到所有人的凶杀案,再掏出手表麻醉老板(误)......
假设你彻底掌握了这个能力,那不管是用手指在沙滩上乱画,还是在云上做并行计算搞深度学习,都没差。当然,很多的时间我们都是在学习使用这些前沿的工具,增加我们的分析效率。
认清楚这个大方针,目前的大数据分析分成了两个核心方向:


[*]Business Analytics 商业分析:对业务和产品负责,直接通过数据可视化等手段,沟通和改变业务结果
[*]Data Science 数据科学:捣鼓和处理大量数据,构建数字化的业务系统,自动化,算法模型应用等等。
你要学什么,取决于你想进入哪个方向。在我看来,任何网络上的课程,国内的教育平台设计的内容都没有世界顶级高校设计的硕士项目丰满和完整。于是我们直接参考(bai piao)它们的课程设计,照着学就完事了。
先说商业分析,我们可以先参考下QS世界大学硕士排名:


http://pic1.zhimg.com/v2-1a720155d3ce56d2761e0acab198370d_r.jpg?source=1def8aca
那我们就参考下世界排名第二的专业吧~ 帝国理工的商业分析硕士,为啥参考第二名呢?因为,这是我就读的专业啊!有个人的亲身感受,比较熟悉!(绝对不是我要为母校打Call什么的,以前在读的时候还经常吐槽呢)
绝对真实准确的课程设计:
必修课

[*]数据结构和算法 (Python入门)
[*]数据和统计基础(R入门+统计学和微积分、线性代数恶补)
[*]数据库基础(SQL入门)
[*]统计学和计量经济学(计量经济学恶补)
[*]最优化和决策模型(运筹学优化模型入门)
[*]机器学习(决策树、KNN等机器学习算法入门)
[*]网络科学(图论入门和用Python捣鼓网络Gephi,Gurobi啥的入门)
[*]商业分析(商业瞎吹入门)
[*]可视化(可视化工具(Tableau, Python)和视觉设计理论入门)
选修课

[*]后勤和供应链(更多的计量经济学啥的)
[*]医保和医学分析(接触珍贵的病患数据)
[*]零售和市场营销分析(接触珍贵的少的可怜的真实零售数据)
[*]电子营销(Google Analytics入门(误))
[*]进阶版的机器学习(用线性代数和微积分淹没你!)
[*]金融大数据(用更多的机器学习模型淹没你!)
[*]人力资源分析(爬虫瞎爬学校的教授信息,硬分析一把+简单自然语言处理入门)
[*]数据管理和道德(使用云计算Microsoft Azure入门,Mongo DB入门和Spark入门)

http://pic1.zhimg.com/v2-add94687d03e433b0942d02ced013c8a_r.jpg?source=1def8aca

第一和第二阶段

http://picx.zhimg.com/v2-fbc3670fd4e8ca27c7f604d0d699f6b5_r.jpg?source=1def8aca

第三和第四阶段

大家只要照着这个课程结构,在网上找彻底免费的课程,就能非常系统地轻松入门,不用花50万一年的学费啦~

数据科学专业的在这留个小坑,过两天再讲


*如果有小伙伴对课程具体细节感兴趣,请点赞支持吧!过百赞后我会详细讲讲的~
以上仅是我个人看法,不可能百分百正确,望有识之士多讨论,求真知。

qwertlina 发表于 2023-11-30 06:44:19

所谓大数据 首先是要大。大数据这个概念是马云忽悠出来的。
接着就给它取了一个名字 big data。
IBM提出大数据的特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
把上面的5个特点称之为 5V。核心就是 多跟真实。
大数据分析要学什么。我认为首先是要学会分析方法,以及对工具的使用,尤其是数据库的使用。
分析方法中最重要的是数理统计方法,与逻辑思维能力。
疯狂绅士:大案牍术下的毒品分析比如上面是大数据穿越到唐朝的情况。其实那个哪里叫大数据呀。
疯狂绅士:艾滋病、吸毒、性行为相关性分析上面也是一个简单的运用。
数据库相关的,什么拆表,分库等肯定要会。举个简单的例子,1.2亿条分子结构模型的数据,怎么储存到数据里?
QQ那么多号码(包括QQ群)怎么存到表里?
这些基本问题肯定要会。
至于具体项目,或者具体内容,还要具体分析。比如我研究的是世界上1.2亿个物质(真实的符合科学原理的)该怎么存储,怎么表达。就很头疼。
扯蛋模型——相关实现及其它这个领域,基本没啥人研究,希望有相关兴趣的人,能一起交流一下,尤其是方便子图查询。以及拓扑唯一序图的定义实现。
最后,大数据分析,重点在分析。

wlzt 发表于 2023-11-30 06:45:02

谢邀,大数据(big data),IT行业术语。
是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
它主要应用于计算机,信息科学和统计学。
大数据的5V特点(IBM提出):
Volume(大量)、
Velocity(高速)、
Variety(多样)、
Value(低价值密度)、
Veracity(真实性)。
那么我们大数据分析主要学什么呢?
数据分析的思维和方法
Excel进阶
数据库和SQL入门
数理统计学
数据分析软件应用
数据可视化
常见的业务分析模型
Python/R语言掌握
业务理解和指标设计
增长黑客:数据驱动增长具体学习内容可以参考以下这篇文章☞
新人如何学习大数据分析?
<hr/>以上,希望对你有帮助~
如果还有其他问题,欢迎留言和咨询!

Julilla 发表于 2023-12-1 00:50:47

How to change my password jinriwenda.com ??

rockhdd ??? 2023-11-30 06:42
????????????,??? ????????????????????,???????????? ...

Can't change my password ??
Can I create a new username and password?
Need your help.
Yours faithfully.
页: [1]
查看完整版本: 所谓大数据分析,究竟要学什么?