hda 发表于 2023-11-30 07:17:20

普及一下什么是大数据技术?

普及一下什么是大数据技术?

超导 发表于 2023-11-30 07:17:43

不请自来,关于大数据有一些自己的观点,文中也分享了一些有关大数据的资料,供大家学习。
大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。有关大数据的概念已经讲了很多了,在这里我就不过多赘述了,今天我们来谈一谈大数据技术架构该怎样进行。
开局一张图:


http://picx.zhimg.com/v2-55dd6b505db42dabaf67fc47094cdcb7_r.jpg?source=1def8aca

这是某公司使用的大数据平台架构图,大部分公司应该都差不多。从这张大数据的整体架构图上看来,大数据的核心层应该是:数据采集层、数据存储与分析层、数据共享层、数据应用层,可能叫法有所不同,本质上的角色都大同小异。所以我下面就按这张架构图上的线索,慢慢来剖析一下,大数据的核心技术都包括什么。
大数据资料先奉上,需要的朋友可自行下载学习
10+大数据相关资料分享一、大数据采集

数据采集的任务就是把数据从各种数据源中采集和存储到数据存储上,期间有可能会做一些简单的清洗。
数据源的种类比较多:
1、网站日志
作为互联网行业,网站日志占的份额最大,网站日志存储在多台网站日志服务器上,一般是在每台网站日志服务器上部署flume agent,实时的收集网站日志并存储到HDFS上。
2、业务数据库
业务数据库的种类也是多种多样,有Mysql、Oracle、SqlServer等,这时候,我们迫切的需要一种能从各种数据库中将数据同步到HDFS上的工具,Sqoop是一种,但是Sqoop太过繁重,而且不管数据量大小,都需要启动MapReduce来执行,而且需要Hadoop集群的每台机器都能访问业务数据库;应对此场景,淘宝开源的DataX,是一个很好的解决方案,有资源的话,可以基于DataX之上做二次开发,就能非常好的解决。

http://picx.zhimg.com/v2-190321203b5764e7805b93343b8fa505_r.jpg?source=1def8aca
当然,Flume通过配置与开发,也可以实时的从数据库中同步数据到HDFS。
3、来自于Ftp/Http的数据源
有可能一些合作伙伴提供的数据,需要通过Ftp/Http等定时获取,DataX也可以满足该需求。
4、其他数据源
比如一些手工录入的数据,只需要提供一个接口或小程序,即可完成。
二、大数据存储与分析

毋庸置疑,HDFS是大数据环境下数据仓库/数据平台最完美的数据存储解决方案。
离线数据分析与计算,也就是对实时性要求不高的部分,在笔者看来,Hive还是首当其冲的选择,丰富的数据类型、内置函数;压缩比非常高的ORC文件存储格式;非常方便的SQL支持,使得Hive在基于结构化数据上的统计分析远远比MapReduce要高效的多,一句SQL可以完成的需求,开发MR可能需要上百行代码;

http://pic1.zhimg.com/v2-d466737270cb0ac92565b4c281bebb1d_r.jpg?source=1def8aca
当然,使用Hadoop框架自然而然也提供了MapReduce接口,如果真的很乐意开发Java,或者对SQL不熟,那么也可以使用MapReduce来做分析与计算;
Spark是这两年非常火的,经过实践,它的性能的确比MapReduce要好很多,而且和Hive、Yarn结合的越来越好,因此,必须支持使用Spark和SparkSQL来做分析和计算。因为已经有Hadoop Yarn,使用Spark其实是非常容易的,不用单独部署Spark集群。
三、大数据共享

这里的数据共享,其实指的是前面数据分析与计算后的结果存放的地方,其实就是关系型数据库和NOSQL数据库;
前面使用Hive、MR、Spark、SparkSQL分析和计算的结果,还是在HDFS上,但大多业务和应用不可能直接从HDFS上获取数据,那么就需要一个数据共享的地方,使得各业务和产品能方便的获取数据;和数据采集层到HDFS刚好相反,这里需要一个从HDFS将数据同步至其他目标数据源的工具,同样,DataX也可以满足。
另外,一些实时计算的结果数据可能由实时计算模块直接写入数据共享。
四、大数据应用

1、业务产品(CRM、ERP等)业务产品所使用的数据,已经存在于数据共享层,直接从数据共享层访问即可;
2、报表(FineReport、业务报表)同业务产品,报表所使用的数据,一般也是已经统计汇总好的,存放于数据共享层;
FineReport报表 - 专业的企业级Web报表工具3、即席查询即席查询的用户有很多,有可能是数据开发人员、网站和产品运营人员、数据分析人员、甚至是部门老大,他们都有即席查询数据的需求;这种即席查询通常是现有的报表和数据共享层的数据并不能满足他们的需求,需要从数据存储层直接查询。即席查询一般是通过SQL完成,最大的难度在于响应速度上,使用Hive有点慢,可以用SparkSQL,它的响应速度较Hive快很多,而且能很好的与Hive兼容。当然,你也可以使用Impala,如果不在乎平台中再多一个框架的话。
4、OLAP目前,很多的OLAP工具不能很好的支持从HDFS上直接获取数据,都是通过将需要的数据同步到关系型数据库中做OLAP,但如果数据量巨大的话,关系型数据库显然不行;
这时候,需要做相应的开发,从HDFS或者HBase中获取数据,完成OLAP的功能;比如:根据用户在界面上选择的不定的维度和指标,通过开发接口,从HBase中获取数据来展示。
5、其它数据接口这种接口有通用的,有定制的。比如:一个从Redis中获取用户属性的接口是通用的,所有的业务都可以调用这个接口来获取用户属性。
五、实时数据计算

现在业务对数据仓库实时性的需求越来越多,比如:实时的了解网站的整体流量;实时的获取一个广告的曝光和点击;在海量数据下,依靠传统数据库和传统实现方法基本完成不了,需要的是一种分布式的、高吞吐量的、延时低的、高可靠的实时计算框架;Storm在这块是比较成熟了,但我选择Spark Streaming,原因很简单,不想多引入一个框架到平台中,另外,Spark Streaming比Storm延时性高那么一点点,那对于我们的需要可以忽略。
我们目前使用Spark Streaming实现了实时的网站流量统计、实时的广告效果统计两块功能。
做法也很简单,由Flume在前端日志服务器上收集网站日志和广告日志,实时的发送给Spark Streaming,由Spark Streaming完成统计,将数据存储至Redis,业务通过访问Redis实时获取。
六、任务调度与监控

在数据仓库/数据平台中,有各种各样非常多的程序和任务,比如:数据采集任务、数据同步任务、数据分析任务等;
这些任务除了定时调度,还存在非常复杂的任务依赖关系,比如:数据分析任务必须等相应的数据采集任务完成后才能开始;数据同步任务需要等数据分析任务完成后才能开始;
这就需要一个非常完善的任务调度与监控系统,它作为数据仓库/数据平台的中枢,负责调度和监控所有任务的分配与运行。
<hr/>最后分享一些相关资料:
大数据决策分析平台建设方案《数字国资》案例集(半年刊)BI建设地图(行业独家)商业智能(BI)白皮书3.0

随风飘向何处 发表于 2023-11-30 07:18:04

大数据(big data)是一种信息资产,
它是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力。简单而言,大数据更偏重于发现、预测并印证的过程。
大数据的本质就是利用计算机集群来处理大批量的数据,大数据的技术关注点在于如何将数据分发给不同的计算机进行存储和处理。
从数据来源的角度看,大数据的数据来源包括内部数据和外部数据,有很大一部分数据是包括音频、视频、图像在内的非结构化数据,或是半结构化数据。
大数据的应用几乎涉及到社会生活的方方面面,如医疗行业、金融行业、体育行业、安全执法、城市改善等等。当然,大数据所涵盖的领域不止这些,未来还会有许多新的行业和领域利用大数据的应用进行规划和发展。
目前国内研究大数据平台的公司主要分为四类:

[*]数据库/大数据平台类。如星环,做Hadoop生态系列的大数据底层平台公司。Hadoop是开源的,星环主要做的是把Hadoop不稳定的部分优化,功能细化,为企业提供Hadoop大数据引擎及数据库工具。
[*]云计算/云端大数据类。如阿里巴巴的明星产品-阿里云,与亚马逊AWS抗衡,做公有云、私有云、混合云。实力不差,符合阿里巴巴的气质,很有野心。
[*]大数据决策平台。比如帆软,商业智能和数据分析平台提供商,从报表工具到商业智能BI,在这个领域很成熟。
[*]大数据存储硬件类。比如浪潮,很老牌的IT公司,国资委控股,研究大数据方面的存储,在国内比较领先。
目前,大数据的发展趋势包括:数据的资源化,与云计算的深度结合,数据管理成为核心竞争力,数据生态系统复合化程度加强,数据质量是BI(商业智能)成功的关键,数据泄露泛滥。
<hr/>最后分享一些资源:
企业数据可视化平台0-1建设方案​10+央国企数字化转型案例集​​BI建设地图(行业独家)商业智能(BI)白皮书3.0

cn521 发表于 2023-11-30 07:18:27

说实话大数据一次已经火了好久了,但是在最近美国主导的Tik Tok事件更是让这个词热度达到顶点,在这里站在专业的角度上普及一下什么大数据技术。

http://picx.zhimg.com/50/v2-42495e4ce6fe41b0f739b4dfd07aad92_720w.jpg?source=1def8aca
什么是大数据技术?

大数据技术可以定义为一种软件实用程序,旨在分析,处理和提取来自极其复杂的大型数据集的信息,而传统数据处理软件永远无法处理这些信息。
目前我们生活的很多方面都需要大数据处理技术来分析大量实时数据,并提出结论和预测以减少未来的风险。
来看看在类别中的大数据技术分类:
大数据技术的类型:

大数据技术主要分为两种类型:

[*]运营大数据技术
[*]分析大数据技术


[*]运营大数据与我们生成的正常日常数据有关。这可能是在线交易,社交媒体或特定组织的数据等。简单的可以认为这是一种原始数据,用于提供分析性大数据技术。
运营大数据技术的一些示例:

[*]网上订票,包括我们的的火车票,机票,电影票等。
[*]在线购物——我们的淘宝,京东,拼多多,支付宝交易等等。
[*]来自社交媒体网站(如抖音,快手,QQ微信等应用程序)的数据。
[*]医保、车牌号、身份证等与我们息息相关的个人详细信息。

http://picx.zhimg.com/v2-fe6a7422dbe1057fb119be00b0cfc563_r.jpg?source=1def8aca

[*]分析性大数据就像大数据技术的高级版本一样。它比运营大数据要复杂一些。简而言之,分析性大数据是实际绩效的组成部分,而关键的实时业务决策是通过分析运营大数据来制定的。
分析大数据技术的几个示例:

[*]股票、基金等金融投资业
[*]分析运行航海、船舶、飞行和太空任务等领域,其中节点的每一个信息都是至关重要的。
[*]天气预报信息
[*]监视特定患者健康状况的医学领域

http://pic1.zhimg.com/v2-d664b15d75005e706438cb31050cfc11_r.jpg?source=1def8aca
在这里必须要提下IT行业中使用的顶级大数据技术

顶级大数据技术分为以下四个领域:

[*]数据存储
[*]数据挖掘
[*]数据分析
[*]数据可视化

http://pica.zhimg.com/v2-7e8bbf429843b8a85d4f2e5b6dae1886_r.jpg?source=1def8aca
过去几年中又出现了两个词:价值和真实性。

大数据是具有内在价值的,但是直到发现该值才有用。那么我们的现在收集的数据有多真实?我们到底可以依靠多少数据?
如今,大数据已成为资本。想想一些世界上最大的科技公司。他们提供的价值的很大一部分来自他们的数据,他们不断对其进行分析以提高效率并开发新产品。
最近的技术突破已成倍地降低了数据存储和计算的成本,从而使存储更多数据比以往任何时候都更加容易和便宜。随着越来越大的数据量变得越来越便宜和易于访问,这下都可以帮助科技公司可以做出更准确,更精确的业务决策。
在大数据中寻找价值不仅仅在于对其进行分析(这是其他全部好处)。这是一个完整的发现过程,需要有见识的分析师,业务用户和执行人员提出正确的问题,识别模式,做出明智的假设并预测行为。
让我们看看大数据的历史

尽管大数据本身的概念相对较新,但是大数据集的起源可以追溯到1960年代和70年代,当时世界上的数据才刚刚开始兴起第一个数据中心和关系数据库。
在2005年左右,人们开始意识到用户通过Facebook,YouTube和其他在线服务生成了多少数据。Hadoop(专门创建用于存储和分析大数据集的开源框架)于同年开发。在此期间,NoSQL也开始流行。
诸如Hadoop(以及最近的Spark)之类的开源框架的开发对于大数据的增长至关重要,因为它们使大数据更易于使用且存储成本更低。从那以后的几年中,大数据量猛增。用户仍在生成大量数据,但不仅仅是人在做数据。
随着物联网(IoT)的出现,越来越多的对象和设备连接到Internet,收集有关客户使用模式和产品性能的数据,机器学习的出现产生了更多的数据。
尽管看似大数据的发展轨迹已经走到了尽头,但其真正的用途才刚刚开始。云计算进一步扩展了大数据的可能性。云提供了真正的弹性可扩展性,开发人员可以在其中简单地启动临时群集以测试数据的子集。这些都会为我们的日常生活提供巨大的便利。
目前就大数据而言国际国内仍面对的挑战(个人见解)

虽然大数据有很多希望,但它并非没有挑战。
尽管大数据已经开发了用于数据存储的新技术,但是数据量的大小大约两年就要翻一番。国家和企业仍在努力与数据保持同步并找到有效存储数据的方法。
但是仅仅存储数据是不够的。必须找到有使用有价值的数据,这取决于策展。干净的数据或与客户端相关的数据以及以有意义的分析方式进行组织的数据需要大量工作。数据科学家必须要花50%到80%的时间来整理和准备数据,然后才能真正使用它们,时间成本是很大的损耗。
最后,大数据技术正在快速变化。几年前,阿里云是用于处理大数据的流行技术。然后在2014年引入Apache Spark。如今,将两个框架结合起来似乎是最好的方法。跟上大数据技术是一个持续的挑战。

http://picx.zhimg.com/v2-8bd7b65b15a88c2e417d29aaf30bfdfe_r.jpg?source=1def8aca

大数据之一张无形的网

普罗大众看不到的大数据运作流程

1.整合
大数据汇集了来自许多不同来源和应用程序的数据。传统的数据集成机制(例如ETL(提取,转换和加载))通常无法完成任务。它需要新的策略和技术来分析TB级甚至PB级的大数据集。在集成过程中,工程师们需要引入数据,对其进行处理,并确保数据已格式化。
2.管理

大数据需要存储。我们目前的存储解决方案可以在云盘中,在本地里或是在两者中。您我们按所需的任何形式存储数据,并按需将所需的处理要求和必要的处理引擎带入这些数据集。许多人根据其数据当前所在的位置来选择存储解决方案。云正在逐渐普及,因为它支持我们当前的计算要求,并使我们能够根据需要启动资源。
3.分析

对数据进行分析并采取行动时,分析师在大数据上的投资将获得回报。通过对各种数据集进行可视化分析,获得新的清晰度。进一步探索数据以发现新发现。与他人分享心的发现。利用机器学习和人工智能构建数据模型。充分利用我们创造的数据进行分析然后推送我们喜欢的内容。比如选择自己合适的学校-
当前,大数据几乎涉及人类活动的各个方面,从简单的事件记录到研究、设计、生产、数字服务或产品交付,再到向最终消费者展示可操作的信息。云计算和无处不在的网络连接等当前技术为数据收集,存储,处理和可视化中的所有流程提供了自动化的平台。
大数据给我们的生活带来的改变?
<a href="http://www.zhihu.com/answer/1389008916" class="internal">江河湖海:大数据给我们的生活带来了哪些改变?

风雨路人 发表于 2023-11-30 07:18:50

“大数据 ”这个概念火了很久,但又很不容易说得清楚(不然呢?怎么会是个位数的回答),这时候买本书来看看可能会更香。
先说结论——大数据技术,其实就是一套完整的“数据+业务+需求”的解决方案。
它其实是一个很宽泛的概念,涉及五个领域:
1. 业务分析;2.数据分析;3.数据挖掘;4.机器学习;5.人工智能。
从1到5,越来越需要技术背景;从5到1,越来越贴近具体业务。
其实,除了像搜索引擎这样依靠数据技术而诞生的产品外,大部分互联网产品在生存期,即一个产品从0到1的阶段,并不是特别需要大数据技术的。而在产品的发展期,也就是从“1”到“无穷”的阶段,“大数据技术”对产品的作用才会逐渐体现。
主要原因是初期产品的功能和服务较少,也没有“积累的用户数据”用于模型研发。所以,我们常听说“构建大数据的壁垒”,这里面,“数据技术”是小壁垒,“大数据”本身才是大壁垒。
这里就从“大数据”开始说起。
<hr/>什么是大数据?

“大数据 ”从字面上看,就是很“大”的“数据”。先别急着打我。有多大呢?
早N多年前,百度首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。
5千亿张,是不是很暴力了。
再来两个不暴力的:
“广西人最爱点赞,河北人最爱看段子,最关心时政的是山西人,最关注八卦的是天津。”这组有趣的数据,是今日头条根据用户阅读大数据得出的结论。
而比这个更精准的数据,是三年前美国明尼苏达州的一则八卦新闻:
一位气势汹汹的老爸冲进Target的一家连锁超市,质问超市为什么把婴儿用品的广告发给他正在念高中的女儿。
但非常打脸的是,这位父亲跟他女儿沟通后发现女儿真的怀孕了。在大数据的世界里,事情的原理很简单——这位姑娘搜寻商品的关键词,以及她在社交网站所显露的行为轨迹,使超市的营销系统捕捉到了她怀孕的信息。
你看,单个的数据并没有价值,但越来越多的数据累加,量变会产生质的飞跃。
脑补一下上面这个事件中的“女儿”,她在网络营销系统中的用户画像标准可能包括:用户ID、性别 、性格描述、资产状况、信用状况、喜欢的颜色、钟爱的品牌、大姨妈的日期、上周购物清单等等,有了这些信息,系统就可以针对这个用户,进行精准的广告营销和个性化购物推荐。
当然,除了获得大数据的个性化推荐,一不留神也容易被大数据割一波韭菜。
亚马逊在一次新碟上市时,根据潜在客户的人口信息、购物历史、上网记录等,给同一张碟片报出了不同的价格。这场“杀熟事件”的结局就是:亚马逊的 CEO 贝索斯不得不亲自出来道歉,解释只是在进行价格测试。
大数据 ,说白了,就是巨量数据集合。
大数据来源于海量用户的一次次的行为数据,是一个数据集合;但大数据的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。
在电影《美国队长2》里,系统能把一个人从出生开始的所有行为特征,如消费行为,生活行为等,作为标签存入数据库中,最后推测出未来这个人是否会对组织产生威胁,然后使用定位系统,把这些预测到有威胁的人杀死。
而在《点球成金》里,球队用数据建模的方式,挖掘潜在的明星队员(但其实这个案例并非典型的大数据案例,因为用到的是早已存在的数据思维和方法)。
麦肯锡全球研究所曾给出过大数据一个相当规矩的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
上面这四个特征,也就是人们常说的大数据的4V特征(volume,variety,value,velocity),即大量,多样性,价值,及时性。
具体来说就是:
1. 数据体量巨大(这是大数据最明显的特征),有人认为,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);这里按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB(进率2^10)。
不过,数据的体量有时可能并没那么重要。比如13亿人口的名字,只占硬盘几百M空间的数据,但已经是这个领域里非常大的数据。
2. 数据类型繁多(也就是多维度的表现形式)。比如,网络日志、视频、图片、地理位置信息等等。
3. 价值密度低,商业价值高。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。因此,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值(所谓“浪里淘金”吧),是最需要解决的问题。
4. 处理速度快且及时。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。
事实上,关于这个“4V”,业界还是有不少争议的。比如阿里技术委员会的王坚博士,就直接把4V“扔”进了垃圾堆。王坚在《在线》这本书里说过:“我分享时说‘大数据’这个名字叫错了,它没有反映出数据最本质的东西。”
他认为,今天数据的意义并不在于有多“大”,真正有意思的是数据变得“在线”了,这恰恰是互联网的特点。所有东西都能“在线”这件事(数据随时能调用和计算),远比“大”更能反映本质。
<hr/>什么是大数据技术?

对于一个从事大数据行业人来说,一切数据都是有意义的。因为通过数据采集、数据存储、数据管理、数据分析与挖掘、数据展现等,我们可以发现很多有用的或有意思的规律和结论。
比如,北京公交一卡通每天产生4千万条刷卡记录,分析这些刷卡记录,可以清晰了解北京市民的出行规律,来有效改善城市交通。
但这4千万条刷卡数据 ,不是想用就能用的,需要通过“存储”“计算”“智能”来对数据进行加工和支撑,从而实现数据的增值。
而在这其中,最关键的问题不在于数据技术本身,而在于是否实现两个标准:第一,这4千万条记录,是否足够多,足够有价值;第二,是否找到适合的数据技术的业务应用。
下面就来简单说说上述提到的一些和“大数据“”形影不离的“小伙伴们”——

[*]云计算
由于大数据的采集、存储和计算的量都非常大,所以大数据需要特殊的技术,以有效地处理大量的数据。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
可以说,大数据相当于海量数据的“数据库”,云计算相当于计算机和操作系统,将大量的硬件资源虚拟化后再进行分配使用。
整体来看,未来的趋势是,云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是,实时交互式的查询效率和分析能力, “动一下鼠标就可以在秒级操作PB级别的数据”。

[*]Hadoop/HDFS /Mapreduce/Spark
除了云计算,分布式系统基础架构Hadoop的出现,为大数据带来了新的曙光。
Hadoop是Apache软件基金会旗下的一个分布式计算平台,为用户提供了系统底层细节透明的开源分部式基础架构。它是一款用Java编写的开源软件框架,用于分布式存储,并对非常大的数据集进行分布式处理,用户可以在不了解分布式底层细节的情况下,开发分布式程序,现在Hadoop被公认为行业大数据标准开源软件。
而HDFS为海量的数据提供了存储;Mapreduce则为海量的数据提供了并行计算,从而大大提高计算效率。它是一种编程模型,用于大规模数据集(大于1TB)的并行运算,能允许开发者在不具备开发经验的前提下也能够开发出分布式的并行程序,并让其运行在数百台机器上,在短时间完成海量数据的计算。
在使用了一段时间的 MapReduce 以后,程序员发现 MapReduce 的程序写起来太麻烦,希望能够封装出一种更简单的方式去完成 MapReduce 程序,于是就有了 Pig 和 Hive。
同时Spark/storm/impala等各种各样的技术也相继进入数据科学的视野。比如Spark是Apache Software Foundation中最活跃的项目,是一个开源集群计算框架,也是一个非常看重速度的大数据处理平台。
打个比方,如果我们把上面提到的4千万条记录比喻成“米”,那么,我们可以用“HDFS”储存更多的米,更丰富的食材;如果我们有了“Spark”这些组件(包括深度学习框架Tensorflow),就相当于有了“锅碗瓢盆”,基本上就能做出一顿可口的饭菜了。

http://pic1.zhimg.com/v2-cb6ca6e16ea9b03fbad1f8a9fc19d8e8_r.jpg?source=1def8aca

图源:CSDN

<hr/>其实,大数据火起来的时候,很多做统计出身的人心里曾经是有一万个草泥马的——因为大数据实在太火,以至于很多公司在招人的时候,关注的是这个人对计算工具的使用,而忽略了人对数据价值和行业的理解。
但目前统计学专业人士确实面临的一个现实问题是:随着客户企业的数据量逐渐庞大,不用编程的方式很难做数据分析。所以,越来越多的统计学家也拿自己开涮:“统计学要被计算机学替代了,因为现在几乎没有非大数据量的统计应用”。
总之,掌握编程的基础,大量的项目实践,是从事大数据技术领域的必要条件。以下是大数据技术的知识体系的一个梳理,需要的朋友,可以存一下:

http://pic1.zhimg.com/v2-48c5bfba7d63132b3bbe873758cfe4f1_r.jpg?source=1def8aca

图源:CSDN
页: [1]
查看完整版本: 普及一下什么是大数据技术?