首先,我认为会越来越好。
任何以互联网服务为核心价值的 互联网公司,都会需要hadoop相关的人才。
问:hadoop对业务的价值是什么?
答:hadoop是用来做大数据存储和分析的。
数据分析(bi)是用来找到公司关注的核心metric,反哺于公司的业务层决策。当然hadoop生态也提供hbase这样的kv数据库。
问:hadoop什么时候,对什么样的公司价值大?
答:hadoop只对上了一定规模,需要分析公司的核心数据metric时,用mysql技术栈越来越难解决,甚至解决不了时,产生价值。数据量大到一定程度时,目前业界也只有hadoop才能[稳定的]完成出这些数据的分析。
再说说看普通的公司。
一、一个刚起步的公司,不论互联网公司也好,传统公司进行了不错的信息化也好。产生的数据都不会很多。因为活跃的用户数量不多,用户在你的app,web-site, 甚至微信公众号,产生的行为也不会很多。在这个阶段,数据量不会很大,可能有几百,上千用户。 平均用户日活,pv,uv也就是几万,十万级别。数据都是存储在关系型数据库里的。大概率都是mysql。
二、然后公司拿了第一笔融资,开始做小规模推广。用户发展到几万人,日活,产生的数据到了百万,甚至千万级别。公司招来了技术大牛,开始做mysql的分库分表。开始把业务数据库按天拆表拆库。开始每天,每周,每月跑批,做数据的etl。这时候需要很多很多的优秀dba,配合优秀的业务层开发人员,勉强可以hold住。但是随着业务的推广力度加大,随着业务的增长,随着老板想看到更多更多用户相关的数据,工作会很累很累。单说分库分表后,去调整业务线的代码,就够业务开发人员喝一壶了。
三、公司迅速发展,可能拿到了更多后续轮的融资,开始大规模的扩张。公司有时需要做精准推广,有时需要给某些用户推送一些短信,这都需要你对用户很了解,要知道你的每次商业行为的目标用户是哪一类人。用户发展到几十万,上百万后。用户在你的app/website的很多行为,都会存下来,这时mysql就有些为难了。
视屏网站需要知道哪些用户,看了《微微一笑很倾城》,哪些看了1/3退出了,哪些看完才退出了。需要知道同样推送了广告时,用户在播放60s留存率、45s留存率、30s留存率。这些庞大的数据,几十上百万的用户在不停的产出。这时就只能存储在hadoop。
打车公司全国几百万人每天打车。每个区域,不同的补贴力度,用户的活跃度的变化。公司需要计算。也可以把这些用户在不同的时间点在哪些区域活跃,计算出来,广播给司机朋友们。
电商公司,全国几千万上亿用户,你每天浏览了哪些商品,对近期浏览的商品,哪些反复的看,但是没有下单,公司需要知道。哪些商品在网站特定的营销位置,做了力度多大的促销,对销量产生了哪些影响,等等。公司都需要知道。
等等等等。没有hadoop,你都没有办法记录这些数据,也没有办法能在这么庞大的数据上,找到你想知道的用户到底干了什么,是什么样子,从而也就没有办法在商业上做更好的决策。
任何的技术,要有广泛的应用和价值,都需要在当下的商业社会,产生不可替代的价值。我想hadoop也会如此。
hadoop入门后,做精做细不容易,因为技术栈太深太庞大,做好就是任重而道远。
如果把mysql 技术栈比做 一把轻巧的铁剑,hadoop就是一把沉重的大刀。很难耍起来,但掌握好了并挥起来,威力很大。 |