其他答案回答的非常全面了,我想谈谈为什么会产生题主的这个问题,其实就是近几年乱七八糟的概念乱炒作,「大数据」和「机器学习(人工智能)」首当其冲。
先来谈学术界,学术界很多传统的实证研究和统计方法加上大数据的特点和技术(就是指hadoop生态代表的一系列技术)后说自己创新了方法,也有很多根本谈不上是大数据,就是数据量变多了而已,这样水的文章不在其数。
机器学习就更泛滥了,在各个领域遍地开花地写文章......
大数据技术和机器学习有关系吗?
我感觉在科研届后者不在乎前者的关系,工业界是肯定要考虑的,因为要实实在在地落地。为什么学术界不是很在乎数据这块呢?(这也是为什么机器学习的学者拿着pandas和for循环就开干的原因),首先要明确 大数据 和 大数据技术 是两个不同的概念,前者是理论性的,类似4v理论什么的,后者很早就出现了,源头在「分布式数据应用」、「数据密集型应用」的解决方案上,更早更早就是谷歌的三家数据方解决的三家马车:GFS, MR,Bigtables (这些技术上的在科研界可能就只听个名字,没有真正会用的。)
所以科研界用大数据方法来搞实证的,我真的怀疑是否真的进行的整套的数据流处理,分布式部署和处理,因为数据处理的是否高效对你的论文结论来看没有必然从影响(换言之用串行或传统的方法处理你所谓的大数据是不是不影响结论?可能我的想法略天真,也希望有从事大数据作为研究方法的朋友批评指正).....
上述原因导致hadoop生态这些东西对使用 机器学习 作为研究方法的科研人员来说根本用不到。毕竟对科研来讲方法创新是主要的,你的实验历程和实现根本看不到,你数据分布式不分布或者大数据处理与否不重要(或者说没必要,因为数据量不够). 因此python针对科研的模块,numpy,pandas自然不考虑这些。
那么完整的落地方案必要要考虑 数据密集 这一重要问题,系统的可用、可靠、可维护都需要hadoop生态为代表的大数据技术的基本支持,所以工业界和学术界思考问题的侧重点是不一样的。两者合作才是硬道理。
那么整个流程的统一,有些回答也提供了相关方案了,总而言之,技术选型是次要的,搞清楚各个环节的职责才是首要的学习任务。 |