[其他] 学习机器学习有哪些好工具推荐?

[复制链接]
sun333 发表于 2023-8-23 23:05:18|来自:福建 | 显示全部楼层 |阅读模式
学习机器学习有哪些好工具推荐?
全部回复5 显示全部楼层
Korwah 发表于 2023-8-23 23:06:12|来自:福建 | 显示全部楼层
这是一套中文资源,名叫AI Learning。汇集了30多名贡献者的集体智慧,把学习机器学习的路线图、视频、电子书、学习建议等中文资料全部都整理好了。
目前资源在GitHub上已经有一万颗Star,微博网友:好人一生平安。




事不宜迟,来看看这里面有啥。
从入门到大牛

很多初学者都会遇到这样的问题:入门机器学习应该从哪里学起?
这些过来人表示,学习路径分三步,先学机器学习基础,然后攻克深度学习基础,最后学习自然语言处理(NLP)相关知识。贡献者表示:按照这个流程来学习,你可以当大牛。
在机器学习基础部分,贡献者给出的学习路线图是这样的:

  • 机器学习基础
  • KNN近邻算法
  • 决策树
  • 朴素贝叶斯
  • 逻辑回归
  • SVM支持向量机
  • 集成方法
  • 回归
  • 树回归
  • K-Means聚类
  • 利用Apriori算法进行关联分析
  • FP-growth高效发现频繁项集
  • 利用PCA来简化数据
  • 利用SVD来简化数据
  • 大数据与MapReduce
  • 推荐系统
在上面16个学习模块中,是知识点介绍、常用工具和实战项目等不同类型的学习资源的整合版。点进去就是具体学习资料,非常方便。
比如决策树模块,先介绍了概念与主要场景:




然后介绍了具体的项目案例和开发流程代码:




每个模块还有配套视频,一并服用效果更好:




即使以后出现了新的学习资源,这套方法论也可以用上。
深度学习基础部分在第一部分的基础上,继续扩展了反向传播、CNN原理、RNN原理和LSTM四个知识点:




每个知识点对应一个口碑介绍帖,内文图文并茂。
NLP内容的学习路径偏向于实际应用,在文本分类、语言建模、图像字幕、机器翻译、问答系统、语音识别、自动文摘7个领域极少,还一并放上了大量相关数据集:




省去了为找数据集跑断腿的烦恼。
机器学习零食库

除了能get到完整学习路径持续通关,还能在里面找到人们机器学习资料“单品”。
有经典口碑英文视频吴恩达篇:




有入门专项训练篇等任君挑选:




整理好的电子书,直接下载PDF即可使用:




最后,这个神奇的页面还自带贡献者们自己摸爬滚打的心路历程和学习建议。




看来这个资源,够你用很久了↓↓
传送门

GitHub地址:
https://github.com/apachecn/AiLearning

量子位 · QbitAI
վ'ᴗ' ի 追踪AI技术和产品新动态
量子位欢迎大家关注我们,以及订阅我们的知乎专栏
xiaoji1543 发表于 2023-8-23 23:06:51|来自:福建 | 显示全部楼层
好工具非常多,其他答主的分享也很棒。但使用工具只能让人入门,我们有没有可能自己写一个优秀的机器学习工具库,为开源做贡献,同时积累经验呢?
答案是肯定的我试过了,是真的。本着授人以鱼不如授人以渔,本文会从「开发者角度的来看如何做出一个好的机器学习工具库」。
1. Start Small (从小做起)
写工具切忌眼大肚子小,如果你计划要写一个TensorFlow,那估计这辈子都不可能完成。因此不妨从最基本的小模型做起。举个简单的例子,假设你想做一个聚类工具库来实现各种聚类算法(kmeans,dbscan,hdbscan),第一步不妨先挑一个自己熟悉算法动手尝试一下,感受一下算法的门槛。毕竟这是个小马过河的问题,最好先对自己的水平有一个良好的评估。
每实现出一个新的算法,就把它们整理好放到GitHub上去。可能过一段时间你就会发现有人开始star你的项目了,这会大幅度的增强你的信心。我自己的写工具库的故事就是如此,我一开始实现了一系列算法主要是为了自己的研究,结果莫名收到了不少star,这给了我很大信心,做出后续工具库也就是水到渠成了。
2. Design High (往“高”设计)
当你有了一系列聚类模型后,你就会发现其中有很大的重构和整合机会。举个简单例子,所有的聚类模型应该都可以fit(X_train)数据,当模型被拟合后,predict(X_test)应该可以在新的数据上进行预测,给出聚类标签。同理,一个聚类模型可能在完成训练后(fit后)应该生成训练数据X_train的聚类标签,并储存在labels_这个attribute中。以sklearn为例,fit(),predict(),和labels_是大部分聚类算法所共享的,而这些算法都是从ClusterMixin中继承而来。
  1. >>> kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
  2. >>> kmeans.labels_
  3. >>> kmeans.predict([[0, 0], [12, 3]])
复制代码
因此,在设计工具库时,你需要时时刻刻记着面向对象编程(OOD)的思想,思考怎么把相共通的部分抽象和封装。这样可以帮助你节省掉大量的维护成本,也有助于其他人来参与开发。一个好的底层设计是一个工具成败的关键点,它不仅可以降低维护成本,还可以避免不同模型见的不一致。
所以在开发工具库时,可以在完成2-3个模型后开始设计底层的抽象类(abstract class),之后让其他模型都从该abstract class上继承。另一个好处是这样你可以在这个abstract class上轻松添加很多实用功能,比如get_params, set_params,__repr__等。感兴趣的朋友可以从模仿sklearn做起:sklearn.base.BaseEstimator - scikit-learn 0.20.3 documentation。
3. Readability & Deployment Matter(文档与部署很重要)
很多程序员只写代码,不写文档,不写案例,不做宣传。那么很自然的,你写的东西也就没人用。因此写好文档与示例非常重要的。我建议至少花和写代码一样长的时间写文档,其中主要有三个构件:

  • 代码中的docstring。建议使用numpydoc的风格:numpydoc docstring guide - numpydoc v0.9.dev0 Manual
  • GitHub上的ReadMe文档。例子可以看https://gist.github.com/dupuy/1855764
  • Read the Docs的API文档。使用指南看这里:Home | Read the Docs
值得注意的是,ReadMe文档最好是用rST语言来写,因为Read the Docs的语言也是rST,统一语言可以减少大量的开发成本。rST的编写指南可以参考:https://thomas-cokelaer.info/tutorials/sphinx/rest_syntax.html
使用Read the Docs的另一个原因是它可以通过代码中的docstring自动生成工具库API,节省大量的开发成本。
除此之外,写好工具文档还不够,我建议针对每个模型单独提供一个示例文件,比如kmeans就做一个kmeans_example.py帮助使用者了解你的api。另一个很好用的工具叫做Binder,它可以在线运行你的jupyter notebook,这样可以帮助使用者在不安装的前提下尝试。
同时要记得:人类是视觉动物,一个好的图文实例远远好于干巴巴的长篇大论
同时也要记得:人类是懒惰的。因此建议早早采用PyPI和conda来分发你的工具库,这样使用者就可以轻松使用pip和conda来安装啦。
4. Sustainable Development(可持续开发)
写好几个模型容易,但保证工具库是可持续和可扩展是很难的。假设维护5个模型很简单,那么维护200个呢?所以在开发工具时就要考虑到这一点,有几个点非常重要:

  • 首先是必须有单元测试(unit test),每个对应的模型如无例外都应有对应的测试,保证代码的覆盖度。
  • 其次是善用集成测试工具(continuous integration),它们可以在多个平台与Python版本下自动运行你的单元测试,常见的工具有:

    • Continuous Integration and Deployment service for Windows and Linux
    • Continuous Integration and Delivery
    • Test and Deploy Your Code with Confidence

  • 相似的,维护代码的可读性和测试覆盖度(code coverage)也很重要,对应的工具有:

    • Coveralls.io - Test Coverage History and Statistics
    • Velocity | Code Climate

  • 最后要写好开发指南(contribution guide)与如何反馈问题

    • 如何参与开发,为其他感兴趣的人提供一个模板
    • 如何反馈问题,一个标准issue report该有哪些部分
    • 后续开发计划是什么?新模型的添加标准(inclusion criteria)是什么

不难看出,在这个阶段的重点是如何把一个项目做成真正的开源项目,一个持久的项目。到达这个阶段以后,项目本身已经比个人更加重要,我们必须为了可持续性而牺牲掉一些便携性
5. When Possible, Optimize! (优化)
一个有效的工具库必须要考虑到扩展性,这个主要是说在数据量上的scalability。一个工具库如果只能解决几百几千个小数据集,那么就只是个玩具。真正的实用性来自于scalability和鲁棒性(robustness)。所以当你的工具库有了一定的规模后,建议多考虑重构和效率提升
从机器学习,特别是Python工具库开发的角度来看有几个简单的技巧:

  • 向量化(vectorization)
  • numba加速(A High Performance Python Compiler)
  • 并行化(parallelization,一般用Joblib: running Python functions as pipeline jobs比较多)
  • 用C重写模块,用Cython调用(Cython: C-Extensions for Python)
其他更大规模的集群不在本文的探讨框架下,但有趣的对比实验可以参考「对于 Python 的科学计算有哪些提高运算速度的技巧?」
另一个值得注意的是,大部分机器学习工具库一般不把GPU支持作为首要任务(深度学习库除外),因此可以把这个需求推后实现。
6. One more thing ,know why to do it(保持初心)
写工具库的最终目的是为了锻炼自己,回馈社区。如果一开始的目的就是要出名,做个大新闻,有大概率只会铩羽而归。我开发过特定领域的通用库,同时也和很多优秀的开源贡献者有过探讨交流,包括scikit-learn的核心作者Alexandre Gramfort。Gramfort带给我的最大震撼不是工程与学术能力超强,而是超乎常人的认真---在一篇工具库论文中他给我们写了满满4页的评语,甚至运行了我们大部分案例与测试,这种精神让人肃然起敬。
所以写库不必太在意成功是否,自己努力过坚持过就好,只有真正的热情才能让我们一直持续维护与更新。我认识不少只有几个用户却一直不放弃的开发者。我想这才是开源的真正意义吧
tzjj 发表于 2023-8-23 23:07:51|来自:福建 | 显示全部楼层
推荐一些好项目给你吧。作为一个搞机器学习/深度学习的调参党,来分享一下自己认为最有价值的项目,那些带aswsome的综述简直丧心病狂啊,一起丢出来了,参考文章:
龙鹏-言有三:【杂谈】GitHub上的机器学习/深度学习综述项目合集【杂谈】从GitHub上星星最多的男人开始发GitHub综述资料1 Awesome大综述

没错,项目名字就叫Awesome。这第一个简直就是最“丧心病狂”的综述,10万+星星,要把所有方向一并索引了,自己当目录。
  1. https://github.com/sindresorhus/awesome
复制代码



这个项目的创建者是sindresorhus,全职自由职业者,从事开源项目开发和维护,据说是这个星球上星星最多的男人,偏偏长得还很帅,个人主页:https://sindresorhus.com/,大家自己粉吧。


怎么说呢,本文其实你不看下去就是可以的,直接去看上面那个综述就行了。
2 读论文

读论文是搞AI研究必备的基本素质,这个项目是我看的前10个GitHub项目之一,整理了很多深度学习有关的优秀papers,项目的维护者是University of Waterloo的Terry Taewoong Um。
  1. https://github.com/terryum/awesome-deep-learning-papers
复制代码



不过请看最新申明:
  1. [Notice] This list is not being maintained anymore because of the overwhelming amount of deep learning papers published every day since 2017.
复制代码
大概意思就是,论文太多了,我们放弃了。如果是初学者,我觉得完全可以去好好看一眼,初学者最忌讳的就是天天看最新的东西,那样是有损于学习的。
类似的还有:
  1. https://github.com/papers-we-love/papers-we-love
复制代码
3 逛社区

这几个项目的特点就是杂而全,覆盖机器学习有关的一切资料。
有的深度学习一锅端了。
  1. https://github.com/ChristosChristofidis/awesome-deep-learning
复制代码

有的机器学习一锅端了。
  1. https://github.com/josephmisiti/awesome-machine-learning
复制代码

有的增强学习一锅端了
  1. https://github.com/aikorea/awesome-rl
复制代码
有数不清的GAN一锅端了
  1. https://github.com/nightrome/really-awesome-gan
  2. https://github.com/hindupuravinash/the-gan-zoo
复制代码
东西太多了,建议大家看一眼就行了,别迷失,尤其是初学者,跟我们一起来可能更加合适。
4 听课程

专注收录computer science相关的所有课程。
  1. https://github.com/prakhar1989/awesome-courses
复制代码

类似的当然还有了,不过建议看课程不要求多,初学看书应该更好。
5 跟项目

因为python是机器学习算法里最受欢迎的语言,所以先介绍一个,6万多颗星,看看deep learning这个菜单下的资源就能窥见一斑。
  1. https://github.com/vinta/awesome-python
复制代码

类似的当然还有了,php,java,android,ios,shell,爬虫,应有尽有。
  1. https://github.com/ziadoz/awesome-php
  2. https://github.com/akullpp/awesome-java
  3. https://github.com/sindresorhus/awesome-nodejs
  4. https://github.com/vsouza/awesome-ios
  5. https://github.com/snowdream/awesome-android
  6. https://github.com/alebcay/awesome-shell
  7. https://github.com/facert/awesome-spider
  8. https://github.com/avelino/awesome-go
复制代码
6 翻数据集

这是一个从各种博客,论坛等地方抓取数据集的项目。
  1. https://github.com/awesomedata/awesome-public-datasets
复制代码

还有一个辅助数据科学家养成的项目
  1. https://github.com/bulutyazilim/awesome-datascience
复制代码

类似的还有一些,可以没事翻翻。
  1. https://github.com/onurakpolat/awesome-bigdata
复制代码
7 看领域

你肯定知道接下来有三要说什么,那就是AI各个研究领域的综述了。
什么计算机视觉一锅端了。
  1. https://github.com/jbhuang0604/awesome-computer-vision
  2. https://github.com/kjw0612/awesome-deep-vision
复制代码

什么自然语言处理一锅端了。
https://github.com/keon/awesome-nlp


什么语音处理一锅端了。
  1. https://github.com/zzw922cn/awesome-speech-recognition-speech-synthesis-papers
复制代码

还有很多领域,就不一一列举了,欢迎大家留言。
8 备面试

现在有很多的公众号和社区专门讲面试,还有一些朋友让我讲讲,你以为GitHub会没有吗?
  1. https://github.com/MaximAbramchuck/awesome-interview-questions
复制代码
我还在纠结讲还是不讲,因为讲出来必定会有争议,正好这几天知乎上回答的一个问题就引起争议了,大家不妨直接看吧。
  1. https://www.zhihu.com/question/62482926/answer/625352436
复制代码
关于面试只有一点小建议,虽然有套路,但是只要巩固好领域的基础知识和编程技能,再发展一些核心竞争力,就不用慌。
9 攒工具

好的工具干起活来可谓是事半功倍了,必须时刻留意。
记笔记的
  1. https://github.com/jupyter/notebook
复制代码
画图的
  1. https://github.com/zfrenchee
  2. http://alexlenail.me/NN-SVG/
  3. https://github.com/HarisIqbal88/PlotNeuralNet
复制代码
读论文的
  1. https://github.com/karpathy/arxiv-sanity-preserver
复制代码
转模型的
  1. https://github.com/Microsoft/MMdnn
复制代码
后面的等你来补充呀,我们已经写过一些了,看往期链接。
10 聚焦自己的方向

最后,就是好好聚焦自己的研究方向。有三是搞CV的,所以免不了要给大家推荐CV领域的资料。
人脸各个方向的。
  1. https://github.com/polarisZhao/awesome-face
  2. https://github.com/ChanChiChoi/awesome-Face_Recognition
复制代码
语义分割的。
  1. https://github.com/mrgloom/awesome-semantic-segmentation
复制代码
跟踪的。
  1. https://github.com/foolwood/benchmark_results
复制代码
三维重建的。
  1. https://github.com/openMVG/awesome_3DReconstruction_list
复制代码
风格化的。
  1. https://github.com/ycjing/Neural-Style-Transfer-Papers
复制代码
目标检测的。
  1. https://github.com/amusi/awesome-object-detection
  2. https://github.com/hoya012/deep_learning_object_detection
复制代码
太多太多了,轻轻松松还可以数出几十个,大家自己来吧。
对了,我们自己的官方git,也放一下吧,方便大家学习,刚刚开始,还需要力量加入。
  1. https://github.com/longpeng2008/LongPeng_ML_Course
  2. https://github.com/longpeng2008/yousan.ai
复制代码
Github就像程序员的免费淘宝店,什么都有,良莠不齐,这次介绍的项目大多星星都很多,不过也不要过度迷恋星星,星星是可以运营出来的。慧眼识珠,多积累吧,以后会开专栏讲讲怎么用GitHub的。
最后,别忘了关注有三AI呀,三人行必有AI,等你加入。
hljsyz 发表于 2023-8-23 23:08:24|来自:福建 | 显示全部楼层
机器学习:
机器学习库。请参阅:awesome-machine-learning。

  • Metrics - 机器学习评估指标。
  • NuPIC - 用于智能计算的Numenta平台。 --推荐
  • scikit-learn - 流行的机器学习Python库。 --推荐
  • Spark ML - Apache Spark的可扩展机器学习库。--推荐
  • vowpal_porpoise - 用于[Vowpal Wabbit]的轻量级Python包装器(https://github.com/JohnLangford/vowpal_wabbit/)。
  • xgboost - 可扩展,可移植且分布式的渐变增强库。 --推荐

深度学习(Deep Learning)

机器学习库。 参见:awesome-deep-learning.*
2018最佳机器学习工具书及下载(持续更新)

  • Caffe - 快速开放的深度学习框架 --推荐
  • Keras - 高级神经网络库,能够在TensorFlow或Theano之上运行。 --推荐
  • MXNet - 高效率和灵活的深度学习框架。
  • Neupy - 运行和测试不同的人工神经网络算法.
  • Pytorch - Python中的张量和动态神经网络,具有强大的GPU加速功能。 --推荐
  • Serpent.AI - 游戏代理框架。 使用任何视频游戏作为深度学习沙盒。 --推荐
  • TensorFlow - 由Google创建的最受欢迎的深度学习框架。 --强烈推荐
  • Theano - 用于快速数值计算的库.  --推荐
以上来自:china-testing/python-api-tesing

下面网址提供了比较。 欢迎点赞,关注下面用户,谢谢
知乎用户
TensorFlow工具快速入门教程6 深度学习库比较

  • 本书目录
什么是TensorFlow简介

自2016年以来,人工智能越来越受欢迎,20%的大公司在其业务中使用人工智能(麦肯锡报告,2018年 report )。根据同一报告,AI可以为各行业创造巨大价值。例如,在银行业,人工智能的潜力估计为3000亿美元,零售业的数量猛增至6000亿美元。
为了释放人工智能的潜在价值,公司必须选择正确的深度学习框架。
8个最佳深度学习库/框架

在此列表中,我们将比较顶级的深度学习框架。所有这些都是开源的,并且在数据科学家社区中很受欢迎。

  • Torch
Torch是一个古老的开源机器学习库。它首次发布于15年前。它是主要的编程语言是LUA,但在C中有实现。Torch支持庞大的机器学习算法库,包括深度学习。它支持并行计算的CUDA实现。
大多数领先的实验室都使用Torch,如Facebook,Google,Twitter,Nvidia等。 Torch的Python库名为Pytorch。

  • http://Infer.net
http://Infer.net由Microsoft开发和维护。 http://Infer.net是主要关注贝叶斯统计。 http://Infer.net旨在为从业者提供最先进的概率建模算法。该库包含分析工具,如贝叶斯分析,隐马尔可夫链,聚类。

  • Keras
Keras是深度学习的Python框架。构建任何深度学习算法都很方便。 Keras的优势在于它使用相同的Python代码在CPU或GPU上运行。此外,编码环境纯粹的,并且允许训练用于计算机视觉,文本识别等的最先进的算法。
Keras由Google的研究员FrançoisChollet开发。 Keras用于CERN,Yelp,Square、Google,Netflix和优步等知名​​组织。





  • Theano
蒙特利尔大学于2007年开发的深度学习库。它提供快速计算,可以在CPU和GPU上运行。 Theano已被开发用于训练深度神经网络算法。

  • MICROSOFT认知工具包(CNTK)
Microsoft工具包,以前称为CNTK,是Microsoft开发的深度学习库。根据微软的说法,它是市场上最快的哭之一。 Microsoft工具包是开源库,在微软产品广泛使用,如Skype,Cortana,Bing和Xbox。支持Python和C ++。

  • MXNet
MXnet是最近的深度学习库。它可以使用多种编程语言访问,包括C ++,Julia,Python和R.  MXNet可以配置为在CPU和GPU上运行。 MXNet包括最先进的深度学习架构,如卷积神经网络和长短期记忆。  MXNet旨在与动态云基础架构协调工作。 MXNet的主要用户是亚马逊。

  • Caffe
Caffe是杨庆佳在伯克利大学攻读博士学位时创建。 Caffe是用C ++编写的,可以在CPU和GPU上执行计算。  Caffe的主要用途是卷积神经网络。虽然,2017年,Facebook扩展了Caffe,包Recurrent Neural  Network。学术界和初创公司以及雅虎等一些大公司都在使用caffe。

  • TensorFlow
TensorFlow是Google的开源项目。 TensorFlow是目前最着名的深度学习库。它于2015年底向公众发布






参考:深度学习(Deep Learning)
参考资料


  • 讨论qq群144081101 591302926 567351477 钉钉群21745728
  • 本文最新版本地址
  • 本文涉及的python测试开发库 谢谢点赞!
  • 本文相关海量书籍下载
  • 2018最佳人工智能机器学习工具书及下载(持续更新)
机器学习云服务


  • Google Cloud ML
Google为Cloud AutoML提供了开发人员预先培训的模型。该解决方案适用于没有强大机器学习背景的开发人员。开发人员可以在其数据上使用最先进的Google预训练模型。它允许任何开发人员在几分钟内训练和评估任何模型。
Google目前提供用于计算机视觉,语音识别,翻译和NLP的REST API。




使用Google Cloud,您可以在TensorFlow,Scikit-learn,XGBoost或Keras上构建机器学习框架。 Google Cloud机器学习将在其云端训练模型。
使用Google云计算的优势在于将机器学习部署到生产中的简单性。无需设置Docker容器。此外,云负责基础设施,它知道如何使用CPU,GPU和TPU分配资源,通过并行计算使训练更快。

  • AWS SageMaker
Google Cloud的主要竞争对手是亚马逊云,AWS。亚马逊开发了Amazon SageMaker,允许数据科学家和开发人员构建,训练和投入生产任何机器学习模型。
SageMaker可用于Jupyter笔记本,包括最常用的机器学习库,TensorFlow,MXNet,Scikit-learn等。用SageMaker编写的程序会自动在Docker容器中运行。亚马逊处理资源分配以优化培训和部署。




亚马逊为开发人员提供API,以便为其应用程序添加智能。在某些情况下,没有必要通过从头开始构建新模型来重新发明轮子,而云中有强大的预训练模型。亚马逊为计算机视觉,会话聊天机器人和语言服务提供API服务:
三个主要的可用API是:Amazon Rekognition:为应用程序提供图像和视频识别;亚马逊理解:执行文本挖掘和神经语言处理,例如,自动化检查财务文件合法性的过程;亚马逊Lex:将聊天机器人添加到应用程序;

  • Azure机器学习工作室
可能是最友好的机器学习方法。该解决方案的显着优点是不需要编程基础。
Microsoft Azure Machine Learning Studio是一个用于创建,培训,评估和部署机器学习解决方案的拖放式协作工具。该模型可以有效地部署为Web服务,并在Excel等多个应用程序中使用。
Azure机器学习界面是交互式的,允许用户通过快速拖放元素来构建模型。




模型准备就绪后,开发人员可以将其保存并推送到Azure Gallery或Azure Marketplace。
Azure Machine学习可以集成到自定义内置包中的R或Python中。

  • IBM Watson ML
Watson通过简化的流程简化数据项目,从而从数据中提取价值和见解,帮助业务变得更加智能和快捷。  Watson工作室提供易于使用的协作数据科学和机器学习环境,用于构建和训练模型,准备和分析数据,以及共享见解。 Watson  Studio易于使用,具有拖放代码。




Watson工作室支持一些最流行的框架,如Tensorflow,Keras,Pytorch,Caffe,可以将深度学习算法部署到Nvidia的最新GPU上,以帮助加速建模。
在我们看来,谷歌云解决方案是最推荐的解决方案。对于数据存储和机器学习解决方案,Google云解决方案为AWS提供的价格至少降低了30%。谷歌正在努力实现人工智能的大众化。它开发了一种开源语言TensorFlow,优化了数据仓库连接,提供了从数据可视化,数据分析到机器学习的巨大工具。此外,Google控制台符合人体工程学,比AWS或Windows更全面。
拒绝泳游的魚 发表于 2023-8-23 23:09:22|来自:福建 | 显示全部楼层
竟然没有人提scikit.learn !!!!!!!!!!
震惊过后好好说话吧,其实语言什么的都不是主要的。
首先推荐一个大而全的网站 http://mloss.org,这个网站搜集了非常多的机器学习包,几乎涵盖了你听过的所有语言。
如果你是用python的话,那么numpy, scipy, matplotlib是基础的,然后就是大名鼎鼎的scikit.learn了。最近pandas也很火,可以提供类似R中dataframe的数据结构,pandas的作者 最近出版了一本书 Python for Data Analysis。
如果你想追求速度,那么可以考虑Cython和PyPy。
Anyhow,Python是一门很灵活的语言,很多基于C和C++的包也提供了python接口(比如shogun)

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则