[IT技术] 有没有推荐机器学习的路线(或者课程)?

[复制链接]
gvell 发表于 2023-10-22 04:44:13|来自:北京 | 显示全部楼层 |阅读模式
想求一下机器学习的资源...谢谢大家啦!
全部回复5 显示全部楼层
wmm 发表于 2023-10-22 04:44:35|来自:北京 | 显示全部楼层

集成学习是一种利用多个基础模型来构建更加准确、稳定的预测模型的机器学习技术。集成学习的基本思想是将多个模型组合起来,通过集体决策来提高模型的预测性能。它能够有效地降低单个模型的过拟合风险,提高模型的泛化性能。
集成学习有很多方法和框架,以下是整体的分类图:





串行集成学习

AdaBoost
AdaBoost 算法是一种经典的串行式集成学习方法。在每次迭代中,AdaBoost 算法会根据当前加权样本集训练一个弱分类器,并计算其错误率。然后,根据错误率计算分类器的权重,然后更新样本权重,并将更新后的样本集用于下一次迭代中。这样,每个分类器都是在当前加权样本集上训练的,而不是原始的训练集。

理解1:样本和分类器的加权
可以把 AdaBoost 算法类比为一个错题本,每个弱分类器都会形成一个错题本,在下一轮学习中,我们会针对错题本中的错误题目,更加用心地进行学习,以避免再犯相同的错误。
但需要注意的是,AdaBoost 在每次迭代的时候并不只选取错题(错分类的样本),也会选择之前正确的题。就类似复习的时候不能只看错题,也得看看之前做对的题,只是权重更偏向错题。每个弱分类器都是在前一轮弱分类器分类错误的样本加权后训练的,以此更加关注分类错误的样本,从而提高分类性能。
那么,如何进行样本集的加权呢?
以下是具体的思路:
我们为了更聚焦与错误分类的那些样本,要设计一种形式使得当分类错误的时候更大,分类正确的时候更小。因此,可以考虑下面这种形式。
如果第 t 个分类器 Gt 错误分类了第 i 个样本,则第 i 个样本在第 t + 1 轮中的权重为:


其中 α(t) 是第 t 个分类器的权重。反之,如果第 t 个分类器正确分类了第 i 个样本,则第 i 个样本在第 t + 1 轮中的权重为:


这样就可以保证这两种情况可以统一为:


yiGt(Xi) 在正确分类时为 -1 ,错误分类时为 1 。为了保证权重求和为 1 ,这样计算之后还会对整个权重进行归一化,即都除以


然后我们考虑如何计算 αt ,αt 是基本分类器的权重,它的计算如下:
1. 计算 Gt 在训练集上样本加权后的分类误差率:


2. 取自然对数


第二步的公式怎么来的呢?
这是因为我们希望正确分类的样本的权重比上错误分类的样本的权重恰好是正确率和错误率的比值的反比,如果用上面的式子的话,就有


假设两个弱分类器 a 和 b ,ea = 0.8 和 eb = 0.1 ,在这两种情况下,正确分类的样本的权重比上错误分类的样本的权重分别是 8 : 2 和 1 : 9 。前一种情况的错误率很高,也就是大部分都是误分类的样本时,这时反而会提高分类正确的样本的权重。
AdaBoost 算法在得到最终的分类器时,会对之前所有的分类器进行加权。以上面的分类器为例,a 和 b 的 α 的比值:


可知 log(4/1) 是负数,log (9) 是正数,此处可以看出,分类性能越好的分类器,计算出的权重会更大,对最终结果影响的程度越高。
理解2:前向分步算法
AdaBoost 最后生成的强分类器可以认为是一个加法模型,即:


其中,f(x) 表示最终的强分类器,h(X ; θt ) 表示第 t 个弱分类器,θt 是该分类器的参数,αt 是该分类器的权重。
学习这个模型可以最小化损失函数,但是这个问题非常复杂, 前向分步算法是用来解决这个优化问题。它通过从前向后每次学习一个基函数和系数,然后逐步逼近优化目标函数。
在 AdaBoost 中,优化的损失函数是指数损失函数,如下:


其中,y∈{−1, +1} 表示样本的真实标签,f(x) 表示模型的预测值。
通过优化目标,可以反过来推出 αt 的取值和上一种理解相同,如下:


在优化最小化指数函数的时候,在第 k 步时,有:







提升树

提升树( Boosting Tree )是一种常见的集成学习算法,它通过逐步迭代的方式训练多个决策树,每一棵树都试图纠正前面树的预测误差,从而得到一个更加准确的整体模型。
提升树的基本思路是,每一次训练新的决策树都会关注前面树的误差,让新树尽可能地纠正前面树的错误。在每一次训练中,提升树会根据当前模型的预测结果和真实标签之间的差异,构建一个新的树模型,并将其与前面的模型组合起来形成一个更加准确的模型。这个过程会重复多次,直到模型收敛或达到指定的迭代次数为止。
提升树其实就是一个加法模型,在每一轮迭代中,我们需要根据当前模型的预测结果,计算出样本的残差(即真实值与预测值之间的差值),并将残差作为下一轮迭代中的损失函数。

GBDT梯度提升决策树
GDBT , 即 Gradient Boosting Decision Tree ,梯度提升决策树。在提升树算法中,每一轮迭代并没有直接计算梯度值,而是根据损失函数的形式来构造残差,然后用基学习器去拟合这个残差。由于残差与负梯度的形式很相似,因此提升树算法也被视为一种近似梯度下降的方法。
而在梯度提升决策树算法中,每一轮迭代是直接计算损失函数的负梯度,来作为提升树里的残差。用一阶泰勒展开式可以推导出当取第 k - 1 个模型损失函数的负梯度的时候,能够保证每一轮迭代都能够在前一轮的迭代上减小损失值。因此,梯度提升决策树算法可以看作是一种真正的梯度下降方法。
GBDT 中,每一个基学习器用的是 CART 回归树,CART 回归树可以很好地计算负梯度,因为 CART 回归树的叶子节点中存储的是训练数据的平均值或者众数,这个平均值或者众数可以作为当前回归树的预测值。
GBDT框架
XGBoost 框架:采用了一系列的技术,包括 Gradient Boosting 、二阶泰勒展开、正则化、特征重要性评估、并行化等,从而在效果和速度上都有很好的表现。
LightGBM 框架:主要思想是在构建模型的过程中,通过使用梯度单边采样的方法来减少数据集的大小,同时使用直方图算法对特征进行离散化,从而减少了内存占用和运行时间。



并行集成学习

Bagging 并行式集成学习,Bagging ,即 Bootstrap AGGregatING ,表示自助抽样集成,将训练集随机有放回地采样得到m个样本的采样集,基于每个采样集训练一个基学习器,再预测时将它们结合得到结果,通常分类问题使用**投票法**生成结果,回归问题使用**平均法**作为最终的结果。
以下是集合结果时使用的方法:
* 投票法
绝对多数投票 majority voting :选取过半数投票的结果
相对多数投票 plurality voting :选取得票数最多的结果
加权投票: 通过训练权重,对每个基分类器的结果加权处理
* 平均法
简单平均:直接算平均值作为最终结果
加权平均:通过训练权重,对每个基分类器的结果加权处理
Random Forest 随机森林
随机森林采用 Bagging 技术和随机特征选择来构建决策树,因此能够有效地降低过拟合风险,提高模型的泛化能力。
整体的流程如下:
1. 从原始数据集中使用自助采样(bootstrap sampling)的方法随机抽取若干个样本构建新的训练集,即每个训练集都是由原始数据集中采样得到的,每个样本被采样到新的训练集的概率为 n/1 。
2. 从所有特征中随机选取一部分特征,比如说 m 个特征( m << 特征总数),然后从这 m 个特征中选择最优的特征进行节点分裂。这个过程可以通过计算信息增益(ID3)、增益比(C4.5)或基尼指数(CART)来选择最优特征。
3. 对每个节点重复步骤 2 直到满足停止条件,比如说节点包含的样本数量小于某个阈值,或者树的深度达到了某个限制。 重复步骤 1 到 3 ,构建多棵决策树,最终的结果就和上述 Bagging 的集合结果的方法相似。



总结与比较

最后是常见概念的优缺点总结。
Bagging VS Boosting
* Bagging
* 主要关注降低方差,在不容易受样本扰动的学习器上的效用更明显
* 可以有效地缓解过拟合问题,但它对于噪声数据的容忍度较低
* Boosting
* 更多地关注如何减小模型的偏差
* 可以提高模型的泛化能力,但容易受到噪声数据的干扰

GDBT VS XGBoost
* GBDT 只用到了损失函数的一阶导;XGboost 用到了损失函数的二次导,效果会更好
* XGBoost 加入了一个正则化项,包含了叶子节点的个数和各个叶子节点输出值的平方之和
* XGBoost 引入了列抽样,能够降低过拟合的风险,也减少了计算量
* 当遇到负增益时,GBDT 会马上停止分裂,但是 XGBoost 会一致分裂到指定的最大深度,然后回来剪枝
* XGBoost 引入了并行,多线程地计算特征的增益,后面的迭代可以重复使用

BY /
声明:本文归“力扣”版权所有,如需转载请联系。
defect 发表于 2023-10-22 04:45:31|来自:北京 | 显示全部楼层
最近几年人工智能和深度学习备受推崇,所以有不少同学不管三七二十一就一头扎进去投入到CV的大队伍中。
然而,对于基础的统计学、机器学习一知半解,似懂非懂,最终进入工作岗位才发现「高不成低不就」,技术浅的不愿意干、技术太深的干不了。
所以,我个人更加建议能够从基础学起,系统扎实的学一下机器学习。
我一向认为,在学习一样技术之前不要太着急,首先要弄清楚它到底是什么、然后学习的时候也能够更加清晰明了一些。
今天,就从三个方面介绍如何学习机器学习:

  • 什么是机器学习?
  • 如何学机器学习?
  • 怎么进阶机器学习?
话不多说,下面开始介绍。
一、 什么是机器学习?

什么是机器学习?它和人工智能、深度学习有什么关系?

  • 人工智能是计算机学科的一个分支,一个技术领域和方向的统称。
  • 机器学习是人工智能的一个子领域,从过去的数据样本中获得知识的过程,并利用这些知识来做出未来的预测,它可以作为一种数据挖掘技术使用。
  • 深度学习是机器学习的一个子领域,它是一种具有更多功能的机器学习技术,因为它试图模仿人脑中的神经元,它是一种将现象学习为概念的嵌套层次结构,每个概念都与更简单的概念有关,例如,卷积神经网络。
看到这里,应该很清楚的区分数据挖掘和后两者之间的区别,下面再详细的从特征工程、方法等方面解释一下机器学习和深度学习的区别。
特征工程

这是一个利用领域知识提取数据的重要特征,然后将其输入学习算法的过程。这个过程确保数据中的模式对学习算法更加明显。
在机器学习中,大多数应用的特征需要由专家来识别。这个过程需要大量的时间和精力。
在深度学习中,算法会自行提取特征。
解决问题的方法

当使用传统的机器学习算法解决问题时,建议将问题分解成更小的部分,解决它们,然后将它们的输出结合起来,得到最终结果。
而深度学习则建议从头到尾,端到端的解决这个问题。
例如,假设有一个动物识别问题,一张图片可能有多种动物。
机器学习首先会识别图像中可能存在的物体,然后分别预测或识别它们中的每一个。
而深度学习会输入完整的图像并一次性输出物体的位置和名称。
数据

与传统的机器学习算法相比,深度学习算法通常需要更多的数据才能给出较好的表现。
硬件

与传统的机器学习相比,深度学习是计算密集型的(因为有更多的矩阵乘法),因此对硬件和计算性能有更高的要求。
训练时间

基于前两点,深度学习在数据量、计算量都要比传统机器学习大很多,因此,深度学习在训练模型方面也会耗费更多时间。
二、如何学机器学习?

机器学习是一个很模糊且宽泛的话题,关于它的书籍、博客、视频课程也是非常多的,我认为如果希望做一些宏观的了解,看一些网上的文章就行。如果希望深入学习,个人建议还是系统的看看相关的书籍、视频课程,然后尽量动手实现一下,因为当你动手实现的时候你会对它的理解更加深刻。
机器学习可以从两个方向说起:学习算法和应用领域,如果把应用领域也囊括在内的话,那包含的学习内容就太多了,

  • 数据挖掘
  • 计算机视觉
  • 自然语言处理
  • 搜索引擎
  • ......
以上每个应用领域都能找到很多相关的书籍或者课程,因此就没必要把它们全部罗列出来了。
单从学习算法来说,它可以分为如下几个种类:

  • 监督学习
  • 无监督学习
  • 半监督学习
  • 增强学习
按研究阶段和研究内容综合来划分又可以这样进行分类:

  • 传统机器学习(后面称机器学习)
  • 深度学习
我就从以上这3个方向开始 介绍一下相关的优质学习资源。
机器学习

视频课程
《机器学习》-吴恩达
[中英字幕]吴恩达机器学习系列课程_哔哩哔哩_bilibili提及机器学习,入门课程当然少不了吴恩达的入门经典课程《机器学习》,虽然目前关于机器学习的教程层出不穷,但是绝大多数都是各教育机构为分取蛋糕而创作出的产物,难免良莠不齐,内容不严谨,所以尽管老掉牙,我还是会首推吴恩达的这门《机器学习课程》,
《机器学习与神经网络》-Geoffrey Hinton
Hinton机器学习与神经网络中文课 - 网易云课堂图灵奖得主、人工智能领域三位顶尖大牛之一,我想从事AI领域的应该对Hinton都不陌生,从他的文章中就可以看的出来,非常有深度,严谨,他的这门课程也保持了一贯作风。但是,这门课也有一个问题,就是语速相对较快,一遍要跟着理解英语,一遍要去理解他所阐述的知识,我觉得这还是一件挺吃力的事情。
《机器学习》-李宏毅
李宏毅机器学习2019(国语)_哔哩哔哩_bilibili我觉得对于英语水平有限的同学来说看一门英文的课程还是很吃力的,比如我,每当涉及到英语都会觉得头疼。如果你也一样,可以选择看一下李宏毅的《机器学习》,这门课也是一门机器学习的入门经典,目前已经更新到2019版,不仅内容详细,而且授课语言轻松风趣。
书籍
《机器学习》-周志华
这本书很适合机器学习入门,没有过多的公式推导,也没有晦涩难懂的词汇,理论与示例相结合,阐述非常详细。


《统计学习方法》-李航
和周志华老师的机器学习不同,《统计学习方法》这本书籍有更多的公式推导和理论证明,可以这样概括两者的区别:《机器学习》更偏重于算法原理,让你知道每个算法怎么实现的,步骤是什么。《统计学习方法》会深扒原理背后的理论支撑,这样有助于更加深入的理解机器学习算法,对后续深入研究会有很多好处,当然,随之而来的就是对于初学者看着满篇的公式也会让人觉得很头疼。
《机器学习实战》- Peter Harrington
就如同这本书的名称一样,它更加突出实战,它不过多的讨论算法的原理和优缺点,简单的介绍一下算法的流程步骤,然后接下来更多的篇幅就是围绕实战展开,会给出一个示例,然后逐步编程实现,这样有助于让自己发现学习理论过程中容易忽略的点,进一步加深对机器学习的理解,我认为这本书还是很有必要看一下的,毕竟仅仅学习理论知识难免会落入“纸上谈兵”的困境,实践才能出真知。
我个人建议可以用《机器学习》+《机器学习实战》的组合进行学习,《统计学习方法》可以在学习一段时间机器学习之后,希望更加深入了解机器学习时抽空好好看一下,推导一下里面的公式。


总结
以上课程和书籍都有一个共性,就是直接从神经网络、感知机、贝叶斯、KNN这些机器学习算法开始讲起,而机器学习是一门交叉学科,它涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。如果希望在机器学习领域做更加深入的研究,我认为还需要把这些相关的知识学习一下。当然,如果日常工作是强业务类型,更加偏重于机器学习的应用而不是偏重模型调优,我觉得上述这些课程和书籍已经够用了。
深度学习

视频课程

  • 斯坦福CS20:http://web.stanford.edu/class/cs20si/index.html
  • 吴恩达深度学习工程师:https://mooc.study.163.com/smartSpec/detail/1001319001.htm
  • 卡耐基梅隆大学深度学习导论:https://www.bilibili.com/video/av34151455/
  • 李宏毅深度学习:https://www.bilibili.com/video/av9770302/
书籍

  • 《深度学习》-Goodfellow、Bengio
  • 《Python深度学习》-弗朗索瓦·肖莱



  • 《深度学习入门》-斋藤康毅


三、怎么进阶机器学习?

多看、多练!
这是互联网/IT领域一个通用的法则,无论是学一门编程语言还是机器学习,重点都是在掌握基础理论之后通过实战项目达到多看、多练的效果。
多看的目的是为了学习别人的用法,多练的目的是加深自己的理解。
推荐5个github热门的机器学习项目,涵盖传统机器学习、深度学习,同时还可以学习tensorflow、pytorch这两个机器学习平台。
tensorflow_course



tensorflow_course是一个gihub资源,目前已经9.5k个star,受欢迎程度可见一斑,上面有传统算法,例如线性回归、支持向量机,也有深度学习算法,例如卷积神经网络,能够让你在学习机器学习的过程中进一步熟练tensorflow。
tensorflow_cookbook



这也是一个github项目资源,虽然不如上面这个火热,但是目前也拥有4.1k个star,和上面这个资源有些类似之处,包括传统算法和深度学习算法的实现,可以边学习机器学习知识、边学习深度学习平台。
Awesome Machine Learning



一个很棒的机器学习框架,github 39k+star,按编程语言进行整理,包括但不限于C/C++、Python、Java、JS、matlab、Rust。


每种语言有包含传统机器学习、计算机视觉、自然语言处理、数据挖掘、数据可视化等项目。
Awesome-Pytorch-list



目前5.4k个star,这个资源可以称得上是大合集,包括计算机视觉、自然语言处理、教程和示例、优秀文章的实现,非常全面。
Awesome Deep Learning



书籍、文章、教程、视频、讲座、数据集,应有尽有的一个深度学习资源列表。
<hr/>推荐阅读

你们是喜欢用网易云还是酷狗?
Jackpop:Zlibrary被封了,到底该去哪下载电子书啊?
hello,大家好,我是Jackpop,重点大学本科毕业后保送到哈工大计算数学专业读研,有多年国内头部互联网、IT公司工作经验,先后从事过计算机视觉、推荐系统、后端、数据等相关工作。如果同学们在升学考研、职业规划、高考志愿、简历优化、技术学习等方面有困惑,欢迎大家前来咨询!
whymaomi 发表于 2023-10-22 04:46:21|来自:北京 | 显示全部楼层
先把数据分析,机器学习,人工智能等这些概念搞清楚,就知道要学什么,以及从哪开始学起了。
数据分析,机器学习,深度学习,人工智能的关系我画了这张图


我来解释下这张图。
一切技术的出现都是为了解决现实问题,而现实问题分为简单问题和复杂问题。简单问题,需要简单分析,我们使用数据分析。复杂问题,需要复杂分析,我们使用机器学习
如果在看这个问题的你对数据分析感兴趣,推荐参加知 乎的【前 IBM 数据分析大咖 3 天实战训练营】,一线互联网大厂大牛带队,直播互动讲解互联网数据分析工作流+常见分析模型运作原理,还有大厂真实案例带练实操,打破简历 0 项目经验!升职加薪指日可待!现在参加还有最新 Excel 自学手册 1-6 部免费赠送,数量有限,先到先得,有需要的点击卡片即可:

1、什么是简单问题?

比如公司领导想知道每周的销售情况,这种就是简单问题。简单问题可以用数据分析来处理,通过分析数据来分析出有用的信息。
最简单的,你用 excel 分析一家淘宝店铺的销售数据,每周公司会让你出一份周报一份发现了最近几个月销量下降,然后根据分析产生销量下降的原因是什么,找到原因后制定对应的策略来提高销量。
我们来看一个真实的案例。全球最大的旅行房屋租赁社区 Airbnb 曾在 2011 年纠结于新用户增长的缓慢,有一天,他们的数据分析团队发现房源照片的精美程度,跟房源的预定人数成很大的正相关。
于是,他们提出一种假设,即「附有专业摄影照片的房源要更抢手,因此房主肯定会愿意申请 Airbnb 提供的此项服务」。
他们迅速上线了一个提供专业摄影照片服务的版本,然后跟原版本做 A/B Test,发现同一个房源,使用专业摄影服务的比不使用的多了 2-3 倍的订单量。
2011 年后期,Airbnb 雇用了 20 名专业摄影师,以帮助平台上的房主拍摄房屋照片,几乎在同一时间段,Airbnb 的订单量曲线有了一个陡峭的增长。




2、什么是复杂问题?

比如我们天天使用的淘宝,它会根据你的历史购物习惯(数据),来给推荐你可能感兴趣的商品。淘宝是如何做到的呢?对于这种复杂问题,淘宝背后使用的就是机器学习
我再举个例子,今日头条是如何靠机器学习逆袭成为新闻客户端老大的。
2010 年前后,门户时代崛起的网易、搜狐、腾讯三巨头向移动端转型,几乎垄断了当时的新闻客户端市场。而仅仅 2 年后,今日头条,使用「机器学习」这把屠龙刀向用户个人性化推荐用户感兴趣的新闻,一举打破巨头垄断,成为新闻客户端老大。虽然,后来腾讯和网易为了对抗头条,推出了类似的产品的天天快报和网易号,但因起步晚和算法不成熟,都失败了。
下面图片是我在知乎一个问题下回答的传播分析报告


在这份报告中,像点赞数、评论数、收藏数、总阅读量这样的分析就是简单分析。像「你可能感兴趣的人」这样的分析,就是复杂分析,需要通过机器学习算法来找到,类似于豆瓣上给你推荐感兴趣的电影、淘宝上给你推荐感兴趣的商品。
3、什么是深度学习?

机器学习分很多方法(算法),不同的方法解决不同的问题。深度学习是机器学习中的一个分支方法
深度学习在图像,语音等富媒体的分类和识别上取得了非常好的效果,所以各大研究机构和公司都投入了大量的人力做相关的研究和开发。我说个例子,你肯定听说过。那就是 2016 年谷歌旗下 DeepMind 公司开发的阿尔法围棋(AlphaGo)战胜人类顶尖围棋选手。阿尔法围棋的主要工作原理就是「深度学习」。



4、什么是人工智能?

人工智能,它的范围很广,广义上的人工智能泛指通过计算机(机器)实现人的头脑思维,使机器像人一样去决策。
机器学习是实现人工智能的一种技术。所以我把人工智,机器学习,深度学习放到不同的圆圈里,他们三者是包含的关系:


现在,你已经清楚了数据分析、机器学习、深度学习这些概念的关系了。当我们从解决现实问题的角度来看,很多概念会清楚。处理不同的问题,使用不同的方法。
5、数据分析与人工智能的关系?

你可能会问了:「上图中没看出数据分析和人工智能有什么关系呀,是不是学习数据分析没什么用?那我是不是一开始就学习机器学习了,这样可以直接进人工智能时代,享受时代红利了?」
这么想是不对的。
机器学习是很多学科的知识融合,而数据分析是机器学习的基础。只有学会了数据分析处理数据的方法,你才能看懂机器学习方面的知识。这就好比,你想上初中(机器学习),必须先读完小学(数据分析)才可以。
所以,我在下面图片中画了两条黄色的线,表示数据分析的两个方向,如果你喜欢深入技术,学会了数据分析,你才能打好基础,去学习机器学习。如果你喜欢商业方面的内容,可以往人工智能业务方向发展。


职业社交网站领英在《2018 新兴工作岗位报告》中说,2018 年,15 个新兴职位里有 6 个与人工智能相关,这说明,与人工智能相关的技能开始渗透到各个行业,而不仅仅是技术行业。
领英把人工智能技能定义为:开发和有效使用人工智能工具和技术的技能。这是领英上增长最快的一个技能,从全球来看,2015 年到 2017 年这个技能增长了 190%。
之前很多人本来就是零基础,却买来一堆机器学习的课程和书来学习,最后看的是晕头转向,觉得自己不适合。
其实,这是走错了路。如果你是零基础,想进入人工智能这个相关的职业,要先从数据分析开始学起。
6、总结

1)人工智能是指使机器像人一样去决策
2)机器学习是实现人工智能的一种技术
3)机器学习分很多方法(算法),不同的方法解决不同的问题。深度学习是机器学习中的一个分支方法。
4)数据分析可以帮助你从零进入人工智能时代。如果你喜欢深入技术,学会了数据分析,你才能打好基础,去学习机器学习。如果你喜欢商业方面的内容,可以往人工智能业务方向发展。
5)下面这张图是它们之间的关系


7.如何学习?

了解了这些基本概念以后,你就知道了应该从哪开始学习了。建议时间紧张的朋友看我总结好的视频课版本,节省时间精力。3 天时间,分析工具带练+模型结构拆解+大厂案例实战,能力深度对标阿里 P6+,可以帮助大家系统性地掌握数据分析技能和提升数据分析思维,实现升职加薪梦!
原文作者:猴子
使用 App 查看完整内容目前,该付费内容的完整版仅支持在 App 中查看
<a href="http://oia.zhihu.com/answer/2819570634/" class="internal" style="color: #0084FF;text-decoration:none;border-bottom:none;">🔗App 内查看
可人 发表于 2023-10-22 04:46:43|来自:北京 | 显示全部楼层
student老胡:机器学习入门指南(2021版)可以看一下我的这一篇文章,介绍的非常详细清楚,主要包括我学习机器学习过程中看过的一些书、教程、视频,还有学习经验和建议,希望能对你有所帮助。


一些经验和建议

1、我敢肯定很多初学者都是资料收集爱好者,越攒越多反而不知道从何开始。我强烈建议把资料都扔掉,以我的这一套为准,一以贯之的学下去。
2、就像前面我提到的,很多东西先不要深究,不要在某些地方卡太久(比如数学部分,比如编程基础),先学下去,学完。了解大的框架之后,以后用到哪里,再回过来补也不迟。
3、机器学习的各种算法没必要样样精通,常用的比如LR、树模型、RF、XGBoost等等掌握好就不错了。
4、我身边一些优秀的程序员、分析师、工程师都非常推崇“做中学,学中做”,无论是书本还是视频,看到一些好的方法和技巧,要立即自己实现一遍。看起来非常简单的东西,真真动手的时候才会发现自己的不足。快速学完上述内容就尽快开始实践吧,可以先复现天池或kaggle上优秀的notebook,然后就参与一些入门竞赛。
5、如果你已有工作,最好的还是在业务中寻找机器学习应用场景,然后尝试去开发一个适用的模型。不懂就搜索,学习。这是我所知最好的,最有价值的学习方法。
6、输出也是特别好的学习方式,输出就是把新学到的知识用某种方式讲给别人听,做到让他们也能理解、学会。我比较喜欢写笔记(我常用的是微软的OneNote),然后把笔记整理成文章发到博客上。这样不仅使对自己知识掌握程度的一种检验,发现薄弱点,也可以让大家共同监督,相互学习,教学相长。
OK,以上就是所有内容,如有疑问,欢迎与我交流~
norris1109 发表于 2023-10-22 04:47:10|来自:北京 | 显示全部楼层
机器学习入门,吴恩达机器学习视频课,西瓜书,打好python基础,熟练使用sklearn、lightgbm、xgboost、catboost等库,然后就开始参与竞赛,如天池、数据城堡、kesci等,以及国外的kaggle;深度学习依然是吴恩达深度学习视频课,掌握pytorch、tensorflow深度学习框架,然后找自己喜欢的领域钻研具体模型方法,比如主流的bert、transorfmoer等,最后依旧是参加国内外竞赛平台的nlp、cv等:实践项目才是迅速提升能力的方法。最后欢迎你关注我的主页,会持续分享机器学习相关应用及原理等。

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则