电脑问答:如何最简单、通俗地理解什么是机器学习？-今日问答

sexyrobto 发表于 2023-10-27 05:14:58

如何最简单、通俗地理解什么是机器学习？

loooog 发表于 2023-10-27 05:15:58

那就究竟什么是学习呢?诺贝尔经济学奖和图灵奖双料得主、卡耐基梅隆大学的赫伯特 · 西蒙 (Herbert Simon) 教授是这样定义的：“学习是系统通过经验提升性能的过程”。可以看到，学习是一个过程，并且这里有3个关键词，即经验、提升和性能。我们先要明确，学习的目标是提升某个具体性能，例如我们学习开车时，希望能提升自己的车技，这可以通过一些驾驶的测试来获得具体的指标分数。我们还要明确，学习是基于经验的，也就是基于我们经历过的事情，如我们在驾驶过程中遇到的情况以及当时的具体动作和结果，这其实就是数据。因此，如果用较为计算机的语言来描述，学习就是系统基于数据来提升既定指标分数的过程。
有了上述对于学习是怎样一个过程的理解，现在我们就比较好定义机器学习了。根据机器学习泰斗、卡耐基梅隆大学的汤姆 ·米切尔 (Tom Mitchell) 教授的定义，机器学习是一门研究算法的学科，这些算法能够通过非显式编程 (non-explicit programming) 的形式，利用经验数据来提升某个任务的性能指标。一组学习任务可以由三元组〈任务，指标，数据〉来明确定义。
如果用较为数学的语言来描述机器学习，则对应一个优化问题。针对某一预测任务，其数据集为D, 对于一个机器学习预测模型f, 预测任务的性能指标可以通过一个函数 T(D,f) 来表示，那么机器学习的过程则是在一个给定的模型空间F 中，寻找可以最大化性能指标的预测模型f:

http://pic1.zhimg.com/50/v2-d37947b4c2bd8d444c24ebb7e4538189_720w.jpg?source=1940ef5c
这里的ML(D) 表示机器学习可以被看成是一个输入数据集、输出解决任务算法的算法。
这里说的非显式编程具有哪些特性呢?一般人工智能技术的实现，都是需要人先充分了解任务和解决方法，并根据具体的解决思路，编写程序来完成该任务。例如地图的导航任务，系统需要先将城市的路网建模成一个图结构，然后针对具体起点到终点的任务，寻找最短路径，如使用A* 搜索算法。因此，显式编程需要开发者首先自己可以完成该智能任务，才能通过实现对应的逻辑来使机器完成它，相当于要事先知道f, 然后直接实现它。这其实大大抬高了人工智能技术的门槛，它需要有人能解决任务并通过程序来实现解决方法。而有的智能任务是很难通过这样的方式来解决的，如人脸识别、语音识别这样的感知模式识别任务，其实我们自己都不清楚人是如何精准识别平时碰到的每个人的脸的，也就更加无法编写程序来直接实现这个逻辑；亦或是如深海无人艇航行、无人机飞行等人类自己无法完成的任务，自然也无法通过直接编程来实现。
具体地，在上述优化范式中，我们在模型空间F 中寻找最优模型f* 的过程可以是一个持续迭代的形式，即

http://picx.zhimg.com/50/v2-30d31a701d06c6b22ea82d12ecfd3005_720w.jpg?source=1940ef5c
而这个寻找最优模型f 的过程就是机器学习。机器学习的算法对应着从f 迭代到的程序。
华盛顿大学的佩德罗 · 多明戈斯 (Pedro Domingos) 教授将机器学习比喻成“终极算法”。因为有了机器学习技术，只需要拥有任务的数据，就可以得到解决任务的算法。这样，程序员就可以“往后站一步”,从直接编写各类任务具体的算法程序，转为编写机器学习算法程序，然后在不同任务中，基于任务自身的数据，学习出一个解决该任务的算法(即机器学习模型), 如图1-1所示。

http://picx.zhimg.com/v2-c728312dae4695b73db599b9494d5fc2_r.jpg?source=1940ef5c
机器学习入门书
动手学机器学习

http://picx.zhimg.com/50/v2-142bb0e08aa873959f95e52582a9e2e3_720w.jpg?source=1940ef5c
本书包含4个部分。第一部分为机器学习基础，主要讲解机器学习的基本概念以及两个最基础的机器学习算法，即KNN 和线性回归，并基于这两个算法讨论机器学习的基本思想和实验原则。这一部分涵盖了机器学习最基础、最主要的原理和实践内容，完成此部分学习后就能在大部分机器学习实践场景中上手解决问题。第二部分为参数化模型，主要讨论监督学习任务的参数化模型，包括线性模型、双线性模型和神经网络。这类方法主要基于数据的损失函数对模型参数求梯度，进而更新模型，在代码实现方面具有共通性。第三部分为非参数化模型，主要关注监督学习的非参数化模型，包括支持向量机、树模型和梯度提升树等。把非参数化模型单独作为一个部分来讨论，能更好地帮助读者从原理和代码方面体会参数化模型和非参数化模型之间的区别和优劣。第四部分为无监督模型，涉及聚类、 PCA 降维、概率图模型、 EM 算法和自编码器，旨在从不同任务、不同技术的角度讨论无监督学习，让读者体会无监督学习和监督学习之间的区别。本书的4个部分皆为机器学习的主干知识，希望系统掌握机器学习基本知识的读者都应该学习这些内容。

e中人 发表于 2023-10-27 05:16:18

都2023年了，如果还不知道什么是机器学习的话就来看这篇文章吧，讲给普通人的机器需学习理论。
在谈论机器学习时候，实际上是在告诉你机器（可以通俗的按照电脑、CPU或者一切可以处理逻辑计算的产物）是如何通过一系列数据中学习到一些规则或者决策。
想象一下，在教小狗识别球的时候，你可能会把球放在他的面前，然后多次的告诉他这个东西名字叫做“球”，然后不断重复，并给予小狗奖励机制。在很长时间一段教学下，当你说出“球”的时候，他就能准确知道你在谈论的物品是什么。
为了让小狗更加聪明，你可能会拿出不同种类的球，包括乒乓球、足球、篮球，不断的告知它，这些东西叫做“球”，在长时间的锻炼下，它可能就会明白，圆圆的、可以滚动的物品就叫做“球”，当你拿出来这个网球的时候，它也会给你反馈说这个东西叫做“球”
如果你能看懂这一步，那我就能告诉你你已经初步的理解什么叫做机器学习了。如果上述我们称之为小狗学习，那么机器学习就是我们在教计算机如何学习，给小狗展示多次的教学行为，在计算机中训练数据，并且需要让计算机从这些数据中找到规律和模式。当我们拿出一个新的网球让小狗识别的过程，再机器学习上称之为预测、或者决策。

http://pic1.zhimg.com/v2-acd76ccad4e87e48aace74c6f1604c40_r.jpg?source=1940ef5c
什么是机器学习

简单来说，机器学习可以定义为机器模仿人类智能的行为。从本质上讲，机器学习的任务是让计算机变得更加智能，而不需要明确地教它们如何行为。类似于狗狗可以在一大堆物品中找出各种各样的“球”而不需要我们每一种类型都需要告知它。
机器学习 (ML) 是人工智能 (AI) 的一个分支，它使计算机能够从训练数据中“自学习”并随着时间的推移而改进，而无需进行显式编程。机器学习算法能够检测数据模式并从中学习，以便做出自己的预测。简而言之，机器学习算法和模型通过经验进行学习。
在传统编程中，计算机工程师编写一系列指令来指示计算机如何将输入数据转换为所需的输出。指令大多基于 IF-ELSE 结构：当满足某些条件时，程序执行特定操作。
因此可以得出，机器学习使计算机能够从训练数据中“自学习”并随着时间的推移而改进，而无需进行显式编程。
再举一个简单的例子，如何分辨橙子？
根据橙子的特征在水果摊买橙子，随着见过的橙子和其他水果越来越多，逐渐辨别橙子特征的能力越来越强，就不会再把其他水果当成橙子。

http://pic1.zhimg.com/v2-d7e10a0b1097f635ed758de3e8d2439a_r.jpg?source=1940ef5c
机器学习强调“学习”而不是程序本身，通过复杂的算法来分析大量的数据，识别数据中的模式，并做出一个预测–不需要特定的代码。在样本的数量不断增加的同时，自我纠正完善“学习目的”，可以从自身的错误中学习，提高识别能力。
根据上述的例子，可以推演出机器学习由三个部分组成：

[*]属于决策核心的计算算法 —— 狗狗的大脑
[*]组成决策的变量和特征 —— 狗狗的学习能力
[*]支持（训练）系统学习的具有已知答案的相关基础知识 —— 训练狗狗的过程
主要计算过程包括：首先，向模型馈送具有已知答案的参数数据。然后，运行算法，进行调整，直到算法的输出（学习结果）与已知答案一致。此时，输入的数据量持续增加，以帮助系统学习和处理更高级的计算决策。
谈到这儿，就应该清楚了什么是机器学习。

http://picx.zhimg.com/v2-7c39441a0efda62f9e4f66379a820ac6_r.jpg?source=1940ef5c
机器学习是如何工作的？

机器学习的工作原理是模仿人类的学习方式。机器识别数据模式，并根据其编程方式来处理某些类型的数据来确定操作。机器学习有可能通过一组有组织的规则、指南或协议来自动化任何事情。
机器学习使用两种基本技术：监督学习和无监督学习。
监督学习：为机器提供了训练样本来教它识别哪些模式。通过这样做，你可以监督它的学习。机器分析您标记和分类的数据，预测结果。监督学习的一个例子是垃圾邮件文件夹：机器分析发件人和电子邮件主题并对它们进行相应的排序。
无监督学习：需要机器从未标记的数据中得出未知的相似之处和发现。一个例子是聚类，这是一种机器将数据点分成簇的方法。每个簇都包含彼此相似的点，但在某种程度上与其他簇中的数据点不同。机器本身可以识别数据中的模式，从而得出见解或建议采取的行动。无监督学习的一个例子是客户细分，其中根据客户的购买模式以及与公司的互动模式对企业的客户数据进行分组。
了解完机器学习后，如果想要了解2023年最火热的大模型知识的话，真心的建议你参加知学堂推出的《程序员的AI大模型进阶之旅》一共2天的课程，可以帮助你梳理大模型领域的学习框架。
最重要的是这个课程是完全免费的，白嫖党的福利。不需要钱就可以和大牛对话，这种机会实属难得，更能体验自主训练的机器学习模型，实践理论相结合。上面的链接就是公开课的链接！！另外，添加课程之后一定一定一定要添加助教小姐姐的微信，可以私聊助教领取今年最火最热的大模型学习资源！！
机器学习工作原理

这部分是针对上一部分专业知识补充，
监督学习

监督学习再次划分下去也包括两个类别，分别是分类和回归
分类方法可预测离散响应 - 例如，电子邮件是真正邮件还是垃圾邮件，肿瘤是恶性还是良性的。分类模型将输入数据划分成不同类别。典型的应用包括医学成像、语音识别和信用评分。
如果您的数据能进行标记、分类或分为特定的组或类，则使用分类。例如，笔迹识别应用会使用分类来识别字母和数字。在图像处理和计算机视觉方面，无监督模式识别方法被用于目标检测和图像分割。
回归方法可用于预测连续响应，例如电池荷电状态等难以测量的物理量，电网的电力负荷或金融资产价格。典型的应用包括虚拟传感、电力负荷预测和算法交易。
无监督学习

无监督学习可发现数据中隐藏的模式或内在结构。这种方法可根据由没有标注响应的输入组成的数据集做出推断。
聚类是最常见的无监督学习方法。它可以用来执行探索性数据分析以发现数据中隐藏的模式或分组。聚类分析的应用包括基因序列分析、市场调查和目标识别。
例如，如果一家移动电话公司想优化其手机信号塔的方位布局，就可以使用机器学习来估算使用信号塔的人群聚类数量。一部移动电话同时间只能与一个信号塔通信，所以，该团队使用聚类算法设计蜂窝塔的最佳布局，优化其客户群组（也可以称之为客户聚类）的信号接收。
看到这里我估计你已经对机器学习有着较为清晰认识了，机器学习是一种利用计算机通过算法模型，从数据学习规则或模式，可以进行预测、判断、分组和解决问题的技术。

http://pic1.zhimg.com/v2-d578990983fbbdb966232fab3a8aa015_r.jpg?source=1940ef5c
机器和传统程序最大的不同就是，机器学习不是程序员直接编写函数的技术，是让机器通过“训练”得出从模型中求解出来一个函数。
一般的机器学习过程分为以下三个步骤：

[*]确立一个模型或者算法
[*]输入训练数据求解或优化模型
[*]输入预测数据得到预测结果

rao841222 发表于 2023-10-27 05:16:32

一个基于先验概率的判断黑盒。

lusys 发表于 2023-10-27 05:16:48

像豆瓣、淘宝、QQ音乐这些推荐系统，背后的秘密武器正是机器学习。下面我们用最通俗易懂的大白话来聊聊，到底什么是机器学习？机器学习有点像人类的思考过程，假设我们去买苹果，苹果是一种营养成分高的水果，国外谚语“每天一个苹果，医生远离我”。我们想挑又脆又甜的苹果，怎么挑呢？记得妈妈说过，苹果的表面要光滑，没有虫眼，没有干枯。所以我们有了一个简单的判断标准：只挑表面要光滑的。如果用计算机程序来帮我们挑选苹果，则可写下这样的规则：
　　　if (表面光滑)
　　　　then
　　　　苹果是甜的
　　　　else
　　　　苹果不甜
我们会用这些规则来挑选苹果。如果在我们的苹果实验中有了新的发现，比如在我们买回的苹果中有些是不好吃的，经过品尝各种不同类型的苹果，我们发现如果带着蒂的话那一定要选蒂比较绿的，枯黄的话就说明苹果已经不新鲜了。
所以我们修改了规则：
　　　　if(表面光滑 and 蒂比较绿 ):
　　　　苹果是甜的
　　　　else:
　　　　苹果不甜
我们会发现这个普通的计算机算法有个缺点，那就是：我们得搞清楚影响苹果甜度的所有因素的错综复杂的细节，比如又发现了自然熟透了的苹果都是黄里透红，苹果越重说明含水量越充足，等等。如果问题越来越复杂，我们就要针对所有的苹果类型建立规则，手动地制定挑选规则就变得非常困难。
那如何解决克服这个缺点呢？机器学习算法可以解决这个问题。机器学习算法是由前面的普通算法演化而来的。通过自动地从提供的数据中学习，它会让我们的程序变得更“聪明”。我们从市场上的苹果里随机地抽取一定的样品（在机器学习里叫作训练数据），制作成下面的一张表格，上面记着每个苹果的物理属性，比如颜色、大小、产地等。（这些苹果的属性称之为特征）。还记录下这个苹果甜不甜（这叫作标签）。我们将这个训练数据提供给一个机器学习算法，然后它就会学习出一个关于苹果的特征和它是否甜之间关系的模型。下次我们再去市场买苹果，面对新的苹果（测试数据），然后将新的苹果输入这个训练好的模型，模型会直接输出这个苹果是甜的，还是不甜的。有了这个模型，我们现在可以满怀自信地去买苹果了，根本不用考虑那些挑选苹果的细节。只需要将苹果的物理属性输入这个模型，就直接可以知道苹果是不是甜的。
更重要的是，我们可以让这个模型随着时间越变越好（增强学习），当这个模型读进更多的训练数据，它就会更加准确，并且在做了错误的预测之后进行自我修正。这还不是最棒的地方，最棒的地方在于，我们可以用同样的机器学习算法去训练不同的模型，比如我们可以使用同样的机器算法来预测橘子、西瓜的模型。这是常规计算机传统程序办不到的，这就是机器学习的专属优势。
总结一下，机器学习是用机器学习算法来建立模型，当有新的数据过来时，可以通过模型来进行预测。机器学习最基本的做法，是使用算法来解析数据、从中学习，然后对真实世界中的事件做出决策和预测。与传统的为解决特定任务、硬编码的软件程序不同，机器学习是用大量的数据来“训练”，通过各种算法从数据中学习如何完成任务。

mam520 发表于 2023-10-27 05:17:08

用1分钟时间浏览了一下其他答主写的，回答写的太“专业”了，很多小白根本不知道那么技术名词的，真是一上来就把大家搞晕了。
我力争用最通俗易懂的语言能让小白用最短的时间get到深度学习和机器学习的区别。
机器学习之父 Arthur Samuel 对机器学习的定义是：在没有明确设置的情况下，使计算机具有学习能力的研究领域。
国际机器学习大会的创始人之一 Tom Mitchell 对机器学习的定义是：计算机程序从经验 E 中学习，解决某一任务 T，进行某一性能度量 P，通过 P 测定在 T 上的表现因经验 E 而提高。
这两个定义你看了之后可能瞬间就懵了，没关系，这里我用“人话”来和你解释一下。
现在，请你想象这样一个场景：你周日约了小李、老王打牌，小李先来了，老王没来。
你想打电话叫老王过来。小李说：“你别打电话啦，昨天老王喜欢的球队皇马输球了，他的项目在上个礼拜也没成功上线，再加上他儿子期末考试不及格，他肯定没心情来。”
这种情况下，你觉得老王会来吗？一般情况下，我们都会觉得老王大概率不会来了。不过，你有想过我们是怎么得出这个结论的吗？实际上我们运用了“推理”。我们人类的大脑做这样的推理似乎是自然而然的事儿。
但是，对于计算机来说，如果它也像小李那样有老王的“历史数据”，知道他看皇马，知道他的项目情况，知道他儿子的成绩，那计算机能推出这个结论吗？
对于长期以来只能按照人类预设规则解决问题的机器来说，这可并不是件容易的事。
而机器学习的厉害之处就在于，它能利用计算机的运算能力，从大量的数据中发现一个“函数”或“模型”，并通过它来模拟现实世界事物间的关系，从而实现预测、判断等目的。
这个过程的关键是建立一个合适的模型，并能主动地根据这个模型进行“推理”，而这个建模的过程就是机器的“学习”过程。
那么机器学习和我们传统的程序有什么区别呢？实际上，传统程序是程序员把已知的规则定义好后输入给机器的，而机器学习则从已知数据中，通过不断试错、自我优化、自身总结，归纳出规则来。
机器学习是一种从数据生成规则、发现模型，来帮助我们预测、判断、分组和解决问题的技术。
机器和传统程序最大的不同就是，机器学习不是程序员直接编写函数的技术，是让机器通过“训练”得出函数。而我们做机器学习项目，就是要选定一个算法，然后用数据训练机器，找到一族函数中最适合的那一个，形成模型。
具体来看，机器学习分为四大类，分别是监督学习、无监督学习和半监督学习和强化学习。其中，监督学习是我们课程的一个重点。它能解决的两类问题：回归和分类。所以，我们在开始一个项目时，一定要首先明确我们要解决的问题属于哪种类型，这对模型的选择十分重要。
我非常理解初学者学机器学习，最怕的就是信息过载，新名词太多，一下子理解不了。其实你不必害怕，把机器学习中有很多重要概念和工具都可以在不断实操过程的中把它们搞懂、弄透。
这里先给渴望进入机器学习领域的新人，奉上一份机器学习笔记吧，里面每个算法都描述的详细全面。这里就不展开赘述了，按需下载。
700 页的机器学习笔记火了！完整版开放下载如果你相对有一定基础，想进一步了解深度学习，可以阅读这篇：
什么是深度学习？

页: [1]

今日问答's Archiver

如何最简单、通俗地理解什么是机器学习？