[IT技术] 什么是机器学习?

[复制链接]
sxxs12 发表于 2023-11-14 14:28:58|来自:北京 | 显示全部楼层 |阅读模式
什么是机器学习?
全部回复5 显示全部楼层
dingke5488 发表于 2023-11-14 14:29:16|来自:北京 | 显示全部楼层
huchuanhao 发表于 2023-11-14 14:29:44|来自:北京 | 显示全部楼层
很多人都在谈机器学习,无论是专业从业者还是业余爱好者都必须弄清楚一个问题:什么是机器学习?今天,我们想借用微软亚洲研究院资深研究员闫峻博士撰写的一个小故事《“小马医生养成记”》来回答这个问题,相信同学们看完以后对机器学习的认识会更加深刻哦~

————这里是正式回答的分割线————

近年来,机器学习和大数据领域的突破进展使人工智能急速回温,训练计算机模拟甚至实现人类的学习行为则是目前人工智能领域最受关注的研究课题之一。很多人都难以想象,看似冷冰冰的机器如何能在短时间内学得一身本领的?其实,培养计算机具有一定的专业能力与培养一个专业人才的过程具有很多相似性。

计算神器,天资超凡

老马有一个小儿子叫小马,他非常可爱,且拥有超乎常人的记忆力,基本过目不忘。小马的算数能力同样惊人,各种加减乘除,非一般儿童可比。经过儿时的培养和精心呵护,老马惊喜地发现自己的孩子还耳聪目明,听写考试成绩永远名列前茅,对所看到事物的辨识力也十分了得。老马总是骄傲地和朋友们说:“我的孩子是个小天才,小小年纪已经学会好几种语言了,我们全家出国旅游,他都可以当个小翻译了。”就在前几天学校的下棋比赛上,小马轻轻松松拿了第一名。于是,老马决定,要好好培养这个孩子。

机器学习小课堂
计算机与人类相比有很多先天的优势。比如记忆能力、基本运算的速度等方面都是正常人类所无法比拟的。随着人工智能技术的发展,计算机在感知计算如语音识别、图像识别等领域的能力也已经开始赶超人类。在基于大数据的机器翻译,以及基于搜索算法与增强学习的棋类竞技上,计算机也表现出了强有力的竞争力。于是,人们期望计算机能做的更多、更好。虽然计算机有先天的优势,但自身仍有不足。在努力了解计算机并帮助这个 “天才儿童” 成长的过程中,我们是否可以利用一个或多个具体的应用领域来更好地认识“他”并更有效地挖掘“他”的潜力呢?因此,我们计划从一个小目标开始,看看计算机能不能成为一名称职的人类医生助手,甚至未来是成为一名医生。


知识工程,美中不足

小马果然没有辜负家人的期望,以优异的成绩考入了全国知名的医学院。在学校里,小马认真阅读了大量书籍和文献,知识积累越来越丰富。眼看大学就要毕业了,小马被派到一所知名医院进行实习。凭借自己的知识积累,小马决定一展身手。可是当小马到了医院见到了形形色色的患者后,他发现书本里学到的知识有点不太够用。患者对症状的含糊描述让他不知所措。而且很多患者的现实情况和书本里讲的经常不太一样,总是多出或缺少几个他没见过的特殊症状表现,所以小马没办法用他在学校里学到的知识严谨的推理出合理的结论给患者。这让小马感觉挫败,他觉得自己的知识零散,不灵活,于是他决定回到学校继续读研深造。




读研期间,小马勤学好问,把他遇到过的、不知道如何解决的问题归纳总结起来,向导师询问,学习到了很多书本里学不到的新知识。他意识到:要成为一名好医生,不能光靠书本知识,经验也很重要。研究生毕业后,小马如愿以偿加入到他实习时的这家知名医院成为了一名医生,并开始积累他的临床经验。

机器学习小课堂
知识工程是早期人工智能技术关注的焦点。知识的提取、知识的表示与推理曾被认为是人工智能的基础。但在应用的过程中,人们逐渐发现高质量专业知识抽取的成本很高,也很难做到完备,知识的表示也很难做到易用的语义层面,这一切都给知识推理带来了巨大的挑战。这些挑战所带来的后果就是人们发现在很多应用领域单纯依赖于知识工程的方法成本高,也难以达到预期的效果。因此,人们开始对知识工程产生质疑,甚至对人工智能产生质疑。

另一方面,随着统计机器学习的发展以及计算机对大数据处理能力的提高,人们开始重新解读人工智能。虽然知识工程遇到了很多问题,但大批科学家还是坚信计算机的智能不能单纯依靠统计学习,它离不开前人知识的总结。在微软亚洲研究院,针对知识图谱的建立,我们研究了一系列知识挖掘工具,并定义为Knowledge Mining API。针对知识的语义表示,我们研究并开放了 Microsoft Concept Graph等能够在语义层面表达知识的方法。所有的这些努力都是为了以更低的成本建立更完备、更易于计算的知识图谱来“武装”我们的计算机


统计学习,返璞归真

小马的勤奋让人动容,除了每天出诊,他还阅读了大量科室内之前的治疗记录,他的学习速度让其他医生望尘莫及。经过一段时间的拼搏,小马已经是一名颇有经验的医生了。对于患者的诊断,他有了自己的心得甚至可以称之为感觉。很多时候小马像条件反射一样,凭感觉就能快速给出判断和治疗方案,一般的患者小马都能轻松诊断。慢慢地,小马觉得他已经不需要按照医学院里学的那些条条框框工作了,他的经验和直觉足以应对。

然而有一天,科里发生了一起医疗事故:有一位资深医生根据自己经验治疗的一名患者出了问题,“人走了”,患者家属要打官司。于是医院决定,再有经验的医生在诊断之后也要有理有据,可以给出诊断理由。




这件事对小马触动很大,他成为科室里第一个做出快速反应的人。因为小马在学校里学习的知识很有逻辑性,所以他很快地把自己的经验和之前的知识做了研究,找出了其中的核心联系。同时,令人惊喜的是,小马发现,当他的理性知识结合他的感性经验后所做出的诊疗结果比以前更加有效,这也让他加速成为了一名令人信服的专家医生。同时,他的经验也给书本知识进行了很大的补充。这些收获让小马思考了一个新的问题:“我从事了这么久的临床治疗,获得了一些书本里没有的经验,这本身就是一种创新。除了把它们总结下来,我能不能有更大的创新来推动医学的进步呢?”

机器学习小课堂
基于大量数据的统计机器学习包括深度学习,近年异军突起,尤其是深度学习。由于对复杂非线性模型的逼近能力与对数据的自适应能力,因此深度学习在很多应用领域表现优异,在很多应用中深度学习得出的结论甚至可以与人类专家的决策相媲美。但人们也陆续发现了一些深度学习的不足之处——一个突出的问题就是完全参数化模型导致的结果具有不可解释性。另外,很多科学家还在想的一个问题是,既然人类的进步总是站在前人的肩膀上,那么机器学习为什么一定要从零开始,是否可以把前人的经验和知识利用起来,融入到机器学习的过程中?于是,知识工程与统计机器学习的结合引起了越来越多的关注。

目前针对知识与统计机器学习结合的相关研究主要集中在把知识表示为统计学习目标函数的归一化项或把知识当作输入数据表示的扩展。当然还有一些更加简单粗暴的方式,如多个不同独立模型加权后的共同决策、知识图谱当作统计学习的后处理过滤器等等。各种早期尝试都让我们看到了二者结合带来的进步,但目前还没有显著的帮助。这个方向是我们当前研究的一个重点。


创新野心,假设求证

人人都在谈创新,可创新谈何容易,该从何下手呢?忽然,小马想起了读研时导师对他所选择课题的建议“大胆假设,小心求证”。对,创新的方式很多,就从“大胆假设,小心求证”开始,小马决定。“以前学到的知识可以让我进行理性地推理,积累的经验可以让我进行感性地决策。二者的结合让我成为了一名专家医生。创新要基于我的知识和经验,但不能局限于此,一定要有所超越!”小马心里想到。

于是小马在各种病症与诊断用药之间寻找联系,基于他的知识和经验寻找新的可能性。小马常问自己的一句话是“这个病人为什么不能那样治呢?”当提出这样的问题后,小马查找大量资料,寻找临床证据,当证据相对充分时,他便提出临床实验请求。终于功夫不负有心人,小马一个大胆的假设被多个病例所验证。因为此事,小马成了院里知名的具有极强科研能力的专家医生。这一切,也让小马的父亲倍感骄傲。




再来谈谈老马。老马是一名大学教授,主攻计算机领域的机器学习理论。有一次,老马对小马说:“孩子,爸爸的算法研究在应用时就像在治病,具体问题是病,算法就是药,药没有万能的,算法也一样。”小马无意间想到了和父亲的那次谈话,他突然意识到,现在各个领域都在讲跨界是有道理的,“我们行医也可以借鉴一些其他领域的知识,触类旁通可以得到更多的灵感来激发我的创造力。”

机器学习小课堂
无论是知识工程还是统计机器学习,如今人们开始愿意相信计算机的理性推理和感性决策能力。但即使二者结合,人们还是无法预期计算机是否将会具有创新能力。想想人类的创新,很多情况是基于两点:一是灵感,这是具有很强随机性的东西;另一个是联想,就是触类旁通。关于灵感,人类的很多创新灵感是在理性推理与感性认知后的一种假设检验,即先想到“能不能这样”,然后再去求证。那么计算机是否可以模拟这一过程呢?

由于灵感即假设的某些随机性,我们开始重新关注近期并没有被重视的随机算法。比如遗传算法,可以通过数据向量基因表示的遗传变异得到一些新的假设,然后利用大数据搜索技术寻证。由于计算机的超强记忆与快速搜索能力,这条路是否可以让计算机具有一定的创新力?从另一个角度来看,这种假设检验的思路也是对现有大部分统计学习和知识推理的一种有效补充。




统计学习是基于大数据的,也就是说,可以从大量数据中学到统计规律。知识图谱的建立往往也是基于大数据的,那么能解决的问题也就主要集中在数据分布的前端,往往忽略了长尾。比如,有一个罕见疾病在不经意间被某些治疗手段治好了,但这种案例很少,也容易被人忽视,那么大数据观点是很难建立出相应的模型和知识图谱的。但如果通过假设检验的方式,一旦假设被建立,检验过程就是去寻找相应的证据,哪怕相关数据量很小,也可能被捕捉。所以,我们的一个长线研究课题就是这种基于假设检验的机器“创新”。


跨界人才,触类旁通

小马从小爱好广泛,历史、地理、物理、化学样样精通。然而,小马以前的这些知识所在领域分散,看起来相互之间好像没有什么关联。但自从在和父亲的谈话中意识到跨领域思考可以触类旁通的道理以后,小马遇到各种事情都会想一想:是否在其它问题中学习到的道理可以被应用。

果然,在一次诊疗过程中,小马发现病人所面临的情况和治理城市污染的道理相似。表面上看到各个排污企业都安装了环保设备,但因为使用成本过高,很多企业没有真正投入使用,所以污染依旧。同样的道理,这个病人虽然使用了看上去最好的药物,但这些药物会消耗正常细胞,导致身体抵抗力下降,所以身体可能会出于本能主动阻止药物发挥应有的作用。

于是,小马果断调整了治疗方案,让病人获得了更好的疗效。同时,在和病人沟通的过程中小马发现很多患者听不懂他关于病情的解释,但如果根据患者的知识背景用一些比喻的方式解释,患者很快就会接受诊疗建议。小马想到,这同样也是运用一个领域的知识来解释另一个领域的问题,只要道理是一样的。

从此以后,小马养成了一个习惯,就是遇到任何问题都会联想到他在生活、学习和工作中遇到的其他领域可以触类旁通的情景。很快,小马的诊疗技术进一步突飞猛进,也越来越受患者的喜爱。

机器学习小课堂
人类的很多创新来自联想。另外,人的举一反三地能力也不同程度地依赖于联想。联想是什么?从我们研究的观点看,可以片面理解为从某个未被解决的具体问题搜索到已被解决或已被部分解决的类似问题,这个类似问题的解决方案或背后隐藏的道理可以被应用来解决当前问题。这种联想往往是跨领域的。

回到当前研究的热点领域,在统计机器学习中,transfer of learning(迁移学习)就是一种机器通过联想解决问题的途径。从知识图谱的角度看,要实现机器的联想能力,首先要建立一个跨领域的知识图谱。现今所有常见的知识图谱一般都不会为“父亲”和“大山”建立关系,也不会为“生活”与“巧克力”建立关系。但在人类的常识体系中,他们是有一定联系的,也是经常会被人们联想到的。当前,我们研究的一个早期尝试,就是建立这种跨领域的知识关系图谱,以此赋予机器一定的联想能力。


情感注入,人性沟通

小马在事业上的一帆风顺并不能掩盖他自身的一些问题。由于名气越来越大,找他看病的患者也越来越多,他发现自己很多时候对患者没那么有耐心。很多患者反映:和小马医生交流时,他总是面无表情,语言生硬。小马的一个很大优点就是发现问题尽量马上解决,他意识到,除了给患者治好病,还要让患者满意。

于是,他开始学习各种沟通技巧。慢慢地,小马能够从与患者的沟通中体会患者的心理需求,能够体会患者的喜怒哀乐,并能察言观色给患者体贴的呵护与治疗。他还开始主动关心每一位患者,并提出个性化的建议。不仅治病,小马还会给出防病、养生的建议。此后,小马成为了一名真正受欢迎并具有创造力的医学专家。

机器学习小课堂
在关注计算机硬能力的同时,为了更好地让机器与人类沟通并服务于人类,我们也要关注计算机的软能力。这包括用户个性化建模的能力、情感理解与表达的能力等等。我们关注的另一个重点是主动模型与被动模型的区别。目前我们建立的很多计算机服务都是被动模型,也就是说以有求必应为目标。但很多情况下主动地提醒、建议在很多实际应用中是非常必要的。然而主动模型的度很难把握,多了会烦、少了会想。因此,关于主动模型的研究也是我们当前研究的一部分。

时代人才,综合素质

小马的成功不是偶然的,其中付出了巨大的努力。他天资聪慧,具有某些如记忆、算数天分这样的超常能力,经过培养后感知能力超群,无论听还是看。他勤奋好学,对书本有很强的学习能力,并快速建立了自己的知识体系。他学习迅速,可以快速从大量案例中积累经验。更了不起的是,他能很好地把经验和书本知识相结合。

之前一直有亲戚担心小马天资过于聪慧。“上帝给了你超群的能力,为你开了很多门,就会给你关上几扇窗。你的创造力可能不如别人,可能没那么强的联想能力,也可能会自闭,和别人的沟通可能会出问题”,各种质疑曾经频繁出现,但小马一次次证明了自己。他比别人更细心,这让他的大胆假设更容易被验证,这就赋予了他超乎常人的创造力。通过知识体系的建立,小马拥有自己超群的联想能力。而他的细致让他更容易察言观色每一个人,也赋予了他更强的情感沟通能力。在这样一个日新月异的时代中,小马的综合素质能够使他脱颖而出,成为最优秀的明日之星。

————这里是回答结束的分割线————

以上回答摘选自微软研究院AI头条,机器学习六步曲--“小马医生”养成记。

感谢大家的阅读。

本账号为微软亚洲研究院的官方知乎账号。本账号立足于计算机领域,特别是人工智能相关的前沿研究,旨在为人工智能的相关研究提供范例,从专业的角度促进公众对人工智能的理解,并为研究人员提供讨论和参与的开放平台,从而共建计算机领域的未来。

微软亚洲研究院的每一位专家都是我们的智囊团,你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的“邀请”,让我们在分享中共同进步。

也欢迎大家关注我们的微博和微信 (ID:MSRAsia) 账号,了解更多我们研究。
yuyuyouling 发表于 2023-11-14 14:30:29|来自:北京 | 显示全部楼层
- 1+1等于几 ?
- 50
- 傻x,多了
- 1+2等于几?
- 20
- 傻x,多了
- 3+4等于几
- 7
- 傻x,对了
- 6+9等于几
- 13
- 傻x,少了

很多很多次以后……

- 2+2等于几
- 4
- 4+5等于几
- 9
这就是机器学习,准确来说是最常见的一种,监督学习。最开始的几步是对于模型的训练,“多了”或“少了”可以理解为训练时的误差,模型根据误差调整自身参数,这就是机器学习里常用的反向传播(Backpropagation)的简单的解释。梯度下降涉及到计算,真没想到该怎么通俗解释。。

再补充一个最近一直在看的,生成对抗网络(GAN)。
- 孙悟空(Real data):我是孙悟空。
- 如来(D net):你是真的。
- 六耳猕猴(G net):我是孙悟空。
- 如来:你是假的。
- 孙悟空:我是孙悟空。
- 如来:你是真的。

很多很多次以后......

- 六耳猕猴:我是孙悟空。
- 如来:你是真的。
GAN由一个G网络和一个D网络组成。G网络目标是尽量生成与真实样本数据相似的数据,让D网络出错;D网络目标是判断一个样本是来自真实样本还是由G生成的。交替训练两个网络,存在全局最优解,使G网络生成的样本和真实样本一样,同时D网络判断的正确率达到1/2。
zzfsmsk 发表于 2023-11-14 14:30:38|来自:北京 | 显示全部楼层
普林斯顿大学机器学习方向博士,大数据建模公司普林科技CTO。
楼上的回答都偏学术一些,以下将尽可能通俗易懂地讲一讲怎么理解“机器学习”。
和大数据一样,机器学习(MachineLearning, ML)是一个热门而又有略有误导性的名词。
字面上它让不禁让人联想到一群机器人排排坐上自习的科幻场景,然而实际上它指的是让计算机具备像人一样的学习能力的高(qi)端(ji)技(yin)术(qiao),进而从堆积如山的数据中寻找出有用的知识。
听起来有些不可思议,真的有这种黑科技吗?

计算机的正确打开方式难道不是喂给它一串命令,然后愉快地看它乖乖执行么?

除了0和1啥也不认识的呆呆计算机,怎么还能像人类一样“学习”了呢?

嘿嘿,这个还真可以有。别急,且容我慢慢道来。


在讨论计算机如何学习之前,不妨先来看看我们人类是如何学习的。

人类的学习按逻辑顺序可分为三个阶段:输入,整合,输出。大家都多多少少学过英语,我就拿学英语来举例好了。
在入门时我们都逃不出背单词的苦海,不积累一定的词汇量后续学习都无从谈起,这是输入阶段。
然而很快我们就会发现,即使背完一本牛津大辞典也是没法和歪果仁愉快交流的。
我们必须学习语法,学习一些约定俗成的习惯用语,才能知道如何把单词组合成地道的句子,这便是整合阶段。
最后,有词汇量作基石,又有了语法规律作为架构,我们就能在特定场合用英文来表达自己的想法。这是输出阶段,也正是我们学习英文的初衷。
学习其他东西也是一样,概括来说,都要经历从积累经验到总结规律,最终灵活运用这三个阶段。
对此,我们完全可以对人类的学习给出如下定义:

人类的学习是一个人根据过往的经验,对一类问题形成某种认识或总结出一定的规律,然后利用这些知识来对新的问题下判断的过程。
毫不夸张地说,学习能力绝对是人类打猩猩时代起憋出的大招,在它的帮助下人类一举登顶食物链之巅。

之后经过了数千万年的自然选择,学习能力弱的要么被环境淘汰要么被同类坑害,都死绝了。
学习这套流程已深深写入了我们的DNA里,一代比一代玩得溜。
故事到这里似乎直指人类称霸宇宙的happy ending了,然而我们还忽略了一件事,就是人类的脑容量和寿命毕竟有限。

即便聪明如爱因斯坦,发现相对论前前后后也要耗费数十年。即使再有更聪明的人出生,也得从1+1abc学起,达到爱因斯坦的水平小半辈子也过去了。

由于这个限制,纵使人类有超级的学习能力,还是很难让现有知识爆炸性增长的。


帮助人类突破这个瓶颈的,正是计算机。
人类学习能力强,但记性差,反应慢,还容易坏。计算机虽呆,但容量大,计算快,还稳定
怎样融合这两者的优势呢?
显然最简单省事的方法就是手把手教会计算机学习了~(是谁说不如植入芯片让人脑变电脑的,你出来,我保证不拿你去做实验(微笑脸))
那么,应该怎样教会计算机学习呢?
人类可以从自己获得的经验中学习知识,然而计算机没法读书万卷也做不到阅人无数,只能从我们投喂给它的数据中学习规律了。我们当然希望计算机学到规律之后立马智商爆表,分分钟就能自己用新知识独当一面啦。
不难想象,一旦这个设想成为现实,计算机就能以类似人类的方式解决很多复杂而多变的问题。计算机解决问题与人类思考的经验过程将会趋同,不过它能考虑更多的情况,执行更加复杂的计算,从而产生及其可观的效益。
那么问题来了,怎么指导计算机从数据中总结规律呢?

几十年来,很多计算机科学和应用数学界的学者们总结出了不少教会计算机的办法,它们就是各式各样的机器学习算法。它们是数据科学家们胯下的挖掘机,担负着将海量数据化腐朽为神奇的使命。

至此,我们终于可以对机器学习下这样一个定义了:机器学习是指用某些算法指导计算机利用已知数据得出适当的模型,并利用此模型对新的情境给出判断的过程。
由此看来,机器学习的思想并不复杂,它仅仅是对人类生活中学习过程的一个模拟。

而在这整个过程中,最关键的是数据,是数据,是数据!重要的事情说三遍。

如果说模型是我们希望造出来的火箭,那数据就是它的燃料。数据量直接决定了我们的火箭只是个概念玩具,还是能够载人登月,还是可以飞出太阳系探寻智慧生物。
这也是机器学习和大数据是如此密不可分的原因。不得不说在这一点上计算机是远远比不上人脑的。


人类学习能力的可怕之处在于,能够通过极其有限的样本归纳出泛化能力极高的准则。

要知道,AlphaGo经过和自己左右互搏数千万局才达到现今的棋力,而和他不相上下的李世石,穷其一生打谱恐怕也到不了这个数目的百分之一。

正所谓“No data,no intelligence”。事实上,只要数据量足够大,机器学习算法的选择反倒没有那么重要了。

打个比方的话,数据和算法之于计算机好比阅历和智商之于人类。丰富的阅历所带来的智慧,自然不是靠一点小聪明就能驾驭得了的啦。AlphaGo就是一个智商20棋龄10000年的老妖精,打败李世石主要靠的是经验。

机器学习根据所处理数据种类的不同,可以分为有监督学习,无监督学习,半监督学习和强化学习等几种类型。

实践中应用较多的也就是前两种。

所谓监督学习,就是说数据样本会告诉计算机在该情形下的正确输出结果,希望计算机能够在面对没有见过的输入样本时也给出靠谱的输出结果,从而达到预测未知的目的。就像一个学生通过做多套高考模拟卷并订正答案的方式来提高高考成绩。在这种情形下,数据就像是监督计算机进行学习的教师,故而得名。
根据输出结果是离散值还是连续值,监督学习可以分为分类问题和回归问题两大类。他们在文字、语音、图像识别,垃圾邮件分类与拦截,网页检索,股票预测等方面有着广泛应用。
无监督学习,是指数据样本中没有给出正确的输出结果信息。这就像做了好多套没有答案的模拟卷,最后还要去高考。听上去是不是既惊悚又不靠谱?
但其实做没有答案的试卷也是能学到很多有价值的信息的,比方说哪些题出现频率高,那些题爱扎堆考,等等。无监督学习希望从数据中挖掘的正是这一类信息,常见的例子有聚类,关联规则挖掘,离群点检测等等。

知乎专栏链接:http://zhuanlan.zhihu.com/p/20791490
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
netwolf 发表于 2023-11-14 14:31:12|来自:北京 | 显示全部楼层

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则