FineRIk 发表于 2023-10-6 00:14:42

人工智能退潮期来了吗?

从各个行业高举AI大棒,到无人自动驾驶,没什么落地迹象,再到deepmind亏损40亿美元,nature子刊批判当今神经网络重训练轻结构等问题,越来越多的人开始重新理性反思,AMD苏黎姿也对当前AI持谨慎态度,人工智能的退潮期是否已经到了

ghgh456 发表于 2023-10-6 00:15:07

人工智能确实存在一定的退潮现象,但与其说“退潮”不如说是变得实际冷静。
解释一下“何为退潮”,人工智能作为一门发展时间并不长的前沿技术本身就已经经历过“三次浪潮两次低谷”,具体过程如下:

http://pic1.zhimg.com/v2-857915364fe7e69bc24e5b47d68563bb_r.jpg?source=1940ef5c
放错图了,再来。

http://pic1.zhimg.com/v2-5f919ce2ed8e38bfa8fbd8cf0410f1f1_r.jpg?source=1940ef5c

图片来源:【第九届中国云计算应用论坛】清华大学教授吴及:知识与智能

可以看出每一次浪潮的出现都是得益于新技术的出现。第一次AI浪潮,逻辑主义盛行,在统计方法中引入符号方法进行语义处理,出现了基于知识的方法,人机交互开始成为可能,但后来由于最开始人们对AI的四大预言并未实现,热潮渐退。第二次AI浪潮中连接主义盛行,人工神经元网络的出现解决了不少问题,但十几年后大家发现这一方法解决单一问题尚可,解决复杂问题还是差强人意。
前两次的“退潮”定义很大程度是由于人工智能作为一门学科,其研究进度逐渐放缓进而不再(那么地)收到外界关注。而自以深度学习为代表的第三次AI浪潮袭来,AI逐渐走出实验室,产业化加速之快是有别于前两次浪潮的。
2016年,AlphaGo一鸣惊人战胜世界围棋冠军李世石,将第三次AI浪潮推向浪潮,随着资本与媒体的关注猛增,尽管是一项面向未来的技术,但它能否带来社会价值成为衡量AI是否退潮的最大标准。

http://picx.zhimg.com/v2-74fe7203dee85f0383934cbd5811f076_r.jpg?source=1940ef5c

图片来源:网络

如同一位知友所回答的那样:“可能真正的瓶颈不在于技术本身,而在于产品本身”。AI落地的周期并不短并且非常吞金,这让曾经一哄而上的资本逐渐冷却,从这点来看,“AI投资热”确实存在退潮现象。
2019年被视为资本由热转冷的分水岭。此前AI是投资界的宠儿,资本蜂拥而至,行业融资规模快速爆发。据IT橘子统计数据显示,中国AI企业融资规模在2018年达到顶峰,约为1485亿元,去年则降至967亿,降幅接近35%,融资数量也大幅减少40%至431。

http://picx.zhimg.com/50/v2-1e798485b4c7384b3073e3fe63b28962_720w.jpg?source=1940ef5c
然而,怀疑与谨慎更突显了AI必须要直面如何落地的问题,而不是要飘在空中。而大众也需要摆脱对AI的“神化”,更多地将AI看作是基础技术,助力生产生活的一种工具。
这也是为何在开头说“并非全面退潮”。在我国推动新基建的大背景下,人工智能被纳为七大版块之一,为产业持续赋能。在助力生产生活方面,AI依然稳定且脚踏实地地发展:
如前所述,现在深度学习已经成为了人工智能技术领域最重要的技术之一。近年来,在不断发展的处理器技术帮助下,计算机视觉、语音识别、自然语言处理和机器人取得了爆炸性进展,这些都离不开深度学习。

http://picx.zhimg.com/50/v2-2eee1f635c85395e3c7cfe357e963df9_720w.jpg?source=1940ef5c
英特尔今年发布的第三代至强可扩展处理器,内置DL Boost等深度学习加速技术以及新增的bfloat16指令集技术,在基于深度学习的图像分类、语音识别和语言建模、实时推理等方面有着不凡的表现。
如今微信读书推出了AI听书功能——有利于眼干眼涩缓解眼疲劳~这是语音合成技术的出色使用,晚上睡觉前听一听,还可以选择男声女声,语音相当自然流畅,感情还挺充沛,害,不过和边江大大还差一点点,但有时候就是想听小姐姐给我讲故事,这时候就可以切换成女声。

http://picx.zhimg.com/50/v2-f069b6799417092fdd8c3d9062297aeb_720w.jpg?source=1940ef5c

来源:微信读书APP截图

这背后的硬件支撑是由腾讯云推出的星星海首款四路服务器,搭载四颗腾讯云与英特尔合作定制的第三代英特尔至强可扩展处理器,将云服务器实例密度提升了116%,能够满足用户在超大规模高并发应用场景下对超大规格云服务器实例的需求。
根据测试,在语音合成应用中,新服务器对应的云计算实例能够将关键模型的延迟优化提高1.89倍,吞吐量提升至1.54倍。
除此之外,AI不是只有深度学习,制造方面的落地应用很大程度需要依赖机器学习。
德系三强「ABB」之一、迷人的“四个圈”奥迪是很多人的dream car,体面又“扛造”。“扛造”的质量离不开缜密的质检,但即使强如奥迪,在每天生产的1000辆汽车中,技术人员人工只能抽检一台。

http://pic1.zhimg.com/v2-44f82eacd285ee466505b6ed43497ceb_r.jpg?source=1940ef5c
最近,奥迪与英特尔合作开展概念验证,用英特尔®工业边缘洞见平台EIS(Intel Edge Insights for Industrial),基于机器学习技术,在焊枪的边缘侧获取数据、分析、改进,帮助奥迪的工程师们实现了数据可视化、流程监控,提供自动化的质量检测方案,准确性得到提高,同时人工成本可以减少30-50%。
奥迪用到的英特尔工业边缘洞见平台EIS,软件上可以跨越各类操作系统和工业协议,硬件层面可以跨工业物联网生产环境的各类不同边缘硬件,提供数据的集成、管理和分析,同时加速应用的开发部署。配合OpenVINO工具套件,EIS支持高性能推理, 以此实现机器视觉缺陷实时检测、设备维护、质量控制和安全监控等工作负载。

http://pic1.zhimg.com/50/v2-05a09d26ebee84088e88984a5dfe09e2_720w.jpg?source=1940ef5c
这其实可以被看作是一个缩影,智能制造的缩影、AI助力生产生活不断前进浪潮的一个缩影。随着人工智能的不断成熟,全新一代的工业电脑正在成为工厂车间的核心,打工人也告别脏乱差的车间,拥抱智能化、数字化。
最后,除了应用层面,AI浪潮如果想不褪去,作为底层支柱的研究开发层面也必须跟上。“退潮论”的出现也是由于业内都有了共识:人工智能还需要再迈向一个台阶。
从哪迈向哪?从感知智能向认知智能演进。
人工智能已经在“听、说、看”等感知智能领域已经达到或超越了人类水准,但在需要外部知识、逻辑推理或者领域迁移的认知智能领域还处于初级阶段。
那迈向认知智能的关键技术是什么?神经拟态计算。
神经拟态计算主要指用包括模拟、数字或者模数混合大规模集成电路(也包括神经元或者神经突触模型的新型材料或者电子元器件研究 )和软件系统实现神经网络模型,并在此之上构建智能系统的研究。
神经拟态计算以原生的方式支持独特的脉冲神经网络(SNNs)。这是一种特殊的网络,可以模仿人脑神经元的动态连接和强化方式将计算模块进行分布和自学习。SNN中每一个“神经元”都可以被多路输入的包含时序信息的脉冲单独激发,并向网络中其他神经元发送脉冲信号,从而直接改变神经元的电学状态。
这项技术发展到怎么样的地步了呢?英特尔在神经拟态计算领域取得了重大进展。《自然》杂志的一篇论文显示,英特尔Loihi芯片仅需单一样本便可学会识别10种有害气体的气味。英特尔最新发布的以Loihi芯片为基础的神经拟态计算系统Pohoiki Springs包含1亿个神经元,堪比小型哺乳动物的大脑容量。

http://pica.zhimg.com/v2-06601dc11e256440ea3ff39950cd2a41_r.jpg?source=1940ef5c
基于Loihi的系统已经可以仅用每种一个样本训练,即可识别10种不同的危害气体。而普通的深度学习AI芯片想要实现同样的效果,则需要3000个样本,这是非常难以实现的。神经拟态计算芯片的创新架构设计模拟人脑的神经元结构和运行方式,并将计算和存储融合一体。
这么来看,AI在科研层面貌似也发展得挺好的?
Anyway,“AI退潮论”确实存在并存在一定真实性,但没那么可怕,资本圈之前很盛行的一句话:浪潮褪去就知道谁在裸泳。本质为技术和工具的AI也早就该穿上“实用”的外衣,适当降降温没什么不好~
参考资料:
《玩转深度学习,成为AI第三次浪潮的弄潮儿》
https://mp.weixin.qq.com/s/I3Z3N6DwcXF_rZmz_d0Zlw
《新一代工业电脑闪亮登场,以数据智慧加持传统车间》
https://mp.weixin.qq.com/s/X887Zl7lQDZFB2io-wVF_Q
论文链接:https://www.nature.com/articles/s42256-020-0159-4
《有“嗅觉”的电脑:英特尔神经拟态芯片能嗅出危险化学品气味》https://mp.weixin.qq.com/s/w_LDKqpCxmp9Hxs-bLr7ZA

e999 发表于 2023-10-6 00:15:30

就目前的深度学习这波来说, 人工智能无疑进入到一个瓶颈期, 而未来5到10年, 深度学习会逐步下沉成为下一波人工智能的基础。 我认为下一波人工智能的关键技术,必然设计因果推理, 更复杂的层级知识表示, 元学习等目前初露锋芒的领域, 而这些领域能否深度, 取决于我们对大脑认知的深入层次, 因为这些大脑独有的能力, 目前除非理解它, 还没有看到更好的方案 , 以下是具体的分析脑科学如何可以增益人工智能:
这两年, 频频有专家警示深度学习即将进入寒冬。 而同时, 一个名叫“类脑智能”的词汇火起来, 这个概念说的是一种比目前深度学习更加接近人脑的智能。 这背后的故事是, 深度学习的大佬,目前已经注意到深度学习的原创性进展面临瓶颈,甚至呼吁全部重来。为了拯救这种趋势, 模拟人脑再次成为一种希望。 然而这一思路是否经得住深度推敲? 我本人做过多年计算神经科学和AI , 做一个抛砖引玉的小结。


http://picx.zhimg.com/v2-614632ae76ab75c7ca71499554ba63a1_r.jpg?source=1940ef5c

AI发展的危机人工智能, 目前多被理解成一个领域领应用的工程学科,从自动安防系统到无人驾驶是它的疆土,而模式识别和计算机专家, 是这片陆地的原住民。 目前的人工智能事实上以工程思维为主, 从当下人工智能的主流深度学习来看, 打开任何一篇论文, 映入眼帘的是几个知名数据集的性能比较,无论是视觉分类的ImageNet,Pascal Vol, 还是强化学习的Atari game。各种各样的bench mark和曲线, 让我们感觉像是一个CPU或者数码相机的导购指南。

那么, 是否这些在这些流行数据库跑分最高的“智能工具"就更智能? 这可能取决于对”智能“ 本身的定义。 如果你问一个认知专家“智能”是不是ImageNet的错误率, 那么他一定会觉得相当好笑。 一个人可能在识别图片的时候由于各种劳累和马虎, 在这个数据集的错误率高于机器。但是只要你去和它谈任何一个图片它所理解的东西, 比如一个苹果, 你都会震惊于其信息之丰富, 不仅包含了真实苹果的各种感官, 还包含了关于苹果的各种文学影视, 从夏娃的苹果, 到白雪公主的苹果。 应该说, 人类理解的苹果更加接近概念网络里的一个节点,和整个世界的所有其它概念相关联, 而非机器学习分类器眼里的n个互相分离的“高斯分布”。


http://pic1.zhimg.com/v2-feba128e992eba5dfce45ec1bd39821e_r.jpg?source=1940ef5c

如果我们认为, ”智能“ 是解决某一类复杂问题的能力,是否我们就可以完全不care上述那种”理解“呢 ? 这样的智能工具, 顶多是一些感官的外延, 而”感官“ 是否可以解决复杂问题呢? 一个能够准确的识别1000种苹果的机器, 未必能有效的利用这样的信息去思考如何把它在圣诞节分作为礼品分发给公司的员工, 或者取悦你的女友。没有”理解“ 的智能, 将很快到达解决问题复杂度的上限。 缺少真正的理解, 甚至连做感官有时也会捉襟见肘, 你在图像里加入各种噪声, 会明显的干扰分类的准确性, 这点在人类里并不存在。比如下图的小狗和曲奇, 你可以分出来,AI很难。


http://picx.zhimg.com/v2-7894acd96da25859f74844e74208c355_r.jpg?source=1940ef5c

”语言“ 在人类的智能里享有独一无二的特殊性,而刚刚的”理解“问题, 背后的本质是目前深度学习对语言的捉襟见肘。 虽然我们可以用强大的LSTM生成诗歌(下图), 再配上注意力机制和外显记忆与人类对话, 也不代表它能理解人类的这个语言系统。 目前机器对自然语言处理的能力远不及视觉(当下的图卷积网络或可以这个领域做出贡献)。


http://picx.zhimg.com/v2-e657acafdc4d92e9d7998f9a68f287f7_r.jpg?source=1940ef5c
更加糟糕的还有强化学习, 深度强化学习已经战胜了最强大的人类棋手。 但是强化学习却远非一种可靠的实用方法。 这里面最难的在于目前的强化学习还做不到可扩展, 也就是从一个游戏的问题扩展到真实的问题时候会十分糟糕。 一个已经学的很好的强化学习网络,可以在自己已经学到的领域所向披靡, 然而在游戏里稍微增加一点变化, 神经网络就不知所措。 我们可以想象成这是泛化能力的严重缺失, 在真实世界里,这恰恰一击致命。

http://picx.zhimg.com/v2-8554b8b91b133766fbed087e9a676136_r.jpg?source=1940ef5c
事实上在很长时间里,人工智能的过分依赖工科思维恰恰给它的危机埋下了伏笔,在人工数据上破记录, 并不代表我们就会在刚说的“理解”上做进步。 这更像是两个不同的进化方向。 其实, 关于智能的更深刻的理解, 早就是认知科学家,心理学家和神经科学家的核心任务。 如果我们需要让人工智能进步, 向他们取经就看起来很合理。


http://picx.zhimg.com/v2-614632ae76ab75c7ca71499554ba63a1_r.jpg?source=1940ef5c

脑科学与人工智能合作与分离的历史

虽然看起来模拟生物大脑是达到更高层次人工智能的必由之路,但是从当下的人工智能学者的角度,这远非显然。 这里的渊源来自人工智能的早期发展史,应该说深度学习来自于对脑科学的直接取经, 然而它的壮大却是由于对这条道路的背离。 我们可以把这个历史概括为两次合作一次分离。

第一次合作: 深度学习的前身-感知机。模拟人类大脑的人工智能流派又称为连接主义,最早的连接主义尝试就是模拟大脑的单个神经元。 Warren McCulloch 和 WalterPitts在1943 提出而来神经元的模型, 这个模型类似于某种二极管或逻辑门电路。事实上, 人们很快发现感知机的学习有巨大的局限性,Minksky等一批AI早期大师发现感知机无法执行“抑或”这个非常基本的逻辑运算,从而让人们彻底放弃了用它得到人类智能的希望。 对感知机的失望导致连接主义机器学习的研究陷入低谷达15年, 直到一股新的力量的注入。

第二次合作: 这次风波, 来自一群好奇心极强的物理学家,在20世纪80年代,hopefiled提出了它的 Hopefield 网络模型,这个模型受到了物理里的Ising模型和自旋玻璃模型的启发, Hopefield发现,自旋玻璃和神经网络具有极大的相似性。每个神经元可以看作一个个微小的磁极, 它可以一种极为简单的方法影响周围的神经元,一个是兴奋(使得其他神经元和自己状态相同), 一个是抑制(相反)。 如果我们用这个模型来表示神经网络, 那么我们会立刻得到一个心理学特有的现象: 关联记忆。 比如说你看到你奶奶的照片, 立刻想到是奶奶,再联想到和奶奶有关的很多事。 这里的观点是, 某种神经信息(比如奶奶)对应神经元的集体发放状态(好比操场上正步走的士兵), 当奶奶的照片被输入进去, 它会召唤这个神经元的集体状态, 然后你就想到了奶奶。

由于这个模型可以模拟心理学的现象, 人们开始重新对模拟人脑的人工智能报以希望。 人们从不同领域开始涌入这个研究。 在这批人里,发生了一个有趣的分化。 有的人沿着这个路数去研究真实大脑是怎么思考的, 有的人则想直接用这个模型制造机器大脑, 前者派生出了计算神经科学, 后者则导致了联结主义机器学习的复兴, 你可以理解为前者对猫感兴趣,后者只对机器猫感兴趣,虽然两者都在那里写模型。 CNN和RNN分别在80年中后期被发现, 应该说, CNN的结构是直接借鉴了Husel和Wiesel 发现的视觉皮层处理信息的原理, 而RNN则是刚刚说到的Hopefield 网络的一个直接进化。


http://picx.zhimg.com/v2-2dbff1d84bf3e97579050b88e2e21525_r.jpg?source=1940ef5c

一批人用模型研究真实大脑, 另一批研究机器大脑

AI与脑科学的分离: 90年代后人工智能的主流是以支持向量机为代表的统计机器学习, 而非神经网络。 在漫长的联结主义低谷期, Hinton坚信神经网络既然作为生物智能的载体, 它一定会称为人工智能的救星, 在它的努力下, Hopefield网络很快演化称为新的更强大的模型玻尔兹曼机, 玻尔兹曼机演化为受限玻尔兹曼机, 自编码器, 堆叠自编码器,这已经很接近当下的深度网络。 而深度卷积网络CNN则连续打破视觉处理任务的记录,宣布深度学习时代开始。

然而, 如果你认为这一股AI兴起的风波的原因是我们对大脑的借鉴, 则一定会被机器学习专家diss,恰恰相反,这波深度学习的崛起来自于深度学习专家对脑科学的背离。 CNN虽然直接模拟了大脑视皮层结构的模拟, 利用了层级编码, 局部网络连接, 池化这样和生物直接相关的原理。但是, 网络的训练方法,却来自一种完全非生物的方法。 由于信息存储在无数神经元构成的网络连接里, 如何让它学进去, 也是最难的问题。很久以前,人们使用的学习方法是Hebian learning 的生物学习方法, 这种方法实用起来极为困难。 Hinton等人放弃这条道路而使用没有生物支撑但更加高效的反向传播算法, 使得最终训练成功。 从此数据犹如一颗颗子弹打造出神经网络的雏形 ,虽然每次只改一点点, 最终当数据的量特别巨大, 却发生一场质变。

CNN能够在2012 年而不是2011或者2010年开始爆发是因为那一年人们提出了Alexnet。 而Alexnet比起之前的Lenet一个关键性的微小调整在于使用Relu,所谓线性整流单元替换了之前的Sigmoid作为激活函数。Simoid 函数才是更加具有生物基础的学习函数, 然而能够抛弃模拟大脑的想法使用Relu, 使得整个网络的信息流通通畅了很多。

http://picx.zhimg.com/v2-d75a66841fd6be4901e04e34ae5145a3_r.jpg?source=1940ef5c
深度学习另一条主线, 沿着让机器听懂人类的语言, 一种叫LSTM的神经网络, 模拟了人类最奇妙的记忆能力, 并却开始处理和自然语言有关的任务, LSTM框架的提出依然是没有遵循大脑的结构,而是直接在网络里引入类似逻辑门的结构控制信息。

由此我们看到, 神经网络虽然在诞生之初多次吸收了生物学的原理本质, 而其最终的成功却在于它大胆的脱离生物细节, 使用更加讲究效率的数理工科思维。 生物的细节千千万, 有一些是进化的副产品, 或者由于生物经常挨饿做出的妥协, 却远非智能的必须, 因此对它们的抛弃极大的解放了人工智能的发展。


http://picx.zhimg.com/v2-614632ae76ab75c7ca71499554ba63a1_r.jpg?source=1940ef5c

脑科学究竟能否开启深度学习时代的下个阶段

那么生物神经网络究竟可不可以启发人工智能呢? 刚刚的分析我们看到生物的细节并不一定对人工智能有帮助, 而生物大脑计算的根本原理却始终在推动深度学习 。 正如CNN的发展直接使用了层级编码的原理, 然后根据自己计算的需求重新设定了细节, 无论如何变化, 生物视觉处理和CNN背后的数学核心却始终保持一致。
那么目前的深度学习工具用到了多少生物大脑计算的基本原理呢, 答案是, 冰山一角。 如果说人工智能要继续革命, 那么无疑还要继续深挖这些原理,然后根据这些原则重新设定细节。 答案很简单, 宇宙的基本定律不会有很多, 比如相对论量子论这样的根本原理几乎统治物理世界。 如果生物大脑使用一套原理实现了智能, 那么很可能人工智能也不会差很远。即使细节差距很大, 那个根本的东西极有可能是一致的。

这样的数学原理应该不会有很多条, 因为人脑的结构一个惊人的特点就是虽然脑区非常不同, 但不同脑区的构造却极为相似, 这种相似性显示了大脑不同脑区使用类似的基本原理。 我们目前的深度学习算法, 无论是CNN还是RNN,都只是发现了这个基本原理的某个局部。 发现这个基本原理, 恰恰是计算神经科学的使命。 对于智能这个上帝最杰出的作品, 我们能做的只有盲人摸象, 目前摸到的东西有一些已经被用到了人工智能里, 有些则没有,我们随便举几个看看。

确定已经被应用的原理:
1, 层级编码原理(Hierarchical coding): 生物神经网络最基本的结构特点是多层, 无论是视觉, 听觉, 我们说基本的神经回路都有层级结构, 而且经常是六层。这种纵深的层级, 对应的编码原理正是从具体特征到抽象特征的层级编码结构。 最有名的莫过于祖母细胞, 这一思路直接催生了以CNN为代表的深度学习。

http://pica.zhimg.com/v2-49e005646ac22a88d1ea7551aa8df0a7_r.jpg?source=1940ef5c

http://pica.zhimg.com/v2-21d88e8ff36da28d119e2ad32a67ddeb_r.jpg?source=1940ef5c
2, 集群编码原理 (Distributed coding): 一个与层级编码相对应的生物神经编码假设是集群编码, 这里说的是一个抽象的概念, 并非对应某个具体的神经元, 而是被一群神经元所表述。 这种编码方法, 相比层级编码, 会更具备鲁棒性, 或更加反脆弱,因为删除一些细胞不会造成整体神经回路的瘫痪。 集群编码在深度学习里的一个直接体现就是词向量编码, word2vect, 词向量编码并没有采取我们最常想到的每个向量独立的独热编码, 而是每个向量里有大量非零的元素, 如此好比用一个神经集群表述一个单词, 带来的好处不仅是更加具有鲁棒性, 而且我们无形中引入了词语之间本来的互相关联,从而使得神经网络更好的吸收语义信息, 从而增加了泛化能力。 在此处, 每个词语概念都有多个神经元表达, 而同一个神经元,可以参与多个概念的描述。 这与之前说的每个概念比如祖母对应一个特定的神经元有比较大的区别。

http://picx.zhimg.com/v2-74dd0a8bd8eb77412be39d2f08192406_r.jpg?source=1940ef5c
然而目前的深度学习依然缺乏对集群编码更深刻的应用, 这点上来看,计算神经科学走的更远,我们使用RNN内在的动力学特性, 可以编码很多属性。

局部被应用或没有被应用的原理:
1,cortical minicolumn:皮层内的神经元都采取簇状结构, 细胞之间不是独立的存在, 而是聚集成团簇, 犹如一个微型的柱状体。 这些柱状体成为信息传输的基本单元。 这种惊人一致的皮层内结构, 背后的认知原理是什么呢? 目前还没有定论。 但是Hinton已经把类似的结构用到了Capsule Network , 在那里, 每个Capsule对应一个簇状体, 而它们有着非常明确的使命, 就是记录一个物体的不同属性, 由于一个Capsule有很多神经元构成,它也可以看作一个神经元向量, 如果它用来记录一组特征, 则可以对付向旋转不变性这种非常抽象的性质。

http://pica.zhimg.com/50/v2-d60f4a97c5be4476a2655485f1d734c7_720w.jpg?source=1940ef5c

http://pic1.zhimg.com/v2-8b24676bf56b51f394bfe937dadd2d81_r.jpg?source=1940ef5c
2,兴奋抑制平衡: 生物神经系统的各个组成部分, 尤其是靠近深层的脑区, 都具有的一个性质是兴奋性和抑制性神经元的信号互相抵消,犹如两个队伍拔河, 两边势均力敌(最终和为零)。这使得每个神经元接受的信息输入都在零附近, 这带来的一个巨大的好处是神经元对新进入信号更加敏感, 具有更大的动态范围。 这个原理已经被深度学习悄悄的介入了, 它的直接体现就是极为实用的batch normalization, 输入信号被加上或减去一个值从而成为一个零附近的标准高斯分布(这和兴奋抑制平衡效果类似), 从而大大提升了网络梯度传输的效率。

3,动态网络连接: 生物神经系统的神经元和神经元之间的连接-突触本身是随放电活动变化的。 当一个神经元经过放电, 它的活动将会引起细胞突触钙离子的浓度变化,从而引起两个神经元间的连接强度变化。这将导致神经网络的连接权重跟着它的工作状态变化, 计算神经科学认为动态连接的神经网络可以承载工作记忆, 而这点并没有被目前的深度学习系统很好利用 。

http://picx.zhimg.com/v2-052b72f8d68b6f28e6d160c402e6d4c6_r.jpg?source=1940ef5c
4 Top down processing: 目前深度学习使用的网络以前向网络为主(bottom up), 而事实上, 在生物大脑里, 不同脑区间反馈的连接数量超过前向的连接, 这些连接的作用是什么? 一个主流的观点认为它们是从高级脑区向感官的反向调节(top down), 如同我们所说的相由心生, 而不是相由眼生。 同一个图片有美女拿着蛋糕, 可能一个你在饥肠辘辘的时候只看到蛋糕而吃饱了就只看到美女。 我们所看到的,很大程度上取决于我们想要看到什么,以及我们的心情 。这点对我们的生存无疑十分重要, 你显然不是在被动的认知和识别物体, 你的感知和认知显然是统一的。 你在主动的搜索对你的生存有利的物体, 而非被动的感觉外界存在。这一点目前深度学习还完全没有涉及。 一个引入相应的机制的方法是加入从深层神经网络返回输入层的连接,这样深层的神经活动就可以调控输出层的信息处理, 这可能对真正的“ 理解” 有着极为重大的意义。


http://picx.zhimg.com/v2-589ad86244ff8f0b6a753cad7ef702e6_r.jpg?source=1940ef5c

给卷积神经网络加入从输出端返回输入端的连接, 是一个深度学习未来的重要方向Deep Convolutional Neural Networks as Models of the Visual System


7,Grid Cells: 海马栅格细胞是一组能够集群表征空间位置的细胞, 它们的原理类似于对物体所在的位置做了一个傅里叶变换, 形成一组表征物体空间位置的坐标基。为什么要对空间里物体的位置做一次傅里叶变换, 这里包含的原理是对任何环境中的物体形成通用的空间表示, 在新的环境里也可以灵活的学习物体的位置,而不是一下子成为路痴。

http://picx.zhimg.com/v2-1ed92cb176119a2e593ddc91c87ac487_r.jpg?source=1940ef5c
我们对栅格细胞的认知可能只是更大的神经编码原则的一个局部,正如同傅里叶变换和量子力学之间存在着隐秘的联系。 虽然栅格网络,目前已经被Deepmind用于空间导航任务, 但是目前AI所应用的应该只是这一原理的冰山一角。

8 Dale Principle: Dale Principle 说的是兴奋型和抑制型神经元 是完全分开的,犹如动物分雌雄。 兴奋性神经元只对周围神经元发放正向反馈(只分泌兴奋性递质, 如Glutamine),让其它神经元一起兴奋, 而抑制型神经元只发放负向反馈(只分泌抑制型递质, 如GABA),取消其它神经元的兴奋。 目前的深度学习网络不会对某个神经元的连接权重做如此限制 ,每个神经元均可向周围神经元发放正或负的信号。 这一原理到底对AI有没有作用目前未知。


http://pic1.zhimg.com/50/v2-8b4c4e0d96d36323a8c35b0e227ec21e_720w.jpg?source=1940ef5c

8 Routing by Inhibitory cells : 生物神经系统包含种类丰富的抑制型神经元, 它们往往在生物神经网络起到调控功能,如同控制信息流动的路由器,在合适的时候开启或关闭某个信号。 当下的AI直接用attention的机制, 或者LSTM里的输入门来调控是否让某个输入进入网络, 其它一点类似路由器的作用, 但是种类和形式的多样性远不及生物系统。

9 临界: 大脑的神经元组成一个巨大的喧闹的动力系统, 根据很多实验数据发现, 这个动力系统处于平衡和混沌的边缘, 被称为临界。 在临界状态, 神经元的活动是一种混乱和秩序的统一体, 看似混乱, 但是隐含着生机勃勃的秩序。 临界是不是也可以用于优化目前的深度学习系统, 是一个很大的课题。

10 ,自由能假说: 这个假定认为大脑是一台贝叶斯推断机器。 贝叶斯推断和决策的核心即由最新采纳的证据更新先验概率得到后验概率。 认知科学的核心(Perception)就是这样一个过程。

这里再说两句认知,认知的过程用机器学习的语言说就是用大脑的内部变量来模拟外部世界, 并希望建立内部世界和外部的一个一一映射关系。 这里我们说认知的模型是一个概率模型,并且可以被一系列条件概率所描述。如果用一个形象的比喻来说, 你可以把你的大脑看成一个可以自由打隔断的巨大仓库, 你要把外部世界不同种类的货放进不同的隔断,你的大脑内部运作要有一种对外界真实变化的推测演绎能力, 即随时根据新的证据调整的能力, 你和外界世界的模型匹配的越好, 你的脑子就运转越有效率。 认知是对外部世界运动的一种编码, 你可以立刻联想到机器学习里的表征方法(representation), 如果你熟悉RNN或CNN的embeding过程, 就会有一种豁然开朗的感觉。 这个假说的理论如果成立, 我们机器学习目前应当使用的只是冰山一角, 可以参考强化学习种的有模型学习。 更多内容见大脑的自由能假说-兼论认知科学与机器学习

11 一些未被量化的心理学和认知科学领地,比如意识。 意识可以理解为自我对自我本身的感知。 关于意识的起源,已经成为一个重要的神经科学探索方向而非玄学, 最近的一些文章指出(The controversial correlates of consiousness - Science 2018), 意识与多个脑区协同的集体放电相关。 但是, 关于意识的一个重大疑团是它对认知和智能到底有什么作用, 还是一个进化的副产物。 如果它对智能有不可替代的作用, 那么毫无疑问, 我们需要让AI最终拥有意识。 一个假说指出意识与我们的社会属性相关, 因为我们需要预测它人的意图和行动, 就需要对它人的大脑建模, 从而派生了对自己本身大脑的感知和认知,从而有了意识。 那么我们究竟需要不需要让AI之间能够互相交流沟通形成组织呢? 这就是一个更有趣的问题了。


http://pic1.zhimg.com/v2-614632ae76ab75c7ca71499554ba63a1_r.jpg?source=1940ef5c

深度学习对脑科学的启发:

反过来, 深度学习的某些发现也在反向启发脑科学, 这点正好对应费曼所说的, 如果你要真正理解一个东西, 请你把它做出来。 由于深度学习的BP算法太强大了, 它可以让我们在不care任何生物细节的情况下任意的改变网络权重, 这就好比给我们了一个巨大的检测各种理论假设的东西。 由于当下对大脑连接改变的方式我们也只理解了冰山一角, 我们可以先丢下细节, 直接去检验所有可能的选项。 这点上看, 用深度学习理解大脑甚至更加有趣。

就那刚刚讲的兴奋抑制平衡来看, 最初人们对兴奋抑制平衡作用的理解更多停留在它通过对信号做一个信息增益, 而在深度学习兴起后 , 我们越来越多的把它的功能和batch normalization 联系起来, 而batch normalization更大的作用在于对梯度消失问题的改进, 而且提高了泛化性能, 这无疑可以提示它的更多功能。 而最近的一篇文章甚至直接将它和LSTM的门调控机制联系起来。 抑制神经元可以通过有条件的发放对信息进行导流, 正如LSTM种的输入门, 输出门的作用, 而互相连接的兴奋神经元则作为信息的载体(对应LSTM中央的循环神经网络)


http://picx.zhimg.com/v2-ff2d0a85fa7ebe5e7100e754d719aa2d_r.jpg?source=1940ef5c


http://pic1.zhimg.com/v2-614632ae76ab75c7ca71499554ba63a1_r.jpg?source=1940ef5c


我们距离通用人工智能可能还有多远?

其实人工智能的目标就是找寻那个通用人工智能,而类脑计算是实现它的一个重要途径 。 通用智能和当下的智能到底有什么实质性的区别, 作为本文结尾, 我们来看一下:

对数据的使用效率: 比如大脑对数据的应用效率和AI算法并非一个等级, 你看到一个数据, 就可以充分的提取里面的信息,比如看到一个陌生人的脸, 你就记住他了, 但是对于目前的AI算法, 这是不可能的, 因为我们需要大量的照片输入让他掌握这件事。 我们可以轻松的在学完蛙泳的时候学习自由泳, 这对于AI,就是一个困难的问题, 也就是说,同样的效率, 人脑能够从中很快提取到信息, 形成新的技能, AI算法却差的远。

这是为什呢? 可能这里的挂件体现在一种被称为迁移学习的能力。虽然当下的深度学习算法也具备这一类举一反三的迁移学习能力, 但是往往集中在一些真正非常相近的任务里, 人的表现却灵活的多。这是为什么呢? 也许, 目前的AI算法缺少一种元学习的能力。 和为元学习, 就是提取一大类问题里类似的本质, 我们人类非常容易干的一个事情。 到底什么造成了人工神经网络和人的神经网路的差距, 还是未知的, 而这个问题也构成一个非常主流的研究方向。

能耗比:如果和人类相比, 人工智能系统完成同等任务的功耗是人的极多倍数(比如阿法狗是人脑消耗的三百倍, 3000MJ vs 10MJ 5小时比赛)。 如果耗能如此剧烈, 我们无法想象在能源紧张的地球可以很容易大量普及这样的智能。 那么这个问题有没有解呢? 当然有, 一种, 是我们本身对能量提取的能力大大增强, 比如小型可控核聚变实用化。 另一种, 依然要依靠算法的进步, 既然人脑可以做到的, 我们相信通过不断仿生机器也可以接近。 这一点上我们更多看到的信息是, 人工智能的能耗比和人相比, 还是有很大差距的。

不同数据整合: 我们离终极算法相差甚远的另一个重要原因可能是现实人类在解决的AI问题犹如一个个分离的孤岛, 比如说视觉是视觉, 自然语言是自然语言, 这些孤岛并没有被打通。 相反,人类的智慧里, 从来就没有分离的视觉, 运动或自然语言, 这点上看, 我们还处在AI的初级阶段。 我们可以预想, 人类的智慧是不可能建立在一个个分离的认知孤岛上的, 我们的世界模型一定建立在把这些孤立的信息领域打通的基础上, 才可以做到真正对某个事物的认知, 无论是一个苹果, 还是一只狗。

沟通与社会性: 另外, 人类的智慧是建立在沟通之上的, 人与人相互沟通结成社会, 社会基础上才有文明, 目前的人工智能体还没有沟通, 但不代表以后是不能的, 这点, 也是一个目前的AI水平与强AI(超级算法)的距离所在。

有的人认为, 我们可以直接通过模拟大脑的神经元,组成一个和大脑类似复杂度的复杂系统, 让它自我学习和进化, 从而实现强AI。 从我这个复杂系统专业的角度看, 这还是一个不太现实的事情。因为复杂系统里面最重要的是涌现,也就是说当组成一个集合的元素越来越多,相互作用越来越复杂, 这个集合在某个特殊条件下会出现一些特殊的总体属性,比如强AI,自我意识。 但是我们几乎不可能指望只要我们堆积了那么多元素, 这个现象(相变)就一定会发生。

至于回到那个未来人工智能曲线发展展望的话题, 我们可以看到, 这些不确定的因素都会使得这条发展曲线变得不可确定。 然而有一点是肯定的, 就是正在有越来越多非常聪明的人, 开始迅速的进入到这个领域, 越来越多的投资也在进来。 这说明, AI已经是势不可挡的称为人类历史的增长极, 即使有一些不确定性, 它却不可能再进入到一个停滞不前的低谷了, 我们也许不会一天两天就接近终极算这两年, 频频有专家警示深度学习即将进入寒冬。 而同时, 一个名叫“类脑智能”的词汇火起来, 这个概念说的是一种比目前深度学习更加接近人脑的智能。 这背后的故事是, 深度学习的大佬,目前已经注意到深度学习的原创性进展面临瓶颈,甚至呼吁全部重来。为了拯救这种趋势, 模拟人脑再次成为一种希望。 然而这一思路是否经得住深度推敲? 我本人做过多年计算神经科学和AI , 做一个抛砖引玉的小结。


http://picx.zhimg.com/v2-614632ae76ab75c7ca71499554ba63a1_r.jpg?source=1940ef5c

AI发展的危机人工智能, 目前多被理解成一个领域领应用的工程学科,从自动安防系统到无人驾驶是它的疆土,而模式识别和计算机专家, 是这片陆地的原住民。 目前的人工智能事实上以工程思维为主, 从当下人工智能的主流深度学习来看, 打开任何一篇论文, 映入眼帘的是几个知名数据集的性能比较,无论是视觉分类的ImageNet,Pascal Vol, 还是强化学习的Atari game。各种各样的bench mark和曲线, 让我们感觉像是一个CPU或者数码相机的导购指南。

那么, 是否这些在这些流行数据库跑分最高的“智能工具"就更智能? 这可能取决于对”智能“ 本身的定义。 如果你问一个认知专家“智能”是不是ImageNet的错误率, 那么他一定会觉得相当好笑。 一个人可能在识别图片的时候由于各种劳累和马虎, 在这个数据集的错误率高于机器。但是只要你去和它谈任何一个图片它所理解的东西, 比如一个苹果, 你都会震惊于其信息之丰富, 不仅包含了真实苹果的各种感官, 还包含了关于苹果的各种文学影视, 从夏娃的苹果, 到白雪公主的苹果。 应该说, 人类理解的苹果更加接近概念网络里的一个节点,和整个世界的所有其它概念相关联, 而非机器学习分类器眼里的n个互相分离的“高斯分布”。


http://pica.zhimg.com/v2-feba128e992eba5dfce45ec1bd39821e_r.jpg?source=1940ef5c

如果我们认为, ”智能“ 是解决某一类复杂问题的能力,是否我们就可以完全不care上述那种”理解“呢 ? 这样的智能工具, 顶多是一些感官的外延, 而”感官“ 是否可以解决复杂问题呢? 一个能够准确的识别1000种苹果的机器, 未必能有效的利用这样的信息去思考如何把它在圣诞节分作为礼品分发给公司的员工, 或者取悦你的女友。没有”理解“ 的智能, 将很快到达解决问题复杂度的上限。 缺少真正的理解, 甚至连做感官有时也会捉襟见肘, 你在图像里加入各种噪声, 会明显的干扰分类的准确性, 这点在人类里并不存在。比如下图的小狗和曲奇, 你可以分出来,AI很难。


http://picx.zhimg.com/v2-7894acd96da25859f74844e74208c355_r.jpg?source=1940ef5c

”语言“ 在人类的智能里享有独一无二的特殊性,而刚刚的”理解“问题, 背后的本质是目前深度学习对语言的捉襟见肘。 虽然我们可以用强大的LSTM生成诗歌(下图), 再配上注意力机制和外显记忆与人类对话, 也不代表它能理解人类的这个语言系统。 目前机器对自然语言处理的能力远不及视觉(当下的图卷积网络或可以这个领域做出贡献)。


http://picx.zhimg.com/v2-e657acafdc4d92e9d7998f9a68f287f7_r.jpg?source=1940ef5c
更加糟糕的还有强化学习, 深度强化学习已经战胜了最强大的人类棋手。 但是强化学习却远非一种可靠的实用方法。 这里面最难的在于目前的强化学习还做不到可扩展, 也就是从一个游戏的问题扩展到真实的问题时候会十分糟糕。 一个已经学的很好的强化学习网络,可以在自己已经学到的领域所向披靡, 然而在游戏里稍微增加一点变化, 神经网络就不知所措。 我们可以想象成这是泛化能力的严重缺失, 在真实世界里,这恰恰一击致命。

http://picx.zhimg.com/v2-8554b8b91b133766fbed087e9a676136_r.jpg?source=1940ef5c
事实上在很长时间里,人工智能的过分依赖工科思维恰恰给它的危机埋下了伏笔,在人工数据上破记录, 并不代表我们就会在刚说的“理解”上做进步。 这更像是两个不同的进化方向。 其实, 关于智能的更深刻的理解, 早就是认知科学家,心理学家和神经科学家的核心任务。 如果我们需要让人工智能进步, 向他们取经就看起来很合理。


http://picx.zhimg.com/v2-614632ae76ab75c7ca71499554ba63a1_r.jpg?source=1940ef5c

脑科学与人工智能合作与分离的历史

虽然看起来模拟生物大脑是达到更高层次人工智能的必由之路,但是从当下的人工智能学者的角度,这远非显然。 这里的渊源来自人工智能的早期发展史,应该说深度学习来自于对脑科学的直接取经, 然而它的壮大却是由于对这条道路的背离。 我们可以把这个历史概括为两次合作一次分离。

第一次合作: 深度学习的前身-感知机。模拟人类大脑的人工智能流派又称为连接主义,最早的连接主义尝试就是模拟大脑的单个神经元。 Warren McCulloch 和 WalterPitts在1943 提出而来神经元的模型, 这个模型类似于某种二极管或逻辑门电路。事实上, 人们很快发现感知机的学习有巨大的局限性,Minksky等一批AI早期大师发现感知机无法执行“抑或”这个非常基本的逻辑运算,从而让人们彻底放弃了用它得到人类智能的希望。 对感知机的失望导致连接主义机器学习的研究陷入低谷达15年, 直到一股新的力量的注入。

第二次合作: 这次风波, 来自一群好奇心极强的物理学家,在20世纪80年代,hopefiled提出了它的 Hopefield 网络模型,这个模型受到了物理里的Ising模型和自旋玻璃模型的启发, Hopefield发现,自旋玻璃和神经网络具有极大的相似性。每个神经元可以看作一个个微小的磁极, 它可以一种极为简单的方法影响周围的神经元,一个是兴奋(使得其他神经元和自己状态相同), 一个是抑制(相反)。 如果我们用这个模型来表示神经网络, 那么我们会立刻得到一个心理学特有的现象: 关联记忆。 比如说你看到你奶奶的照片, 立刻想到是奶奶,再联想到和奶奶有关的很多事。 这里的观点是, 某种神经信息(比如奶奶)对应神经元的集体发放状态(好比操场上正步走的士兵), 当奶奶的照片被输入进去, 它会召唤这个神经元的集体状态, 然后你就想到了奶奶。

由于这个模型可以模拟心理学的现象, 人们开始重新对模拟人脑的人工智能报以希望。 人们从不同领域开始涌入这个研究。 在这批人里,发生了一个有趣的分化。 有的人沿着这个路数去研究真实大脑是怎么思考的, 有的人则想直接用这个模型制造机器大脑, 前者派生出了计算神经科学, 后者则导致了联结主义机器学习的复兴, 你可以理解为前者对猫感兴趣,后者只对机器猫感兴趣,虽然两者都在那里写模型。 CNN和RNN分别在80年中后期被发现, 应该说, CNN的结构是直接借鉴了Husel和Wiesel 发现的视觉皮层处理信息的原理, 而RNN则是刚刚说到的Hopefield 网络的一个直接进化。


http://pica.zhimg.com/v2-2dbff1d84bf3e97579050b88e2e21525_r.jpg?source=1940ef5c

一批人用模型研究真实大脑, 另一批研究机器大脑

AI与脑科学的分离: 90年代后人工智能的主流是以支持向量机为代表的统计机器学习, 而非神经网络。 在漫长的联结主义低谷期, Hinton坚信神经网络既然作为生物智能的载体, 它一定会称为人工智能的救星, 在它的努力下, Hopefield网络很快演化称为新的更强大的模型玻尔兹曼机, 玻尔兹曼机演化为受限玻尔兹曼机, 自编码器, 堆叠自编码器,这已经很接近当下的深度网络。 而深度卷积网络CNN则连续打破视觉处理任务的记录,宣布深度学习时代开始。

然而, 如果你认为这一股AI兴起的风波的原因是我们对大脑的借鉴, 则一定会被机器学习专家diss,恰恰相反,这波深度学习的崛起来自于深度学习专家对脑科学的背离。 CNN虽然直接模拟了大脑视皮层结构的模拟, 利用了层级编码, 局部网络连接, 池化这样和生物直接相关的原理。但是, 网络的训练方法,却来自一种完全非生物的方法。 由于信息存储在无数神经元构成的网络连接里, 如何让它学进去, 也是最难的问题。很久以前,人们使用的学习方法是Hebian learning 的生物学习方法, 这种方法实用起来极为困难。 Hinton等人放弃这条道路而使用没有生物支撑但更加高效的反向传播算法, 使得最终训练成功。 从此数据犹如一颗颗子弹打造出神经网络的雏形 ,虽然每次只改一点点, 最终当数据的量特别巨大, 却发生一场质变。

CNN能够在2012 年而不是2011或者2010年开始爆发是因为那一年人们提出了Alexnet。 而Alexnet比起之前的Lenet一个关键性的微小调整在于使用Relu,所谓线性整流单元替换了之前的Sigmoid作为激活函数。Simoid 函数才是更加具有生物基础的学习函数, 然而能够抛弃模拟大脑的想法使用Relu, 使得整个网络的信息流通通畅了很多。

http://pic1.zhimg.com/v2-d75a66841fd6be4901e04e34ae5145a3_r.jpg?source=1940ef5c
深度学习另一条主线, 沿着让机器听懂人类的语言, 一种叫LSTM的神经网络, 模拟了人类最奇妙的记忆能力, 并却开始处理和自然语言有关的任务, LSTM框架的提出依然是没有遵循大脑的结构,而是直接在网络里引入类似逻辑门的结构控制信息。

由此我们看到, 神经网络虽然在诞生之初多次吸收了生物学的原理本质, 而其最终的成功却在于它大胆的脱离生物细节, 使用更加讲究效率的数理工科思维。 生物的细节千千万, 有一些是进化的副产品, 或者由于生物经常挨饿做出的妥协, 却远非智能的必须, 因此对它们的抛弃极大的解放了人工智能的发展。


http://pica.zhimg.com/v2-614632ae76ab75c7ca71499554ba63a1_r.jpg?source=1940ef5c

脑科学究竟能否开启深度学习时代的下个阶段

那么生物神经网络究竟可不可以启发人工智能呢? 刚刚的分析我们看到生物的细节并不一定对人工智能有帮助, 而生物大脑计算的根本原理却始终在推动深度学习 。 正如CNN的发展直接使用了层级编码的原理, 然后根据自己计算的需求重新设定了细节, 无论如何变化, 生物视觉处理和CNN背后的数学核心却始终保持一致。
那么目前的深度学习工具用到了多少生物大脑计算的基本原理呢, 答案是, 冰山一角。 如果说人工智能要继续革命, 那么无疑还要继续深挖这些原理,然后根据这些原则重新设定细节。 答案很简单, 宇宙的基本定律不会有很多, 比如相对论量子论这样的根本原理几乎统治物理世界。 如果生物大脑使用一套原理实现了智能, 那么很可能人工智能也不会差很远。即使细节差距很大, 那个根本的东西极有可能是一致的。

这样的数学原理应该不会有很多条, 因为人脑的结构一个惊人的特点就是虽然脑区非常不同, 但不同脑区的构造却极为相似, 这种相似性显示了大脑不同脑区使用类似的基本原理。 我们目前的深度学习算法, 无论是CNN还是RNN,都只是发现了这个基本原理的某个局部。 发现这个基本原理, 恰恰是计算神经科学的使命。 对于智能这个上帝最杰出的作品, 我们能做的只有盲人摸象, 目前摸到的东西有一些已经被用到了人工智能里, 有些则没有,我们随便举几个看看。

确定已经被应用的原理:
1, 层级编码原理(Hierarchical coding): 生物神经网络最基本的结构特点是多层, 无论是视觉, 听觉, 我们说基本的神经回路都有层级结构, 而且经常是六层。这种纵深的层级, 对应的编码原理正是从具体特征到抽象特征的层级编码结构。 最有名的莫过于祖母细胞, 这一思路直接催生了以CNN为代表的深度学习。

http://picx.zhimg.com/v2-49e005646ac22a88d1ea7551aa8df0a7_r.jpg?source=1940ef5c

http://pic1.zhimg.com/v2-21d88e8ff36da28d119e2ad32a67ddeb_r.jpg?source=1940ef5c
2, 集群编码原理 (Distributed coding): 一个与层级编码相对应的生物神经编码假设是集群编码, 这里说的是一个抽象的概念, 并非对应某个具体的神经元, 而是被一群神经元所表述。 这种编码方法, 相比层级编码, 会更具备鲁棒性, 或更加反脆弱,因为删除一些细胞不会造成整体神经回路的瘫痪。 集群编码在深度学习里的一个直接体现就是词向量编码, word2vect, 词向量编码并没有采取我们最常想到的每个向量独立的独热编码, 而是每个向量里有大量非零的元素, 如此好比用一个神经集群表述一个单词, 带来的好处不仅是更加具有鲁棒性, 而且我们无形中引入了词语之间本来的互相关联,从而使得神经网络更好的吸收语义信息, 从而增加了泛化能力。 在此处, 每个词语概念都有多个神经元表达, 而同一个神经元,可以参与多个概念的描述。 这与之前说的每个概念比如祖母对应一个特定的神经元有比较大的区别。

http://pic1.zhimg.com/v2-74dd0a8bd8eb77412be39d2f08192406_r.jpg?source=1940ef5c
然而目前的深度学习依然缺乏对集群编码更深刻的应用, 这点上来看,计算神经科学走的更远,我们使用RNN内在的动力学特性, 可以编码很多属性。

局部被应用或没有被应用的原理:
1,cortical minicolumn:皮层内的神经元都采取簇状结构, 细胞之间不是独立的存在, 而是聚集成团簇, 犹如一个微型的柱状体。 这些柱状体成为信息传输的基本单元。 这种惊人一致的皮层内结构, 背后的认知原理是什么呢? 目前还没有定论。 但是Hinton已经把类似的结构用到了Capsule Network , 在那里, 每个Capsule对应一个簇状体, 而它们有着非常明确的使命, 就是记录一个物体的不同属性, 由于一个Capsule有很多神经元构成,它也可以看作一个神经元向量, 如果它用来记录一组特征, 则可以对付向旋转不变性这种非常抽象的性质。

http://pica.zhimg.com/50/v2-d60f4a97c5be4476a2655485f1d734c7_720w.jpg?source=1940ef5c

http://pic1.zhimg.com/v2-8b24676bf56b51f394bfe937dadd2d81_r.jpg?source=1940ef5c
2,兴奋抑制平衡: 生物神经系统的各个组成部分, 尤其是靠近深层的脑区, 都具有的一个性质是兴奋性和抑制性神经元的信号互相抵消,犹如两个队伍拔河, 两边势均力敌(最终和为零)。这使得每个神经元接受的信息输入都在零附近, 这带来的一个巨大的好处是神经元对新进入信号更加敏感, 具有更大的动态范围。 这个原理已经被深度学习悄悄的介入了, 它的直接体现就是极为实用的batch normalization, 输入信号被加上或减去一个值从而成为一个零附近的标准高斯分布(这和兴奋抑制平衡效果类似), 从而大大提升了网络梯度传输的效率。

3,动态网络连接: 生物神经系统的神经元和神经元之间的连接-突触本身是随放电活动变化的。 当一个神经元经过放电, 它的活动将会引起细胞突触钙离子的浓度变化,从而引起两个神经元间的连接强度变化。这将导致神经网络的连接权重跟着它的工作状态变化, 计算神经科学认为动态连接的神经网络可以承载工作记忆, 而这点并没有被目前的深度学习系统很好利用 。

http://picx.zhimg.com/v2-052b72f8d68b6f28e6d160c402e6d4c6_r.jpg?source=1940ef5c
4 Top down processing: 目前深度学习使用的网络以前向网络为主(bottom up), 而事实上, 在生物大脑里, 不同脑区间反馈的连接数量超过前向的连接, 这些连接的作用是什么? 一个主流的观点认为它们是从高级脑区向感官的反向调节(top down), 如同我们所说的相由心生, 而不是相由眼生。 同一个图片有美女拿着蛋糕, 可能一个你在饥肠辘辘的时候只看到蛋糕而吃饱了就只看到美女。 我们所看到的,很大程度上取决于我们想要看到什么,以及我们的心情 。这点对我们的生存无疑十分重要, 你显然不是在被动的认知和识别物体, 你的感知和认知显然是统一的。 你在主动的搜索对你的生存有利的物体, 而非被动的感觉外界存在。这一点目前深度学习还完全没有涉及。 一个引入相应的机制的方法是加入从深层神经网络返回输入层的连接,这样深层的神经活动就可以调控输出层的信息处理, 这可能对真正的“ 理解” 有着极为重大的意义。


http://pica.zhimg.com/v2-589ad86244ff8f0b6a753cad7ef702e6_r.jpg?source=1940ef5c

给卷积神经网络加入从输出端返回输入端的连接, 是一个深度学习未来的重要方向Deep Convolutional Neural Networks as Models of the Visual System


7,Grid Cells: 海马栅格细胞是一组能够集群表征空间位置的细胞, 它们的原理类似于对物体所在的位置做了一个傅里叶变换, 形成一组表征物体空间位置的坐标基。为什么要对空间里物体的位置做一次傅里叶变换, 这里包含的原理是对任何环境中的物体形成通用的空间表示, 在新的环境里也可以灵活的学习物体的位置,而不是一下子成为路痴。

http://pica.zhimg.com/v2-1ed92cb176119a2e593ddc91c87ac487_r.jpg?source=1940ef5c
我们对栅格细胞的认知可能只是更大的神经编码原则的一个局部,正如同傅里叶变换和量子力学之间存在着隐秘的联系。 虽然栅格网络,目前已经被Deepmind用于空间导航任务, 但是目前AI所应用的应该只是这一原理的冰山一角。

8 Dale Principle: Dale Principle 说的是兴奋型和抑制型神经元 是完全分开的,犹如动物分雌雄。 兴奋性神经元只对周围神经元发放正向反馈(只分泌兴奋性递质, 如Glutamine),让其它神经元一起兴奋, 而抑制型神经元只发放负向反馈(只分泌抑制型递质, 如GABA),取消其它神经元的兴奋。 目前的深度学习网络不会对某个神经元的连接权重做如此限制 ,每个神经元均可向周围神经元发放正或负的信号。 这一原理到底对AI有没有作用目前未知。


http://picx.zhimg.com/50/v2-8b4c4e0d96d36323a8c35b0e227ec21e_720w.jpg?source=1940ef5c

8 Routing by Inhibitory cells : 生物神经系统包含种类丰富的抑制型神经元, 它们往往在生物神经网络起到调控功能,如同控制信息流动的路由器,在合适的时候开启或关闭某个信号。 当下的AI直接用attention的机制, 或者LSTM里的输入门来调控是否让某个输入进入网络, 其它一点类似路由器的作用, 但是种类和形式的多样性远不及生物系统。

9 临界: 大脑的神经元组成一个巨大的喧闹的动力系统, 根据很多实验数据发现, 这个动力系统处于平衡和混沌的边缘, 被称为临界。 在临界状态, 神经元的活动是一种混乱和秩序的统一体, 看似混乱, 但是隐含着生机勃勃的秩序。 临界是不是也可以用于优化目前的深度学习系统, 是一个很大的课题。

10 ,自由能假说: 这个假定认为大脑是一台贝叶斯推断机器。 贝叶斯推断和决策的核心即由最新采纳的证据更新先验概率得到后验概率。 认知科学的核心(Perception)就是这样一个过程。

这里再说两句认知,认知的过程用机器学习的语言说就是用大脑的内部变量来模拟外部世界, 并希望建立内部世界和外部的一个一一映射关系。 这里我们说认知的模型是一个概率模型,并且可以被一系列条件概率所描述。如果用一个形象的比喻来说, 你可以把你的大脑看成一个可以自由打隔断的巨大仓库, 你要把外部世界不同种类的货放进不同的隔断,你的大脑内部运作要有一种对外界真实变化的推测演绎能力, 即随时根据新的证据调整的能力, 你和外界世界的模型匹配的越好, 你的脑子就运转越有效率。 认知是对外部世界运动的一种编码, 你可以立刻联想到机器学习里的表征方法(representation), 如果你熟悉RNN或CNN的embeding过程, 就会有一种豁然开朗的感觉。 这个假说的理论如果成立, 我们机器学习目前应当使用的只是冰山一角, 可以参考强化学习种的有模型学习。 更多内容见大脑的自由能假说-兼论认知科学与机器学习

11 一些未被量化的心理学和认知科学领地,比如意识。 意识可以理解为自我对自我本身的感知。 关于意识的起源,已经成为一个重要的神经科学探索方向而非玄学, 最近的一些文章指出(The controversial correlates of consiousness - Science 2018), 意识与多个脑区协同的集体放电相关。 但是, 关于意识的一个重大疑团是它对认知和智能到底有什么作用, 还是一个进化的副产物。 如果它对智能有不可替代的作用, 那么毫无疑问, 我们需要让AI最终拥有意识。 一个假说指出意识与我们的社会属性相关, 因为我们需要预测它人的意图和行动, 就需要对它人的大脑建模, 从而派生了对自己本身大脑的感知和认知,从而有了意识。 那么我们究竟需要不需要让AI之间能够互相交流沟通形成组织呢? 这就是一个更有趣的问题了。


http://pic1.zhimg.com/v2-614632ae76ab75c7ca71499554ba63a1_r.jpg?source=1940ef5c

深度学习对脑科学的启发:

反过来, 深度学习的某些发现也在反向启发脑科学, 这点正好对应费曼所说的, 如果你要真正理解一个东西, 请你把它做出来。 由于深度学习的BP算法太强大了, 它可以让我们在不care任何生物细节的情况下任意的改变网络权重, 这就好比给我们了一个巨大的检测各种理论假设的东西。 由于当下对大脑连接改变的方式我们也只理解了冰山一角, 我们可以先丢下细节, 直接去检验所有可能的选项。 这点上看, 用深度学习理解大脑甚至更加有趣。

就那刚刚讲的兴奋抑制平衡来看, 最初人们对兴奋抑制平衡作用的理解更多停留在它通过对信号做一个信息增益, 而在深度学习兴起后 , 我们越来越多的把它的功能和batch normalization 联系起来, 而batch normalization更大的作用在于对梯度消失问题的改进, 而且提高了泛化性能, 这无疑可以提示它的更多功能。 而最近的一篇文章甚至直接将它和LSTM的门调控机制联系起来。 抑制神经元可以通过有条件的发放对信息进行导流, 正如LSTM种的输入门, 输出门的作用, 而互相连接的兴奋神经元则作为信息的载体(对应LSTM中央的循环神经网络)


http://pic1.zhimg.com/v2-ff2d0a85fa7ebe5e7100e754d719aa2d_r.jpg?source=1940ef5c


http://picx.zhimg.com/v2-614632ae76ab75c7ca71499554ba63a1_r.jpg?source=1940ef5c


我们距离通用人工智能可能还有多远?

其实人工智能的目标就是找寻那个通用人工智能,而类脑计算是实现它的一个重要途径 。 通用智能和当下的智能到底有什么实质性的区别, 作为本文结尾, 我们来看一下:

对数据的使用效率: 比如大脑对数据的应用效率和AI算法并非一个等级, 你看到一个数据, 就可以充分的提取里面的信息,比如看到一个陌生人的脸, 你就记住他了, 但是对于目前的AI算法, 这是不可能的, 因为我们需要大量的照片输入让他掌握这件事。 我们可以轻松的在学完蛙泳的时候学习自由泳, 这对于AI,就是一个困难的问题, 也就是说,同样的效率, 人脑能够从中很快提取到信息, 形成新的技能, AI算法却差的远。

这是为什呢? 可能这里的挂件体现在一种被称为迁移学习的能力。虽然当下的深度学习算法也具备这一类举一反三的迁移学习能力, 但是往往集中在一些真正非常相近的任务里, 人的表现却灵活的多。这是为什么呢? 也许, 目前的AI算法缺少一种元学习的能力。 和为元学习, 就是提取一大类问题里类似的本质, 我们人类非常容易干的一个事情。 到底什么造成了人工神经网络和人的神经网路的差距, 还是未知的, 而这个问题也构成一个非常主流的研究方向。

能耗比:如果和人类相比, 人工智能系统完成同等任务的功耗是人的极多倍数(比如阿法狗是人脑消耗的三百倍, 3000MJ vs 10MJ 5小时比赛)。 如果耗能如此剧烈, 我们无法想象在能源紧张的地球可以很容易大量普及这样的智能。 那么这个问题有没有解呢? 当然有, 一种, 是我们本身对能量提取的能力大大增强, 比如小型可控核聚变实用化。 另一种, 依然要依靠算法的进步, 既然人脑可以做到的, 我们相信通过不断仿生机器也可以接近。 这一点上我们更多看到的信息是, 人工智能的能耗比和人相比, 还是有很大差距的。

不同数据整合: 我们离终极算法相差甚远的另一个重要原因可能是现实人类在解决的AI问题犹如一个个分离的孤岛, 比如说视觉是视觉, 自然语言是自然语言, 这些孤岛并没有被打通。 相反,人类的智慧里, 从来就没有分离的视觉, 运动或自然语言, 这点上看, 我们还处在AI的初级阶段。 我们可以预想, 人类的智慧是不可能建立在一个个分离的认知孤岛上的, 我们的世界模型一定建立在把这些孤立的信息领域打通的基础上, 才可以做到真正对某个事物的认知, 无论是一个苹果, 还是一只狗。

沟通与社会性: 另外, 人类的智慧是建立在沟通之上的, 人与人相互沟通结成社会, 社会基础上才有文明, 目前的人工智能体还没有沟通, 但不代表以后是不能的, 这点, 也是一个目前的AI水平与强AI(超级算法)的距离所在。

有的人认为, 我们可以直接通过模拟大脑的神经元,组成一个和大脑类似复杂度的复杂系统, 让它自我学习和进化, 从而实现强AI。 从我这个复杂系统专业的角度看, 这还是一个不太现实的事情。因为复杂系统里面最重要的是涌现,也就是说当组成一个集合的元素越来越多,相互作用越来越复杂, 这个集合在某个特殊条件下会出现一些特殊的总体属性,比如强AI,自我意识。 但是我们几乎不可能指望只要我们堆积了那么多元素, 这个现象(相变)就一定会发生。

至于回到那个未来人工智能曲线发展展望的话题, 我们可以看到, 这些不确定的因素都会使得这条发展曲线变得不可确定。 然而有一点是肯定的, 就是正在有越来越多非常聪明的人, 开始迅速的进入到这个领域, 越来越多的投资也在进来。 这说明, AI已经是势不可挡的称为人类历史的增长极, 即使有一些不确定性, 它却不可能再进入到一个停滞不前的低谷了, 我们也许不会一天两天就接近终极算法, 但却一定会在细分领域取得一个又一个突破。无论是视觉, 自然语言, 还是运动控制。

能否走向通用人工智能的确是人工智能未来发展最大的变数, 或许, 我们真正的沉下心来去和大脑取经还是可以或多或少的帮助我们。 因为本质上, 我们在人工智能的研究上所作的, 依然是在模拟人类大脑的奥秘。 我们越接近人类智慧的终极算法, 就越能得到更好的人工智能算法。法, 但却一定会在细分领域取得一个又一个突破。无论是视觉, 自然语言, 还是运动控制。

能否走向通用人工智能的确是人工智能未来发展最大的变数, 或许, 我们真正的沉下心来去和大脑取经还是可以或多或少的帮助我们。 因为本质上, 我们在人工智能的研究上所作的, 依然是在模拟人类大脑的奥秘。 我们越接近人类智慧的终极算法, 就越能得到更好的人工智能算法。

pbk8495 发表于 2023-10-6 00:16:09

19-9-5更新:没想到这个回答收获了这么多赞,在前文基础上再补充一些内容。见文末。
19-9-24更新:后文补充了最新版本Gartner技术曲线。
20-3-15更新:后文补充了一些感知智能和认知智能的资料。
20-7-30更新:文末补充了Gartner Hyper Cycle for Artificial Intelligence 2019,及其他一些内容。
----------------------------------------
作为一名AI的从业者,应该可以回答这个问题。
为什么大家对这类问题如此感兴趣? 这可能要追溯到2016年,AI真正进入到大众视野并引爆媒体的标志性事件,也就是 AlphaGo战胜围棋的世界冠军-李世石。在之后,我们看到一个又一个AI技术的突破,以及不断被刷新的媒体头条,好像AI取代人类是完全可能而且理所应当的事情。我们看到波士顿动力的机器人行云流水般的后空翻,看到索菲亚在各大场合欺骗人类感情,看到Dota2、星际争霸等游戏被AI攻破,也看到IBM的辩论机器人和人类旗鼓相当的交锋,在2019年7月份《Science》发表的研究成果中,一个名为Pluribus的算法仅仅通过自我博弈,就在多人无限注德州扑克中战胜了人类专业选手。人工智能在这第三轮的热潮中(人工智能从1956年被提出至今,经历了三次大的热潮。20 世纪50 年代中期到80 年代初期的感知器,20 世纪80 年代初期至21 世纪初期的专家系统,以及最近十年的深度学习技术,分别是三次热潮的代表性产物),通过大数据和深度学习,创造了一项又一项历史,也吊足了普罗大众的胃口。
以大数据为基础的深度学习,其实在理论上并未有突破,而是随着软件硬件的进步,达到了以往不可能企及的效果。因此,随着数据红利的消失,深度学习的天花板也逐渐显现。

http://pic1.zhimg.com/v2-550f6b480119af1745a635c04c1dbf3d_r.jpg?source=1940ef5c
Gartner每年发布的技术趋势曲线,会聚焦在未来5到10年间,可能产生巨大竞争力的新兴技术。在图中我们可以看到,深度学习(Deep Learning)已经走到高原期(Peak of Inflated Expectations),而知识图谱(Knowledge Graph)还是在起步阶段(Innovation Trigger),更不用说脑机接口(Brain-Computer Interface)、通用人工智能(Artificial General Intelligence)这些技术,在图中的标记还是黄色三角,也就是起码10年会后才能到达高原期。
一个说法是,某一技术的代表性人物拿到图灵奖,就证明了这个技术已经不会再有突破性进展。而今年,深度学习的三位创造者Yoshua Bengio, Yann LeCun, 以及Geoffrey Hinton获得了2019年的图灵奖。所以深度学习的天花板也就到了。

http://picx.zhimg.com/v2-74008b54d81015d131ec3f0516c0cad5_r.jpg?source=1940ef5c
人工智能技术远未达到媒体中所宣传的神通广大,无所不能,从技术发展现状也可一窥端倪。AlphaGo可以战胜最好的人类棋手,但却不可能为你端一杯水。著名机器人学者Hans Moravec早前说过:机器人觉得容易的,对于人类来讲将是非常难的;反之亦然。人可以轻松做到听说读写,但对于复杂计算很吃力;而机器人很难轻松做到用手抓取物体、以及走上坡路,但可以轻而易举地算出空间火箭的运行轨道。人类可以通过日积月累的学习,轻松完成各种动作,但对于机器人来讲完成这些简单的动作难如登天。专家们称此理论为“莫拉维克悖论”(Moravec's Paradox)。机器学习专家、著名的计算机科学和统计学家Michael I. Jordan近日在《哈佛数据科学评论》上发表文章,也认为现在被称为AI 的许多领域,实际上是机器学习,而真正的AI 革命尚未到来。
在目前,即使是最先进的AI智能体,在适应环境变化的能力方面,也无法与动物相提并论。近期,英国帝国理工学院和剑桥大学研究人员共同组织了一场特别的AI竞赛(http://www.animalaiolympics.com/),希望把动物能够完成的“觅食任务”交给AI智能体来完成,让AI和动物世界来一场虚拟比赛。我们也期待着这项比赛的结果。
另外,从商业角度上来看,AI企业拿到A轮之前的融资都还算是容易的。但所有的技术都需要经历市场的考验,到了A轮和B轮,AI企业的落地和盈利能力更被投资人所看重,但目前的事实是,AI技术落地仍然相当困难。即便落地为产品,其成本也极其高昂。所以,2018和2019年,有一大批的初创AI企业死于寒冬。

http://pic1.zhimg.com/v2-9d0926c8ffeadf511379c2bf24641e4a_r.jpg?source=1940ef5c

鲍捷老师曾经给出上面这幅图,体现了人工智能至今所经历的三次大的热潮。这次热潮过后,是衰落还是稳定发展,我们也拭目以待。
-------------------------------
19-9-5更新:
前面那个图提到的AI的三次热潮,在这里啰嗦解释一下:
第一阶段(20 世纪50 年代中期到80 年代初期):深耕细作,30 年技术发展为人工智能产业化奠定基础。在1956 年之前,人工智能就已经开始孕育。神经元模型、图灵测试的提出以及SNARC 神经网络计算机的发明,为人工智能的诞生奠定了基础。1956 年的达特茅斯会议代表人工智能正式诞生和兴起。此后人工智能快速发展,深度学习模型以及AlphaGo 增强学习的雏形——感知器均在这个阶段得以发明。随后由于早期的系统适用于更宽的问题选择和更难的问题时效果均不理想,因此美国、英国相继缩减经费支持,人工智能进入低谷。
第二阶段(20 世纪80 年代初期至21 世纪初期):急功近利,人工智能成功商用但跨越式发展失败。80 年代初期,人工智能逐渐成为产业,第一个成功的商用专家系统R1 为DEC 公司每年节约4000 万美元左右的费用。截止到20 世纪80 年代末,几乎一半的“财富500 强”都在开发或使用“专家系统”。受此鼓励,日本、美国等国家投入巨资开发第5 代计算机——人工智能计算机。在90 年代初,IBM、苹果推出的台式机进入普通百姓家庭中,奠定了计算机工业的发展方向。第5 代计算机由于技术路线明显背离计算机工业的发展方向,项目宣告失败,人工智能再一次进入低谷。尽管如此,浅层学习如支持向量机、Boosting 和最大熵方法等在90 年代得到了广泛应用。
第三阶段(21世纪初期至今):量变产生质变,人工智能有望实现规模化应用。摩尔定律和云计算带来的计算能力的提升,以及互联网和大数据广泛应用带来的海量数据量的积累,使得深度学习算法在各行业得到快速应用,并推动语音识别、图像识别等技术快速发展并迅速产业化。2006年,Geoffrey Hinton和他的学生在《Science》上提出基于深度信念网络(Deep Belief Networks,DBN)可使用非监督学习的训练算法,使得深度学习在学术界持续升温。2012年,DNN技术在图像识别领域的应用使得Hinton的学生在ImageNet评测中取得了非常好的成绩。深度学习算法的应用使得语音识别、图像识别技术取得了突破性进展,围绕语音、图像、机器人、自动驾驶等人工智能技术的创新创业大量涌现,人工智能迅速进入发展热潮。
然后,人工智能的发展,有人给出了这样一张路线图:

http://pic1.zhimg.com/v2-3c6ca858af19ea24cb1a3843fc1aab84_r.jpg?source=1940ef5c
1. 弱人工智能Artificial Narrow Intelligence (ANI): 弱人工智能是擅长于单个方面的人工智能。比如有能战胜象棋世界冠军的人工智能,但是它只会下象棋,你要问它怎样更好地在硬盘上储存数据,它就不知道怎么回答你了。
2. 强人工智能Artificial General Intelligence (AGI): 人类级别的人工智能。强人工智能是指在各方面都能和人类比肩的人工智能,人类能干的脑力活它都能干。创造强人工智能比创造弱人工智能难得多,我们现在还做不到。Linda Gottfredson教授把智能定义为“一种宽泛的心理能力,能够进行思考、计划、解决问题、抽象思维、理解复杂理念、快速学习和从经验中学习等操作。”强人工智能在进行这些操作时应该和人类一样得心应手。
3. 超人工智能Artificial Superintelligence (ASI): 牛津哲学家,知名人工智能思想家Nick Bostrom把超级智能定义为“在几乎所有领域都比最聪明的人类大脑都聪明很多,包括科学创新、通识和社交技能。”超人工智能可以是各方面都比人类强一点,也可以是各方面都比人类强万亿倍的。超人工智能也正是为什么人工智能这个话题这么火热的缘故。
-------------------------------
19-9-24更新:
Gartner官网更新了2019年技术曲线。

http://pic1.zhimg.com/v2-fb86d5c5823dd2ae650b6db63d42968a_r.jpg?source=1940ef5c
跟2018年的曲线相比,我们可以发现哪些有趣的点?首先,深度学习没有在图上显示了。然后,即便是L4的自动驾驶,也是标记为“超过十年”。知识图谱、AI PAAS等依然是5-10年,但比2018进展了不少。同时,AI生物材料等开始涌现。
不过这个图是截止时间是8月份,显然没有考虑到Google最近发布的量子计算。美国谷歌公司研究人员在美国国家航空航天局(NASA)官网上发表论文,称其所研究的量子计算机仅需3分20秒就可完成目前全球最快超级计算机(“超算”)Summit需一万年才能完成的计算。
这说明了什么?在目前AI没有实质突破的情况下,即便是Google的这个量子技术无法快速落地,也让我们看到了下一代的新技术的曙光。
-------------------------------
20-3-15更新:
什么是感知智能?什么是认知智能?
业界一致认为,AI的三要素是算法,算力和数据。近十年来,人工智能的技术突破,很大程度上是得益于大数据以及大规模运算能力的提升,真正让深度学习这项“老”技术焕发了新生,突破了一项又一项感知能力。追溯到2006年,Geoffrey Hinton和他的学生在《Science》上提出基于深度信念网络(Deep Belief Networks, DBN)可使用非监督学习的训练算法,随后2012年深度神经网络技术在ImageNet评测中取得了突破性进展,人工智能进入到新的热潮,围绕语音、图像、机器人、自动驾驶的技术大量涌现,也出现了很多里程碑水平的技术。
2017年8月20日,微软语音和对话研究团队负责人黄学东宣布微软语音识别系统取得重大突破,错误率由之前的5.9%降低到5.1%,可与专业速记员比肩;Google在2015年提出的深度学习算法,已经在ImageNet2012分类数据集中将错误率降低到4.94%,首次超越了人眼识别的错误率(约5.1%);DeepMind公司在2017年6月发布了当时世界上文本到语音环节最好的生成模型WaveNet语音合成系统;由斯坦福大学发起的SQuAD(Stanford Question Answering Dataset)阅读理解竞赛,截至2019年7月,使用BERT的集成系统暂列第一,其F1分值达到89.474,超越了人类水平。
从计算,到感知,再到认知,是大多数人都认同的人工智能技术发展路径。那么认知智能的发展现状如何呢?
首先,让我们看一下什么是认知智能。复旦大学肖仰华教授曾经提到,所谓让机器具备认知智能是指让机器能够像人一样思考,而这种思考能力具体体现在机器能够理解数据、理解语言进而理解现实世界的能力,体现在机器能够解释数据、解释过程进而解释现象的能力,体现在推理、规划等等一系列人类所独有的认知能力上。
也就是说,认知智能需要去解决推理、规划、联想、创作等复杂任务。我们可以大胆想象,如果机器人具备了认知智能,那么我们周围就会出现很多电影里才能看到的智能机器,比如说《银翼杀手2049》里的乔伊,《她》中的萨曼莎,以及《超能查派》里的机器人查派,这些智能机器会有意识,有情感,并且有自己的善恶观。
人类总是想当造物主,让机器拥有认知智能,其实在一定程度上是希望模仿生命本身,尤其是人类的各种能力。在维基百科给出的定义中,生命泛指一类具有稳定的物质和能量代谢现象并且能回应刺激、能进行自我复制(繁殖)的半开放物质系统。简单来说,也就是有生命机制的物体,是存在一定的自我生长、繁衍、感觉、意识、意志、进化、互动等丰富可能的一类现象。科学家从来没有停止对生命的再造和探索,也就自然而然产生了“人工生命”(Artificial Life)的概念。人工生命可以分为两个方面,一是人造生命,特指利用基因工程技术创造的人工改造生物。另一方面则是虚拟生命(Virtual Life),特指利用人工智能创造的虚拟生命系统。
而我们知道,从感知到认知智能的鸿沟非常之大,至少从目前的技术程度上来讲,我们离认知智能还有非常远的距离。
比如说我们都觉得聊天机器人应该是一个人工智能的认知智能的代表。现在市面上这么多智能音箱,对话机器人,AI电话,是不是已经实现了认知智能呢?答案是否定的。
微软亚洲研究院宋睿华老师(微软小冰首席科学家)曾经说过一个故事,她在和母亲聊天的时候,问“如果机器人可以打败人类最顶尖的棋手,厉不厉害?”,母亲回答说“很厉害“。她再问母亲”如果我们做出一个机器人,可以和人聊天,厉不厉害?“,母亲回答说”不厉害“。宋老师就问为什么,母亲的回复是”因为不是每个人都会下棋,但每个人都会说话啊“。这个故事其实告诉我们,让机器人说话,虽然技术上非常复杂,但离人类的期望值还相差甚远。
即便是机器人可以聊天,那是不是就可以说其拥有了认知智能?答案仍然是否定的。会说话的机器很多,不仅仅是聊天机器人,智能客服,甚至是推销电话都可以做到以假乱真的程度。谷歌在2018年开发者大会上演示了一个预约理发店的聊天机器人,语气惟妙惟肖,表现相当令人惊艳。相信很多读者都接到过人工智能的推销电话,不去仔细分辨的话,根本不知道电话那头只是个AI程序。破解方法其实也很简单,问机器人一句“今天天气挺好的,你觉得呢”,相信很多推销电话就无法回答了。这是因为,在特定场景下,对话可以跳转的状态一般都是有限的,可能产生的话题分支,比起围棋的可能性要少很多,因此,即便是穷举所有的可能性,也不是不可做到的事情。如果提前设置好对话策略,加上语音合成技术,完全可以以假乱真,但一旦在开放域进行闲聊,对话的可能性几乎是无限的,场景对话技术也就无能为力了。
-------------------------------
20-7-30更新:

http://picx.zhimg.com/v2-6fe6eef9370f41d1ad4c31dd03648930_r.jpg?source=1940ef5c
这一张图和上面的图不一样,上面的是Gartner Hyper Cycle for Emerging Technologies,而这张图是Gartner Hyper Cycle for Artificial Intelligence 2019
2019的技术曲线图里,语音技术和GPU加速技术已经趋向成熟,基于深度学习的计算机视觉技术也即将走向成熟。而认知相关的自然语言处理、知识图谱仍然需要较长的时间发展。和手机相关的其他技术例如端侧AI,也需要长时间的沉淀。而通用人工智能技术、自动驾驶、量子计算还遥遥无期(红点所示)。按照中国工程院院士李德毅的说法,无人驾驶在2025年之前都将处于产品孵化期,大规模量产预计要到2060年。也在另一层面印证了只有认知智能真正的实现,无人驾驶才能真正达到L5级别。
在这里再补充阐述一下语音助手,或者聊天机器人的尴尬处境。聊天机器人曾经被认为是AI时代的入口级产品,但现在回头来看,聊天机器人还远未达到入口的级别。而且离人类的期望值也有很大差距。
在人类的聊天中,一句话所包含的文字,所反应的内容仅仅是冰山一角。比如说“今天天气不错”,在早晨拥挤的电梯中和同事说,在秋游的过程中和驴友说,走在大街上的男女朋友之间说,在倾盆大雨中对同伴说,很可能代表完全不同的意思。在人类对话中需要考虑到的因素包括:说话者和听者的静态世界观、动态情绪、两者的关系,以及上下文和所处环境等,如下图所示。

http://picx.zhimg.com/v2-f7ec2c646620040a1213fe2d15054a45_r.jpg?source=1940ef5c
静态世界观:人类在成长过程中会建立起自己的世界观,一般跟跟经历和记忆有关。比如说一个素食主义者可能会非常厌恶谈及红烧肉的话题,又比如提及粉笔划玻璃,会让一部分人很不舒服,但对另一部分人却没任何影响。同时,对话的过程中也会触发一些相关联想,比如提到情人节,会想到玫瑰花和巧克力,提到下雨天就会想到雨伞等。鲁迅在《而已集·小杂感》也曾写道“一见到短袖子,立刻想到白臂膊,立刻想到全裸体,(略),中国人的想像惟在这一层能够如此飞跃”。
动态情绪:表现在交互过程中的表情、动作、语气等。因为人类的交互过程通常需要接收多方面信息源,在不同语气、不同表情,所表达的含义有可能完全不同。比如说“我恨你”,在恋人间轻柔的对话中很可能代表“我真的很喜欢你”。
说话者和听者的关系:对话双方是敌人、家人、朋友还是恋人,话语中所表达的意思就会有所区别。就比如刚刚的例子“今天天气不错”,在分手多年的恋人见面时说,很可能就代表“你现在过得好么”。
上下文:相同的词语和句子,在不同的上下文中也会有不同的含义。“我洗头去了”用于微信和QQ聊天中,很可能就代表“我不想聊了,再见”的意思。
所处环境:在不同场景下,相同话语会触发不同的反馈。如果在厕所和人打招呼用“吃过了么”就会显得非常尴尬了。
而且,以上这些都不是独立因素,整合起来,才能真正反映一句话或者一个词所蕴含的意思。这就是人类语言的奇妙之处。同时,人类在交互过程中,并不是等对方说完一句话才进行信息处理,而是随着说出的每一个字,不断的进行脑补,在对方说完之前就很可能了解到其所有的信息。再进一步,人类有很强的纠错功能,在进行多轮交互的时候,能够根据对方的反馈,修正自己的理解,达到双方的信息同步。在回过头看开放域的聊天机器人,寄希望于从一句话的文本理解其含义,这本身就是很不靠谱的一件事情。
目前市场上大部分的聊天机器人,还仅是单通道的交互(语音或文本),离人类多模态交互的能力还相差甚远。哪怕仅仅是语音识别,在不同的噪音条件下也会产生不同的错误率,对于文本的理解就更加雪上加霜了。
最近有个新闻,是说马维英从字节跳动回归学术圈。这也在另一方面印证着这一波人工智能退潮期的到来。

http://picx.zhimg.com/v2-cd396cc58767ab231137281ad0d74e12_r.jpg?source=1940ef5c
马维英,AI学术大牛、前MSRA常务副院长、字节跳动副总裁、AI实验室负责人……
距离加盟字节跳动3年之后,又辞职挂印而去,重返学术界。字节跳动官方证实,马维英的离任,「因为个人兴趣」。
但原因仅仅如此么?还是说,AI在落地的过程中存在着种种困难?
无论是苹果、三星,还是华为,vivo,oppo,小米,手机厂商在今年的发布会上也不怎么提AI了,大家会发现,很多旗舰机悄悄的把前两年大力推广的“AI按键”也给取消了。这也是人工智能难以落地的又一印证吧。

https://www.kaggle.com/c/imagenet-object-localization-challenge
https://deepmind.com/blog/wavenet-generative-model-raw-audio/
http://stanford-qa.com

chqq5281 发表于 2023-10-6 00:16:18

已经来了,我来泼泼冷水。目前AI公司基本没有拿得出手的C端产品。都变成toB方案厂商了。终其原因在于人工智能不智能。方案厂商的想象空间不大。
目前的商业化领域在于感知层,人脸识别,语音识别,NLP。因为感知层效果明显。
没有壁垒,很多大公司都自研了。人工智能技术反而降低了技术壁垒。例如原来科大讯飞给腾讯提供语音技术,随着人工智能技术的成熟,腾讯开始自研了。
竞争激烈。
大家寄底层算法有突破?虽然每年算法层出不穷,并不是预测数据越高越好。而是突破认知,达到强人工智能。但目前看不到。
量变到质变呢。

yhc8325 发表于 2023-10-6 00:16:58

这一块我比较熟悉,我来回答一下。
AI 的落地能力可以从两个维度来看。
一是商业模式维度,好的AI 商业模式 应该有下面三个递进的能力。客户愿意买单->技术有护城河->能scalable.

[*]有客户愿意买单: 说明这是一个真实的需求。不要笑话这一点,很多公司都倒在了这一步。在实验室/办公室拍拍脑袋,以为是客户的需求,做好了拿到市场一看是个伪需求。公司瞬间倒闭。
[*]有技术护城河: 保证你的产品有足够的利润支持下一代研发/招到优秀的人才/拿到融资。按照国内这个竞争的尿性,如果你做的东西阿猫阿狗也能做,他们会瞬间把你的价格拉到街边盗版光盘的价格。
[*]能salable: 你的产品需要强定制化嘛? 如果是,那么你的成本会下不来。如果你的产品能够以低成本的方式给到多数客户,那么你的利润会暴增。
只有能够走到第三点的商业模式才是成功的,哪怕只是在一个非常细分的领域,也会让你至少前进一轮融资。
但是绝大部分产品只能走在第二步,第三步非常难。
现在AI 比较好的商业模式有 安防的人脸识别,手机端的AI 拍照。好像就这么多了,基本都是CV方向的。在这些方向,国内企业已经杀成一片红海了。
第二个维度是技术维度,我们现在看到很多fancy的技术,比如强化学习, autoML 等等, 都很难落地。从 实验室或者特定场景 -> 应用在真实场景 是一个非常大的鸿沟。在实验室里面做模型,专家门会首先给出很多的限制条件。在真实场景里面,这些条件是没有的。真实的场景 业务复杂,数据混乱,而且不能妥协。数据量非常大,不能并发不能O(N)的算法基本都没戏。所以这些问题的叠加,导致现在最好用的机器学习模型就是LR。

所以从上面两个维度考虑,你可以看到,一千个算法,也许能最后落地应用的也就一个。前几年我们对人工智能期望过高,现在当我们脚踏实地的时候,才发现是如此的残酷。
页: [1]
查看完整版本: 人工智能退潮期来了吗?