如何看待计算机视觉未来的走向?

wo177775 · 发表于 2023-10-13 10:10:35|来自：北京

计算机视觉伴随多个SOTA的完善和推进，已经进去深水区，各个论坛社区的毕业生和从业者都一片卷声，大呼卷的不行，各种劝退，认为NLP目前才是蓝海，是未来深度学习的自由之地。那么实际情况是怎么样的呢？是因为CV对硬件有要求而NLP不需要硬件还是技术门槛过低，亦或是从业人员众多等。那么未来的深度学习应用应该朝哪个方向发力呢，才能做大蛋糕?

suidywu · 发表于 2023-10-13 10:11:24|来自：北京

先说一个现象：在深度学习的驱动下，计算机已经在多个图像分类任务中取得了超越人类的优异表现。但面对一些不寻常的图像，以“深度”著称的神经网络还是无法准确识别。
再说一个现象：人类的视觉系统是通过双眼的立体视觉来感知深度的。通过大量实际场景的经验积累以后，人类可以在只有一张图像的情况下，判断图像中物体的前后距离关系。
因此，计算机视觉有一种未来走向是：“借用”人类视觉的特点，设计模型。
以深度估计领域为例。在计算机视觉领域，单目深度估计试图模拟人类的视觉，旨在在只有一张图像作为输入的情况下，预测出每个像素点的深度值。单目深度估计是 3D 视觉中一个重要的基础任务，在机器人、自动驾驶等多个领域都具有广泛的应用，是近年来的研究热点。
目前通用的解决方案是依赖深度学习强大的拟合能力，在大量数据集上进行训练，试图获取深度估计的能力。这一“暴力”解法尽管在某些特定数据集的测试场景上取得了优异的结果，但是网络的泛化能力较差，很难迁移到更一般的应用情形，无法适应不同的光照条件、季节天气，甚至相机参数的变化。其中一个具体的例子就是，相同的场景在不同光照条件下的输入图像，经过同一个深度估计网络，会出现截然不同的预测结果。
造成这一结果的原因在于，从人类感知心理学的相关研究中可以发现人的视觉系统更倾向于利用形状结构特征进行判断，而卷积神经网络则更依赖纹理特征进行判断。
例如，给定一只猫的图像，保留猫的轮廓，再使用大象的纹理去取代猫的皮毛纹理，人类倾向于认为图像的类别是猫，但是网络却会判定为大象。这种不一致性，会导致网络强行学习到的规律和人类不一致，很难完成对人类视觉系统的模拟。具体到深度估计领域，图像的纹理变化，例如不同的光照、天气、季节造成的影响都会对模型产生较大的影响。

图1：(a)大象纹理图像；(b)猫图像；(c)用大象纹理取代猫皮毛纹理的图像。图片来源：https://openreview.net/pdf?id=Bygh9j09KX

另一个更为严重的问题，是网络容易根据局部的颜色信息来进行判断，而不是根据图像整体的布局。比如，深度网络会把前方路面上的白色卡车误认为是白云，将较近距离的卡车判断为较远距离的云，这种误判在自动驾驶场景中非常致命，会导致车辆无法对白色卡车进行合理规避，酿成严重事故。
将人类视觉用于深度估计

如何解决上述两个“致命”问题，从而提高深度神经网络的泛化能力？
尽管“误判”问题可以通过扩大训练数据集来缓解，但是收集数据本身会带来大量的人力、物力成本。而使用计算机图形图像学技术虽然可以以较低的成本生成大量的训练数据，但是由于合成数据和真实数据存在色彩色调不一致的情况，所以合成数据集上训练的深度估计网络也很难泛化到实际应用场景中。
因此，微软亚洲研究院的研究员们提出了一个更通用的解决思路：模仿人类视觉系统。相关工作“S2R-DepthNet: Learning a Generalizable Depth-specific Structural Representation”（论文链接：https://arxiv.org/pdf/2104.00877.pdf）已被 CVPR 2021 接受。通过结合人类的视觉系统特点，该工作探究了网络进行单目深度估计的本质，并赋予了网络强大的深度估计泛化能力。

具体的研究思路是：考虑到人类视觉系统更依赖结构信息来进行感知，例如人可以从仅包含结构信息的草图中获取场景的深度信息，研究员们通过对图像中的结构信息和纹理信息进行解耦，先提取图像中的结构信息，去除无关的纹理信息，再基于结构信息进行深度估计。
这样设计的深度估计网络去除了对纹理信息的影响，可以做到更强的泛化能力。论文中的模型（S2R-DepthNet, Synthesic to Real Depth Network），仅在合成数据上进行训练，不接触任何目标域的真实图像，所得到的模型无需任何额外操作就可以直接在实际的数据集上取得很好的深度估计效果。该方法远超基于域迁移（Domain Adaptation）的方法。
S2R-DepthNet 的网络结构为了获得深度特定的结构表示，利用提出的结构提取模块 STE 从图像中提取出通用的结构表征，如图2所示。可是此时得到的结构表示是一个通用的并且低级的图像结构，其中包含了大量与深度无关的结构信息。例如平滑表面的结构（车道线或者墙上的照片）。

图2：整体网络架构

所以研究员们进一步提出了一个深度特定的注意力模块 DSA 去预测一个注意力图，以抑制这些与深度无关的结构信息。由于只有深度特定的结构信息输入到了最终的深度预测网络中，因此，训练“成熟”的 S2R-DepthNet 泛化能力极强，能够“覆盖”没见过的真实数据。
STE 模块目的是为了从不同风格的图像中提取领域不变的结构信息。如图3所示，STE 模块包含了一个编码器 Es 去提取结构信息，和一个解码器 Ds 去解码编码的结构信息到结构图。

图3：STE 模块编码器 Es 训练结构图

如图4所示，研究员们利用了图像到图像转换的框架去训练 STE 的编码器 Es。而为了使得网络可以适应多个风格的图像，并将通用的图像结构从图像中解耦出来，研究员们用一个风格数据集Painter By Numbers (PBN)作为目标域，合成数据作为源域，通过共有的结构编码器和两个私有的风格编码器，分别编码出源域和目标域的结构信息和风格信息。再利用图像自重建损失、潜层特征自重建损失和对抗损失结合的方式将结构信息和风格信息解耦。通过这种方式训练的结构编码器可以编码出通用的结构信息。

图4：真实图像和合成图像的结构图展示

为了训练 STE 模块的解码器，研究员们在其后加了一个深度估计网络，通过对预测的深度施加损失，便可以通过结构图预测出深度图。此外研究员们还用了一个启发性的损失函数，施加在结构图上，以突出结构图中深度相关的区域。如以下公式所示。

提取出的结构图是通用的结构图，不但包含深度相关的结构信息，同时也包含与深度无关的结构信息，因此通过提出深度相关注意力模型预测注意力图，可以有效地抑制与深度无关的结构信息。由于结构编码器中包含了多个 IN 层，导致其损失了很多判别特征，很难包含语义信息，因此设计的深度相关注意力模块使用了大量的膨胀卷积，可以有效在保持分辨率的情况下增大感受野。
通过上述注意力模块，研究员们可以得到与深度相关的结构化表示。直接输入到深度估计网络中，便可进行深度预测，从而在不同领域之间进行迁移。
研究员们可视化了学到的通用结构表示和深度特定的结构表示，如图2所示，即使合成数据和真实数据在图像上有明显的不同，学到的结构图和深度特定的结构表示也可以共享很多相似性。
该方法的量化结果如表格1所示。域迁移方法在使用合成数据训练的过程中，加入了目标域的真实场景图像，此方法在训练过程中只用了合成数据图像，已取得了显著的泛化能力的提升。其原因在于抓住了深度估计任务结构化表示的本质特征。

表1：合成数据到真实数据深度估计结果

研究员们提出的结构化表征方法更复合人类视觉系统的特点，因此可以将其推广到其它任务，例如图像分类、图像检测和图像分割等。同时，研究员们也将整个训练过程进行了简化，将所有的结构化表征学习通过一个基于 ResNet 的 backbone 网络来进行实现，通过在 ImageNet 上训练，该模型在多个下游任务（分类、检测和分割）的测试中，均取得了目前最优的模型泛化能力。其相关工作已投稿 NeurIPS 2021，论文和代码将于近期公开。
论文标题：S2R-DepthNet: Learning a Generalizable Depth-specific Structural Representation
地址：https://arxiv.org/pdf/2104.00877.pdf
代码：https://github.com/microsoft/S2R-DepthNet
<hr/>本账号为微软亚洲研究院的官方知乎账号。本账号立足于计算机领域，特别是人工智能相关的前沿研究，旨在为人工智能的相关研究提供范例，从专业的角度促进公众对人工智能的理解，并为研究人员提供讨论和参与的开放平台，从而共建计算机领域的未来。
微软亚洲研究院的每一位专家都是我们的智囊团，你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的“邀请”，让我们在分享中共同进步。
也欢迎大家关注我们的微博和微信 (ID:MSRAsia) 账号，了解更多我们的研究。

sohosky · 发表于 2023-10-13 10:11:39|来自：北京

CV调参侠一枚，做过OCR，现在做短视频。先说下工作的感受吧，工作中其实更多的时候是处理数据，看case，算法本身动的很少，就是改改backbone，试试不同的loss，其实收益都不大。更多的收益来自于标数据，以及针对业务中的问题做调整。感觉算法层面还是要看大佬们的论文了，包括无监督MOCO ，CLIP都不如自己有监督训的模型，其实有点小小的心塞。
说下看法吧，主要有两点。一个是说如何用现有的算法，以及效果，做出来受欢迎的产品，就像前几天超火的蚂蚁呀嘿，很多时候其实并不是一定需要算法效果多么的登峰造极，还是得看产品设计，以及算法和产品，用户的交互。如果有好的产品，用户喜欢用，而且需要计算机视觉的能力，那么就可以依托产品不断迭代模型，输出能力。在一个是产业AI，这块我刚开始关注。听说有些公司逐步在尝试AI的算法，但是目前更多还是传统图像，包括滤波，开闭运算那些，看什么时候能在产业互联网上work吧。
我是凤舞九天，欢迎大家多多交流～

oydfe2088 · 发表于 2023-10-13 10:12:18|来自：北京

在计算机视觉领域摸爬滚打也有小几年了，由于我主要研究的是基于深度学习的视觉任务，以下对CV+Deep Learning未来的走向谈一些粗浅的个人看法和展望：

&#34;Learning-based CV&#34; to &#34;CV-based Learning&#34;. 得益于神经网络较强的学习能力，很多视觉任务都被丢入一个learning-based黑盒中，然而神经网络直接从像素上对场景进行感知是不够的。这里对CV与Deep Learning的关系稍作探讨。我认为对于具体的任务，我们需要利用CV中的原理和技术点对其进行解剖和建模，然后再利用深度学习中的网络架构/工具进行相应的特征提取与任务决策。这里举个例子，CV中有一个challenging的任务是3D from Monocular Image, 即从单目图像进行三维重建与感知。目前主流的方案都是通过强监督学习方式直接对深度信息进行预测或者直接在2D图像上进行3D任务。在计算机视觉中，我们知道，从三维世界坐标系到二维相机坐标系是经过了一个透视变换的，因此不同深度的物体才被投影到了同一个平面上。如果利用这种变换关系去显示地指导神经网络学习或者利用可逆网络去学习这种变换关系，应该会更加贴合真实场景中的应用。如Marr Vision所描述的，对于一个图像的感知需要经过&#34;2D-2.5D-3D&#34;的过程，然而在learning-based CV中，诸如此类的视觉原理都被简单粗暴的2D convolutional kernel给忽视了。因此，CV+Deep Learning后续的发展可能会从learning-based CV转到CV-based learning，对于不同的视觉任务融入相应的CV原理并建模。
&#34;Clean CV&#34; to &#34;Noisy/Wild CV&#34;. 目前热门的视觉任务如目标检测、语义分割、深度估计等都已被“卷er”们刷爆各大SOTA榜单，其中所用到的大多数数据集都是非常干净的。然而在真实场景中，常见的噪声如径向畸变、光照、运动模糊、雨雾等都会通过改变物体的纹理结构而改变其语义特征，因此造成算法的泛化性不强、换个数据集就崩的现象。一个很直接的解决方案是Image Restoration + CV task，即在做具体的CV任务之前直接还原一个clean的场景。但是有一点需要注意的是目前Image Restoration很多都是基于图像生成式，在去噪的过程中常常会引入新的图像信息，这种顾此失彼的操作是不能被接受的。还有一个更复杂的问题，此处可以用一句经典谚语引出：“我这个人脸盲，说实话，根本分不清谁漂亮谁不漂亮”，也就是说，在真实场景中，很多类型的噪声是杂糅在一块的，你很难分清哪个噪声是哪个。对人来说，我们的日常视觉任务很少经过Image Restoration这一步，而是直接在存在各种噪声的情况下感知+决策。其中一个最主要的原因是我们已经见过各种场景下的相同物体，即人通过视觉系统所提取到的特征对于噪声具备较好的不变性。相比之下，目前Clean CV所做的事情可能更多关注的是提取对具体任务有帮助的特征，而这种feature bias会影响算法的泛化功能。
“Single-Frame CV&#34; to &#34;Sequence CV&#34;. 如德哥所说，video understanding是一个未来可期的方向，近些年兴起的“小视频”新消遣方式大大增加了该方向的人才需求，一些大厂如阿里、腾讯等也在悄然布局。先抛开工业界需求不说，来聊一些具体的技术点。视频相较于图像而言具有一个绝佳的优势——时序性。这一优势产生的前后帧相关性能够促使弱监督学习和自监督学习等得以更好地应用，相关研究可以参考牛津VGG组的Weidi Xie老师。对于视频的海量数据对显卡资源产生的负担，视频浓缩（Video Synopsis）等技术也是值得并行深入的。
&#34;General Pre-training CV&#34; to &#34;Specific Pre-training CV&#34;. 众所周知，Pre-training on ImageNet在CV中是一个general & effective的策略。但是，一些工作表明这种策略对不同CV任务的作用是不同的，原因大致有两点：Data Gap和Task Gap. 首先在ImageNet数据集中，大多数图片都是无噪声的，并且场景较为单一，前景、背景易于剥离，这与其他不同的数据集存在数据上的差异；其次，ImageNet所面向的主要任务是图像分类，所以预载入的weights中大多与益于分类的特征相关，对于一些位置信息要求更加精细的语义分割等任务却启发有限。我自己也在一些实验中发现直接载入ImageNet上的weights反而会降低学习模型在某些任务上的性能。更多细节可以参考Kaiming的Rethinking ImageNet Pre-training. 再来联系人类的学习过程，对于不同的任务/课程，我们是有特定的warm-up阶段。比如在学习乒乓球和篮球的过程中，对于乒乓球一开始我们需要练习的是简单的推挡动作，而对于篮球，我们则是在一开始练习基础的运球和投篮动作，这两个pre-training是不同的。回到CV中，对于不同任务比如深度估计和语义分割，也应该给予不同的预学习课程：深度估计——三维成像先验，语义分割——场景类别先验等。

综上，近年CV+Deep Learning虽在众多任务上得以革新，但二者相互作用的关系需要根据不同任务进行省视，而且面向Wild, Dynamic, Specific等场景的进阶之路道阻且长。

superwjh8 · 发表于 2023-10-13 10:13:06|来自：北京

作为一名入门炼丹师我来谈谈我的观点。
首先关于卷的这个问题，我觉得并不仅仅是因为或者所很大程度不是因为说cv入门门槛低，或者深度学习入门门槛低啥的，好歹它还需一块1080ti+是吧。看看隔壁的JAVA，那个真是有手就行（狗头），但是你看有人说开发岗卷吗？想必无数学长学姐都告诉过大家，遇事不决就学JAVA，或者再加点c++。而大家，至少我应该是几乎没听过说JAVA开发岗一片红海找不到工作啥的，至多就是入职的996，35岁的中年危机。甚至我认识的人很多是深度学习搞不下去了，找不到工作了，半年速成JAVA去找了开发的工作。同样都是那么多人入门，甚至转开发和JAVA的人更多，为啥就深度学习一片红海，问题出在哪呢？

问题的核心其实在于供需失衡。首先是供给方，注意深度学习的红利是真的曾经存在过的！！！，并不从一开始就是泡沫。在15-17年那会，前景看起来一片光明，学生们看到深度学习，计算机视觉带来的巨大福利，老师们看到这个东西好发文章，申项目，于是纷纷转向深度学习，计算机视觉。特别是随着深度学习框架的普及和硬件资源的不断升级, 深度学习的入门门槛越来越低, 两个月入门真的不是梦想。就连李飞飞，吴恩达，bengio，blabla等各路大神都纷纷离校创业或从业，所以大家没忍住诱惑走进了这个坑真怪不了什么，我也没忍住，毕竟那时候谁能想到会是现在这样，一切看起来都非常美好，智能时代仿佛近在眼前。但是现在在呢? 李飞飞又回到了斯坦福, 吴恩达开始去搞教育, bengio的公司或许将要贱卖（以低于融资成本的价格卖出），知乎上开始出现如何看待2019年算法岗一篇红海, 2020年算法岗灰飞烟灭, 而我前不久也还在吐槽如何看待深度学习复现难的问题。这中间发生了什么?
这就需要谈到需求方的问题。首先很明显的是目前公司对算法岗，深度学习需求并没有像大家所想象的那么大，不然也不至于出现现在大家所说的一片红海灰飞烟灭的问题。可是为什么呢？说好的工业4.0呢，说好的光明前景呢？这就要谈到另一个问题，什么决定了公司的需求？梦想？热爱？不，是利益，99.9%公司都是如此。剩下的0.1%也会慢慢变成如此。这里我想起了之前和师兄的聊天
我的一个博士师兄是工作之后才来读博的，他17年硕士毕业去了海信做图像算法，后来有一天我们一起回寝室，师兄突然说起还好辞职，不然现在海信大裁员指不定就裁到他了。我说你们不是做算法的吗，怎么会裁到你们。师兄说裁的就是研发部门…，也就是算法岗可能的来源。我当时心想，不应该啊，研发部门不应该都是像达摩院， FAIR这种，关乎一个公司能否把握未来机遇，抓住下一个风口的重要部门吗，怎么说裁就裁。师兄说，因为不挣钱啊，我们公司墙上挂满了各种专利，但是实际能用来产生效益的没几个。不是每一个公司都能有那么大的魄力和资金投入做自己的算法研发的。更多是用别人做好的接口开发产品。
而像阿里，旷视，商汤这种提供算法支持的不应该有很大的算法岗需求吗？为什么还是会卷。其实他们的需求也没那么大，原因还是一样的，计算机视觉，深度学习并没能带来大家所期望应用和盈利。说到这，其实大家眼里的眼里这些公司也不容易，也卷的不行，那么多公司就分人脸识别，智能安防等几个领域的蛋糕，而且技术壁垒也没有大到非某家不可的地步。而这归根到底就是现在深度学习，计算机视觉能落地的场景真的不多。
所以这就谈到第二点了，现在计算机视觉的瓶颈。以下观点更多是从算法落地角度考虑的，可能存在一些局限。
做过算法落地的人应该都深有体会，那些顶刊顶会上的sota算法，你用到实际场景里，如果不适用额外数据做微调，准确率掉一个30%到40%，再正常不过了。而且很多时候视任务的难易程度准确率从70%到85%甚至90%是可以靠数据堆出来的，但是再往上就没那么容易了。当然千万级别甚至更高数量级的数据那就另说了，毕竟人工智能人工智能，有多少人工就有多少智能。即使如此还会有极端情况存在你加数据可能都无法解决
研一那会跟着师兄参加过一个复杂环境下人脸检测识别挑战赛，做的就是监控视频下白天黑夜各种复杂场景下的人脸识别。大家一看人脸识别，这不是做烂了吗，还有什么好做的？我当时也这么想，师兄可能开始也这么想，然后师兄两年就花在了上面，后来表示非常后悔。当时的情况就是白天下还好，基本都能识别差不多，黑夜路灯下，准确率极剧降到了10%各种优化弄到20%就已经惨不忍睹了，就这还拿了第五名。前面的是一起参赛的还有大华，云从这些大厂，这里就说说大华，专业做安防的，他们最后黑夜环境下准确率大概是70%，而且这里还不确实他们是不是用了自己的数据，总之我们是没数据。
数据都不能解决，但还是要用，那怎么办，一般就只能限制场景，麻烦用户了。现在大家所能看到的落地应用多半是在一个尽量不影响用户体验的场景限制里，采集海量数据集，拟合一个模型然后使用。这个过程中真正起了大作用的，不是大家以为的那些sota模型，而是那些场景的约束和海量数据。以我做的活体检测为例，现在也有落地的应用了，阿里，小视科技，但是你们去用的时候它都会有请靠近远离摄像头让你距离摄像头的位置在指定距离，请保持静止blabla一些限制，甚至有时候我都已经在这个范围里还不给我检测，用的贼恶心。这些限制能不能不要？不行，因为不加这东西就解决不了。
紧接着上面就是关于计算机视觉的未来。我始终认为技术发展的终点就是产品，能够切实的落地影响或改变人们的生活，解决人们的实际需求。所以我一直觉得我今后会是一个工程师而不是科学家。而如果从这个角度看计算机视觉的未来那就是这样的。
我数据量不够的怎么办——小样本学习，迁移学习。
数据标注成本高怎么办——半监督，无监督。
我数据分布不均衡怎么办——长尾分布。
如何利用各种可能的数据来优化提高模型性能——多模态学习。
如何适应复杂场景（自然的，人为的）——深度学习的鲁棒性，泛化性研究，对抗学习。
算法出问题我怎么纠正和修改——深度学习可解释性问题。
我的模型怎么快速高效部署用于实际产品——机器学习系统，深度学习框架研究，模型压缩

server100 · 发表于 2023-10-13 10:13:53|来自：北京

我没看错吧？NLP是一片蓝海是自由之地？CV比较完善进入了深水区？一时间，我都不知道应该从哪个点开始吐槽了。
因为题主问到了CV和NLP的比较。如果一定要横向对比的话，那么CV和NLP长期以来是互相学习、互相赶超的关系。虽然同属于AI这个大领域，也同样具有不确定性因而概率类方法占据绝对优势，但两者的性质还是存在诸多不同。具体来说：

CV信号是天然存在的，而NLP信号是人类创造出来、用于存储知识的。因此，CV信号维度高、信息密度低，而NLP信号维度低、信息密度高。这就意味着在NLP信号上进行自监督学习更容易，也意味着要在CV信号上进行自监督学习，需要事先进行某种意义上的信息提纯。
CV信号描述了对象的细节，具有一定的冗余度，而NLP信号是对象的抽象化描述，具有一定的模糊性。CV信号是层次化的，而NLP信号是结构化的。这些明显的对比，意味着要想在CV和NLP领域产生初级技术应用，算法需要关注的点是不一样的。CV更关注特征的抽象和domain之间的迁移，而NLP更关注单词间的联系和消歧义，等等。

当前，CV和NLP面临的共同困难，都是标注信息的不完善——简单地说，人类提供的标签已经无法很好地指导学习过程，具体描述可以参考我昨天写的另一个回答：
目前计算机视觉中的很多自监督方法的下游任务用有监督分类的意义是什么？
这也就意味着，有监督学习的红利已经基本吃完，业界急需从无标签数据中获取迈向下一代人工智能的钥匙。虽然这把钥匙仍未找到，但是我们基本可以确定大规模上游预训练+小规模下游微调的套路。NLP已经部分走通了这条路——虽然现在的GPT-3被批评为只有记忆没有常识，但是长远看，这条路应该是通的；而CV也需要迎头赶上。
警告：以下是猜测
如果对CV的未来走向进行判断，我认为一种很可能发生情况是复刻NLP的轨迹，由大厂完成超大规模图像预训练模型，随后将模型release给广大开发者使用。这条路一旦走通，将会深远地改变当前CV的格局和开发模式。当然，对于广大开发者而言，适应新的算法并不困难，适应新的生态可能会有一定的挑战。
最后，谈到内卷的问题。内卷永远是存在的，只要大家认为这个领域的从业者的数量超过了它能够实际养活的数量。我对这个问题的看法是，CV在实际应用上的潜力远没有被发挥出来。如果更先进的技术路线能够达成，那么整个行业能养活的工程师数量一定会增加，到时候还会不会卷，就看会不会有更多人跳进这个坑里来了。

[IT技术] 如何看待计算机视觉未来的走向?

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家