计算机视觉是否已经进入瓶颈期？

zg185 · 发表于 2023-10-4 20:04:27|来自：中国

近些年来在机器学习(深度学习)的支持下，计算机视觉迅速发展，并且与ML的发展在图像数据处理的交集上绑定在了一起。
但CV领域自身的理论发展仿佛速度在放缓，那么未来CV的发展会不会因为自身发展的不足而只能依托其他领域发展的支持，计算机视觉领域是否会产生饱和甚至萎缩。不论兴趣，单从时机考虑，现在进入这个领域还来得及吗？

相关问题：
计算机图形学是否已经进入瓶颈期？ - 计算机科学

yanwen · 发表于 2023-10-4 20:04:32|来自：中国

泻药。我看大部分回答都很老了，现在是2022.6.11，我们实验室刚刚完成了近三年来顶会论文趋势的survey，在这里简要地说一下结论。

计算机视觉是否已经进入瓶颈期？

先说结论：不，能做的方向太多了，但是比起以前需要能力或者更多时间：图像理解卷，但是是基础，要学但是可以不作为研究方向，图像理解的小样本学习、持续学习、医疗影像理解倒是比较乐观，3D也相对2D好一些；图像生成在大实验室，算力足，可以做；检索不推荐；Robotics建议大佬做，很有前景；图像序列的多目标跟踪、步态识别等建议专业Lab做；跨学科多模态很适合做，但是要学多个学科的知识。我们来看一下细致的分析：

图像理解（目标检测、图像分类、图像分割）这边，三个子领域都由于benchmark非常成熟，总体呈内卷态势，做的人很多，优秀的工作很少。仔细调查发现，这是行业的正常情况，因为这个领域和深度学习结合起来的发展时间是最长的，从李飞飞2009的ImageNet开始发展到现在，已经有13年的历史了，而ImageNet的benchmark已经相当完善，所以缺乏活力。我们总结了图像理解的突破口：一个是小样本学习的benchmark，建立一个有规模的迁移学习数据集；另一个是持续学习的benchmark。这两块，最近的会议都开始大量征稿，属于是热点方向。还有一个是医疗图像理解特别是MRI，这一块属于是造福人类的领域，世界各国给的Funding都很足。1个点在通用领域没什么价值，但在手术台上可能就直接决定一个人的生命。有研究指出多目标的工作还差点火候，可以继续做；但我们自己调查了论文的数量和质量，认为其实这也属于卷的比较严重的一边，厉害的模型像是YOLO，已经做到了非常好的效果，之后基本没有让人耳目一新的模型出现。另外，3D领域相对2D会好一些。
图像生成（超分辨率、文本to图像、图像去噪、风格迁移）这一块，超分辨率基本已经做烂了，而且因为本身就是个比较简单的task，内卷非常严重；文本to图像这一块卷倒是不卷，经常有好的工作出来，问题是好的工作都是几千亿算力的大公司例如Google在做，例如前段时间的DALL-E，如果在一般的实验室不建议入坑，很容易做完实验写paper的时候突然发现已经被大厂做完了，沦成同期工作；图像去噪是一个相对小众的分支，想入门看这个综述，主要与在MRI结合的方向比较有实用价值，所以可以预计这一块前景不错。风格迁移这边谈不上卷，但是跟艺术结合的领域Funding明显不够，就业面也窄，所以目前阶段各种评价都偏娱乐向。
图像检索（以图搜图、以文搜图）其实本质还是图像理解，而且算是一个已经比较成熟的区域了，例如搜索引擎、相似度推荐等，10年左右开始技术飞跃就困难重重了。现在这一块很少有Lab在做了，慎入。
Robotics（计算机视觉在无人车、无人机、机械臂上的应用）这一块，能做的还有太多。这一块用到深度学习（基于统计的方法）的还很少，基本都是基于规则的方法，其实计算机图形学更多一些。最热门的算法像是SLAM，都是被规则方法统治的。问题是，想要把计算机视觉用到这些科目上的难度非常大，改模型调参的结果没有规则方法好。所以做这个方向数学一定要好，否则很容易变成做横向，我们隔壁Lab就大量接横向，研究性质的paper发的不多。
图像序列（目标跟踪、图像序列分类、步态识别）其实就是一串图片拼起来，多了个时间维度，这块总体就业面稍窄，无外乎安防监控、无人驾驶两个领域，这三个子领域相对更有前景。目标跟踪推荐多目标跟踪，应用价值最高，Funding也不错；热点在落地可行性，也就是实时监测和降低算力门槛。序列分类最火的是事件监测，在交通方面有比较大应用。步态识别属于偏小众的方向，但是图像序列的Lab一般都会涉猎，如果Lab是专做图像序列的，例如导师专门做这块，可以考虑入坑。图像序列工作总体上聚集程度高，在专业实验室会比较吃香。
与NLP的组合（特别是视频理解、视频生成、视频搜索，也就是上面三个经典图像命题的视频版本）这一块，基本上还在蓝海期。视频其实就是图像序列加上音频和文字信息。视频理解像是概括视频的内容、提取视频中的事件这些，跟图像序列主要多一个音频和文字，属于图像序列的超集。远机位视频理解的benchmark实在太少了，很缺苦干做数据集的人，现在风气太浮躁。视频理解里面，视频分类现在是大瓶颈，两三年了还是那个模型。视频生成像是从一幅图片生成一整个视频，研究算是非常火爆的，可以用作推理专家系统，从一幅图片里面进行有端联想。视频生成里面视频质量也是一个很值得做的方向，现在很多视频内容是优质的但分辨率太低，视频超分效率感人，这边的研究实在是少的可怜。视频搜索可以用来做视频推荐算法，作为视频除了标题的一个文本参照，在标题党越来越多的情况下提升推荐质量。视频这一块总体来说难度都比较大，需要对CV和NLP都有涉猎，所以你光会CV还是容易陷入内卷，博采众长才是王道。
多模态。这个学科就是大量知识的杂糅，其实也是一个跨学科的方向，还是很容易出paper的。其实视频方向也是一种多模态，但是和NLP的关系最大，也是多模态里面最火的一个方向，所以放到上面一条单独讲。因为我们并不认为多模态是CV的一个部分，而是CV的超集，因此没有做重点survey。

其他资源

近三年顶会论文量化分析

<a data-draft-node="block" data-draft-type="link-card" href="http://www.zhihu.com/question/353691411/answer/2534955437" class="internal">计算机视觉领域如何从别人的论文里获取自己的idea？计算机视觉细分方向研究

计算机视觉细分方向调查

草鞋林 · 发表于 2023-10-4 20:04:47|来自：中国

感觉是有点瓶颈，视频分类在YouTube 8m上最好的单体模型还是17 18年提出的nextvlad + context gating
调研和尝试了很多新方法，感觉都不太solid
也可能的调研不足，欢迎推荐在这个领域最近的比较solid的好工作。

像椰子的心 · 发表于 2023-10-4 20:05:00|来自：中国

谢邀。
前几天和朱松纯聊了聊，他说Vision is dead。vision的人拿不到funding，都转去做nlp或者robotics了。

songxiao530 · 发表于 2023-10-4 20:05:36|来自：中国

CV的发展虽然还远没有到瓶颈，还有很多问题有待解决，并且可能会不断得有突破，但针对个人的职业选择不同，已经需要给出不同的答案了。先给三点拙见，再展开说。
1 如果职业规划是去工业界，做接地气的内容，现在进入这个大方向非常的合适。
2 如果职业规划是去高校学术界，特别是北美的，就需要好好考虑了。
3 无论是走哪条路，都不适合只关注计算机视觉问题了，应该更关注泛泛的机器学习领域，甚至视觉以外的垂直领域。
第一点是显而易见的，深度学习的大行其道使得计算机视觉的很多问题都有了被解决的可能性，而其中不少都具有很好的商业价值，例如人脸识别，自动驾驶，基于照片的商品推荐等。但它们都还没有被真正的搞定，各种垂直领域又有一些独特的需求，因此对于这个方向的从业人员来说是很好的机会。
第二点业内人也都是早就知道的了。从大方向来看这块并不是北美政府基金的风口(所谓大数据，主要还是支持数据挖掘的多些，而不是视觉大数据)，这块僧多粥少，从钱的角度来说目前主要是由工业界在推动着(深度学习四大金刚就不提了，伯克利的大佬M也学术休假加停薪留职去了谷歌)，我们就单从方法论的角度来说，近年来在计算机视觉领域占统治地位的深度学习论文也和NSF IIS的ROBUST INTELLIGENCE(计算机视觉经常投项目申请书的栏目)格格不入，深度学习相对黑盒，且不够ROBUST，大部分时候性能特别好，错的时候则错的离谱，典型的例子包括特斯拉自动驾驶的撞车事件，阿尔法狗面对李世乭“神之一手”的误判等，因此这块的研究人员在NSF IIS RI的战绩并不辉煌，远比不上他们在各个大赛上的摧枯拉朽。助理教授做了几年后去工业界或者创业的也不奇怪，虽然部分原因是工业界机会好，但长期无法在NSF RI斩获CAREER也是很让人沮丧的事。其实别说青年学者了，就连大佬M在RI也战绩不佳。这方面我还是同意提问者的观点的，近些年在视觉方面确实主要靠深度学习撑着，很多论文都是神经网络的小修小补，性能上的大飞跃不少都来自于工程上的灵感和改进，真正在理论方面的突破很少。注意，那些耳熟能详的很好用的网络架构并不被NSF视为理论上的创新(圈内人都知道好多个PM都不待见深度学习，尤其是CORE PROGRAM的)，相反的，这些反而是工业界应该持续主导的有力证据，因此NSF何必投钱呢。
关于第三点，深度学习在这些年有一定的天时地利人和(带标注的图像大数据的出现，GPU计算的成熟，使得神经网络受益匪浅; 大量开源工具包的出现，大幅度降低门槛)，这对计算机视觉的研究人员是具有一定的危机性的，因为以前还能说我们做这块需要有行业经验，需要对图像分析有一定的积累，现在则是一个以前不做图像的人都可以短时间杀入，也就是说深度学习渐渐地把行业的门槛给抹去了，在这样的大环境下，各个垂直领域厮杀的非常厉害(参看人脸领域的一片混战)，研究很不好做，要取得最好的性能会掉层皮，而没有这么好的性能则很难发论文，也就缺少学术贡献了。因此如果条件允许的话，做研究可以从更高屋建瓴的角度来思考，关注机器学习本身，不要拘泥于计算机视觉这一个垂直领域，或者索性想办法杀入深度学习没有涉及到的垂直领域。

蛋蛋小林 · 发表于 2023-10-4 20:05:57|来自：中国

谢邀, 其实这个问题也是我近段时间一直在思考的问题. 昨天刚在组里做了个ECCV&#39;16 Recap, 整理一下思路, 来尝试抛砖引玉．
我的观点是：计算机视觉在人工智能和深度学习的大背景下方兴未艾．
这里进入瓶颈期的，可能是一些计算机视觉的经典问题，如物体识别和检测（人脸，行人，物体，场景 etc）．但是如果能死磕这些经典问题，往往能带来质的突破，比如说对于ImageNet物体识别GoogLeNet之后，大部分人应该都不会想到还有ResNet这种牛逼网络的出现：）．计算机视觉这个领域本身，我觉得是正在蓬勃发展, 经典问题得到了更好的解决, 新的问题也不断涌现．
如果把Deep Learning进入CV的2012年作为新时代的开始，我自己是从旧时代来的人．对于从旧时代过来的人，现在无疑是CV以及AI最好的时代．我自己当年是看着Dahua Lin的blog，以及
@Filestorm和
@田渊栋在SJTU饮水思源AI版的论战进入CV和AI研究圈子的（这里特别感谢三位师兄当年的分享），那时候大家讨论的东西都是graphical model, sparse coding, bag of SIFT, spatial pyramid 啥的，也没有工作抢着放arXiv的传统，也没有满大街的open source libraries. 每年CVPR接收的论文到现在的1/2都不到. 每次开会前proceeding放出来的时候都会沐浴更衣把大部分感兴趣的论文扫一遍.
现在的CV和AI研究其实是变得越来越扁平快了．随手可得的open source libraries和pretrained models, 互联网上各种分享的学习资料和经, 便宜的GPU计算资源, 以及百花齐放的研究方向，都使得新入行的生猛年轻人能很快倒腾出新东西. 发表CVPR, NIPS, AAAI等顶会文章也不再是难事. 论文数量和研究方向也是繁多. 已经很难follow.
现在很多时候, 我觉得做CV的研究更像是在拼工程能力, 而不是拼insight和积累了. 后来的人也许并没有多少动力和精力去学习和了解之前的经典. 这也是我担忧的地方. 但时代造人, 这些也是无可厚非的, 毕竟我们希望更多有闯劲的年轻人进入CV和AI圈子, 一起大炼钢:). 争先放arXiv, 开源code等无疑加速了研究的迭代速度, 有更大的可能性激发出新的研究方向和成果. 大公司们(Google, Facebook, Amazon)以及诸多startup们, 也都虎视眈眈地渴望着更多更好的研究工作出现.

另外, 如果硬要我说几个CV目前有肉容易啃的方向, 那我就大致提提（注：这些方向大致都偏纯学术，有什么商业价值我并不是怎么关心）:
1. Robotics (or Simulation Graphics)+Vision. Robotics那边的人普遍比较保守, 更执着于传统template matching之类的传统方法. 这里有个段子, 我们MIT机械工程系robotics方向的大牛教授John Leonard很久以前评论Computer vision, 直接说你们&#39;CVPR&#39;里面的各种论文, 就是Computer Vision and Precision Recall. 什么意思大家应该能理解:). 不过在deep learning开始真正work的时代, 他这句话应该不太适用了(笑). 回到正题, Robitics本身是块非常大的饼, 很多问题和方法都可以用deep learning (CNN + Deep Reinforcement learning) 重新解决. 偏Robotics的话, 大家可以留意一下Berkeley的大红人Sergey Levine最近的工作(
Sergey Levine). 偏Vision的话，可以看看CMU的大红人Abinav Gupta的ECCV paper Curious Robot (
https://arxiv.org/pdf/1604.01360v2.pdf). Jianxiong Xiao之前主打的3D deep learning (
http://robots.princeton.edu/talks/2016_MIT/RobotPerception.pdf)也可以算在这个里面，他们团队和MIT团队最近搞了个Amazon Pick challenge, 模型和方法还有点意思（
MIT-Princeton Vision Dataset for the APC 2016）. 不过Xiao已经下海经商, 不知道还会不会actively publish. 现在各大公司和startup猛搞的autonomous drive, 也可以放在这个方向之下.
最近我还留意到一个非常有潜力的方向Simulation+Vision. 我觉得有两个具体方向，一个是利用graphics里面的rendering仿真技术，生成大量数据．这些数据因为是生成出来的，任何ground-truth都有，而且要多少有多少, 是获取训练数据的一个捷径．CVPR&#39;16有篇做synthetic image dataset for semantic segmentation of urban scene（
http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Ros_The_SYNTHIA_Dataset_CVPR_2016_paper.pdf）．另外一个方向是结合graphics中的simulation，利用deep reinforcement learning等active learning的算法可以无监督／弱监督训练出agent model，这里就不仅限于纯CV了．DeepMind和OpenAI在猛搞这个方向．偏vision的话大家可以参考下Allen Institute这篇（
https://arxiv.org/pdf/1609.05143v1.pdf）．
2. Generative visual models. 目前大部分的模型都是discrminative model, 给定input, 然后识别label. 但这个故事的另外一半其实是generative model, 给定label, 然后生成图片. generative models是一个很有潜力的大方向. 这里的最新进展一方面是基于GAN (
https://arxiv.org/pdf/1511.06434v2.pdf) 所带来的一种训练图片生成的新思路, 也包括一些基于传统image model, 如MRF和CRF在deep learning的新思路下面进行重新理解. DeepMind的这篇PixelCNN(
https://arxiv.org/pdf/1606.05328v2.pdf), 最近Zhirong和Dahua的挺不错的ECCV论文(
http://dahua.me/papers/dhlin_deepmrf.pdf). 个人觉得Varionational Autoencoder也是个蛮漂亮的模型, 这里有篇关于VAE的最新的tutorial还不错(
https://arxiv.org/pdf/1606.05908v2.pdf). 以后deep learning跟bayesian model的结合也会是个颇具潜力的方向.
3. Multimedia Computer Vision. 其实人的感知系统本身就是多模态的, 视频和声音共同结合．Video analysis不再局限于action recognition, 对内容本身有更深的理解. 比如说最近的MoiveQA (
MovieQA), Visual Anticipation prediction (
http://web.mit.edu/vondrick/prediction.pdf
). 另外, sound也是一个大家普遍忽略掉的一个东西. 大家可以看看我们组Andrew Owen的两个蛮有意思的工作ECCV&#39;16 Ambient Sound Provides Supervision for Visual Learning (
https://arxiv.org/pdf/1608.07017.pdf), CVPR&#39;16 Visually Indicated Sounds (
Visually Indicated Sounds). 多模态来研究vision是个大趋势.

[IT技术] 计算机视觉是否已经进入瓶颈期？

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家