[IT技术] 2022 年,计算机视觉领域有哪些推荐的研究方向?

[复制链接]
hslxwu 发表于 2023-10-26 23:53:28|来自:中国 | 显示全部楼层 |阅读模式
当前学术研究热点是什么呢?有哪些适合个人研究的方向?
小样本?自监督?半监督?弱监督?多模态?增量?3D?模型轻量化?还是别的?更细致的研究问题有哪些?
全部回复5 显示全部楼层
蓝色人类 发表于 2023-10-26 23:54:13|来自:中国 | 显示全部楼层
计算机视觉作为工程科学,更应从工业应用角度出发,来寻求计算机视觉实际研究需求,更容易把握实际的时代潮流,而不是表面的浪花。
工业的需求有几个层面:

  • Make something work: 实现了某个之前未能实现的能力(从0到1);
  • Make it work better: 刷SOTA,更通用,更鲁棒(从1到100);
  • Make it bigger: 使之在更大规模的真实场景下完成实现(from lab to industry);
  • Make it cheaper: 推动某个领域的应用成本下降(包括算力需求、训练时长、数据/标注获取成本,以及易于硬化等);
  • Make it work better continually and automatically, with a limited cost: 实现模型/算法的自动持续低代价迭代,实现推动算法落地的低成本飞轮。
个人觉得第五点有比较多可以探索的地方。CV的数据与标注获取,除了部分像互联网可以爬取的用户提供的数据(用户充当免费的含噪标注者)的情况,大多数情形下,数据来自主动采集与标注,也有用户反馈的数据。但实际上,真实数据往往是长尾分布,绝大多数尾部数据难以穷举,难以采集,只能在应用中不断收集与修复。一个算法工程师的日常除了收集清洗数据训练出一个模型之外,更多在于怎么解决真实场景中遇到的corner case。那么这就引入几个需求:

  • domain generalization,特别是long-tailed 场景下的domain generalization.
  • few-shot incremental learning,少量的样本实现持续学习,并且保证已有知识不会丢失。
  • active learning,在大量数据中筛选出有价值人工标注或学习的。
  • self-supervised learning/semi-supervised learning,目标在于低代价利用大量未标注的数据。
个人的粗浅之谈,望不吝斧正~
apolo 发表于 2023-10-26 23:54:23|来自:中国 | 显示全部楼层
来啦!感谢题主的提问~

近来,基于 Transformer 的视觉预训练模型在诸多计算机视觉任务上都取得了优越性能,受到了广泛关注。然而,视觉 Transformer 预训练模型通常参数量大、复杂度高,制约了其在实际应用中的部署和使用,尤其是在资源受限的设备中或者对实时性要求很高的场景中。因此,视觉预训练大模型的“轻量化”研究成为了学术界和工业界关注的新热点。


对此,微软亚洲研究院和微软云计算与人工智能事业部的研究员们在视觉大模型的结构设计和训练推断上进行了深入探索,同时还对大模型的轻量化、实时性以及云端部署也做了创新应用。本文将从轻量化视觉预训练模型的发展谈起,探讨模型轻量化研究中的关键技术,以及轻量化视觉 Transformer 模型在实际产品中的应用和潜力,最后展望轻量化视觉模型的未来发展机遇和挑战。

视觉大模型层出不穷轻量化预训练模型却乏人问津


最近几年,深度学习在 ImageNet 图像分类任务上的进展主要得益于对视觉模型容量的大幅度扩增。如图1所示,短短几年时间,视觉预训练模型的容量扩大了300多倍,从4,450万参数的 ResNet-101 模型,进化到了拥有150亿参数的 V-MoE 模型,这些大型视觉预训练模型在图像理解和视觉内容生成等任务上都取得了长足进步。




图1:视觉预训练模型参数量的变化趋势图


无论是微软的30亿参数 Swin-V2 模型,还是谷歌发布的18亿参数 ViT-G/14 模型,视觉大模型在众多任务中都展现了优越的性能,尤其是其强大的小样本(few-shot) 甚至是零样本 (zero-shot) 的泛化能力,对实现通用智能非常关键。

然而,在很多实际场景中,由于存储、计算资源的限制,大模型难以直接部署或者无法满足实时需求。因此,轻量级的视觉预训练模型研究变得越来越重要,且具有很强的实际应用价值。尽管目前有一些工作在探讨轻量级模型,但是这些方法大多是针对特定任务、特定结构设计的,在设计和训练过程中没有考虑到模型的通用性,存在跨数据域、跨任务的泛化局限性。

轻量化视觉模型的关键技术研究


为了实现轻量化视觉预训练模型,微软的研究员们发现了两大关键问题:1)如何设计出通用性更强的轻量化模型结构?2)受制于轻量化视觉预训练模型的有限容量,如何设计高效的预训练方法让小模型也能学习到大规模数据中的有效信息?面对这些难题,研究员们通过坚持不懈的研究和探索,目前取得了一些阶段性成果。

由于提高轻量化预训练模型通用性的核心在于如何在资源受限(参数量,时延等)的情况下强化模型的学习能力,使其能够更好地在大规模数据中学习通用特征,因此,研究员们从以下三个角度进行了深入探索:

1. 轻量化模块设计

轻量、低延时的模块是组成轻量级模型的重要部分。在卷积神经网络中,具有代表性的轻量级模块有MobileNet的反向残差模块(Inverted Residual Block)以及 ShuffleNet 的通道随机交叉单元(Shuffle Unit)。在视觉 Transformer 结构中,由于图像块之间注意力的计算没有很好地考虑相对位置编码信息,因此研究员们设计了即插即用的轻量级二维图像相对位置编码方法 iRPE [1],它不需要修改任何的训练超参数,就能提高模型的性能。此外,针对视觉 Transformer 参数冗余的问题,研究员们设计了权重多路复用(Weight Multiplexing)模块 [2]。如图2所示,该方法通过多层权重复用减少模型参数的冗余性,并且引入不共享的线性变换,提高参数的多样性。





图2:Transformer 中的权重多路复用模块

2. 轻量化模型搜索

网络结构搜索(Neural Architecture Search)可以从模型设计空间中自动找到更加轻量、性能更加优异的模型结构 [3]。在卷积神经网络中,代表性工作有 NASNet 和 EfficientNet 等。在视觉 Transformer 结构搜索中,针对视觉模型中的通道宽度、网络深度以及 head 数量等多个维度,研究员们先后提出了 AutoFormer [4] 和 S3 [5],实现了视觉模型的动态可伸缩训练与结构搜索。在同样模型精度的情况下,搜索得到的新模型具有更小的参数量和计算量。值得注意的是,在 S3 中,研究员们利用 E-T Error [5]以及权重共享超网来指导、改进搜索空间,在得到更高效的模型结构的同时也分析了搜索空间的演进过程,如图3所示。与此同时,模型结构搜索的过程为轻量化模型的设计提供了有效的设计经验和参考。




图3:轻量级模型搜索空间进化过程

3. 视觉大模型压缩与知识迁移

轻量级预训练模型的另一难题在于,由于模型容量有限,难以直接学习大规模数据中包含的丰富信息和知识。为了解决这一问题,研究员们提出了快速预训练蒸馏方案,将大模型的知识迁移到轻量化的小模型中 [6]。如图4所示,和传统的单阶段知识蒸馏不同,快速预训练蒸馏分为两个阶段:1)压缩并保存大模型训练过程中使用的数据增广信息和预测信息;2)加载并恢复大模型的预测信息和数据增广后,利用大模型作为教师,通过预训练蒸馏指导轻量化学生模型的学习和训练。不同于剪枝和量化,该方法在权重共享的基础上使用了上文中提到的权重复用[2],通过引入轻量级权重变换和蒸馏,成功压缩视觉预训练大模型,得到了通用性更强的轻量级模型。在不牺牲性能的情况下,该方法可以将原有大模型压缩数十倍。




图4:快速预训练知识蒸馏

这一系列的研究成果,不仅在计算机视觉的顶级学术会议上(CVPR、ICCV、ECCV、NeurIPS等    )发表了多篇论文[1-6],也通过和微软必应的合作,成功将轻量化预训练模型应用到了图像搜索产品中,提高了实际业务中图像和视频内容理解的能力。

轻量级视觉预训练模型的应用


轻量级视觉预训练模型在实际中有诸多用途,尤其是在实时性要求高或者资源受限的场景中, 例如:云端视频实时渲染和增强、端测图像、视频内容理解。轻量级视觉模型已经在智能零售、先进制造业等领域展现出了广阔的应用前景,将来还会在元宇宙、自动驾驶等新兴行业发挥重要作用。以微软必应产品中的图像内容搜索为例,下面为大家展示一下轻量化视觉模型的实际应用和部署。


目前,基于内容的图片搜索在图片的类别属性理解上已经比较成熟,但对于复杂场景的内容理解仍有很大的挑战。复杂场景的图片通常具有大景深、背景杂乱、人物多、物体关系复杂等特点,显著地增加了内容理解的难度,因而对预训练模型的鲁棒性和泛化性提出了更高的要求。

举例来说,动漫图片的搜索质量在很长一段时间内无法得到有效提升,其主要的挑战包括:绘画线条和颜色比真实场景图片更加夸张,包含更多动作和场景,不同漫画之间的风格内容差异巨大。图5到图7分别展示了“灌篮高手”、“皮卡丘”和“足球小将”三种不同的动漫人物和行为,其漫画风格和内容差别迥异。如何有效地理解漫画图片内容,对视觉预训练模型提出了较高的要求。




图5:在微软必应搜索引擎中,对灌篮高手的动作理解包括:扣篮,运球,抢断,投篮等



图6:在微软必应搜索引擎中,对皮卡丘行为的理解比如吃苹果、吃西瓜,吃雪糕等



图7:在微软必应搜索引擎中,对足球小将射门动作的特写

上文中提到的轻量级视觉通用模型以及快速预训练蒸馏算法目前已成功应用于微软必应搜索引擎中。借助微软亚洲研究院提供的视觉语言多模态预训练模型,微软必应图片搜索功能增强了对漫画内容的理解,可以返回与用户需求更为匹配的图片内容。

与此同时,微软必应搜索引擎庞大的索引库对于检索效率有非常高的要求。微软亚洲研究院提供的快速预训练蒸馏方法有效地将预训练大模型的索引能力迁移到轻量化模型中,在识别准确率上将现有模型提升了14%,同时极大地优化了模型的计算效率,实现了百亿图片的快速推理。

未来的机遇与挑战


模型轻量化是人工智能未来应用落地的核心。随着视觉技术、算法、算力和数据等不断完善,模型的复杂度急剧攀升,神经网络计算的能耗代价越来越高。轻量化视觉模型高效的计算效率和低廉的部署应用成本,能够在未来更多的实际产品中发挥巨大优势。除此之外,本地化的轻量级预训练视觉模型在支持更多服务的同时,还能够更好地保护用户数据和隐私。用户的数据将不再需要离开设备,即可实现模型服务等功能的远程升级。

当然,研究人员也意识到轻量级预训练视觉模型所面临的挑战:一方面在模型结构设计上,如何在模型参数量和推理延时的限制下达到模型的最优学习能力,一直以来都是学术界和工业界密切关注的问题。虽然目前已经沉淀了不少有效的模型结构,在通用近似定理(UAT)、神经网络结构搜索(NAS)等领域也取得了长足的发展,但是现有的轻量级预训练视觉模型和视觉大模型之间仍有差距,有待进一步优化和提升。另一方面在训练方法上,学术界和工业界针对视觉大模型提出了自监督、图像分类和多模态等多种训练方法,显著提升了模型的通用能力。如何针对容量有限的轻量级模型设计更有效的训练方式,还需要进一步的研究和探索。微软亚洲研究院的研究员们将不断推进轻量级预训练视觉模型的科研进展,也欢迎更多科技同仁共同交流、探索该领域的相关技术。


参考文献


[1] Rethinking and Improving Relative Position Encoding for Vision Transformer, ICCV 2021.
[2] MiniViT: Compressing Vision Transformers with Weight Multiplexing, CVPR 2022.
[3] Cyclic Differentiable Architecture Search, TPAMI 2022.
[4] AutoFormer: Searching Transformers for Visual Recognition, ICCV 2021.
[5] Searching the Search Space of Vision Transformer, NeurIPS 2021.
[6] TinyViT: Fast Pretraining Distillation for Small Vision Transformers, ECCV 2022.

本文作者:彭厚文,延浩然,李弼翀,傅建龙,魏思宁
让爱飞翔 发表于 2023-10-26 23:55:18|来自:中国 | 显示全部楼层
首先,我的回答更多地面向较为junior的研究者,也就是还没有找到自己长期方向的学生。为了方便,以下简称为科研新手。
我接触过不少科研新手。平时与他们聊天的时候,也时常感受到大家的迷茫:一方面觉得CV甚至整个AI都内卷得厉害,似乎自己一天不科研就落后了一大截;另一方面,又难以找到一个值得长期坚持的方向,感觉大部分研究都是在灌水。同时,由于身处工业界,我也接触到不少实际需求,切身地感觉到大部分CV算法在落地上的困难性。结合这些背景,我给出以下两个判断:

  • 深度学习爆发十年以后,CV领域的发展正进入一个也许比想象更大的瓶颈期。要想走出这个瓶颈,必须依靠系统级别的新框架(上一个例子是深度神经网络)——除此以外,即使是最为smart的idea(像是GAN这样的顶级脑洞)也不会有很大的作用。
  • 单从CV来看,学术界和工业界的脱节现象日趋严重。学术界在推进backbone的基础上,日渐沉迷于各种固化的setting,但是大部分setting在实际应用中并没有太大的作用。以题主首先提到的小样本为例:工业界确实也存在小样本问题,但是最有效的解决方案往往不是像学术界那样构建各种精巧而难以通用的算法,而是想尽办法再收集一些样本。
以下说说我个人的拙见。探索第一类问题,要靠长期的坚持和投入。而在大数据和大算力时代,这种投入的资源量往往很大,因此也往往需要大佬来领衔。新手们如果没有兜底措施,贸然投入容易掉进深坑。而解决第二类问题,则需要学术界和工业界的长期磨合,比如建立一套系统而完整的标注规范,比如让客户理解AI的基础能力,既不要过分乐观也不要过于排斥。
这个提问主要是针对第一类问题。我提供两个方面的看法。一方面,略带悲观地说,新手们如果没有得到良好的指导,那么投入哪个方向都会比较危险;而另一方面,这也意味着新手们投入哪个方向的区别不是非常大。如果想要在若干年后找个算法岗的工作,那么首先看懂深度学习的框架,积累一些调参经验,平时多涉猎些不同子领域的文章,至少知道什么任务能做什么任务还很难做,基础的做法是什么——达到这个标准,就已经超过90%的CV从业者了,如果在某个子领域能够有一些独到的研究,那就更好。至于是哪个子领域,或许不那么重要,因为研究的方法论是相通的。归根结底,研究的目的除了求解某个特定的问题,也包括学会方法论。
最后,说到比较重要的问题,我还是引用自己先前的回答。
2021年深度学习哪些方向比较新颖,处于上升期或者朝阳阶段,没那么饱和,比较有研究潜力?水平所限,提出的问题既不全面也可能比较粗浅;同时,这些课题可能不适合新手独立探索。顺便,上述回答写于半年前,而几乎可以照搬到现在。可以预见,如果没有根本性的突破,在明年、后年年底,我们只要把这个问题的数字修改一下,答案依旧可以继续使用。
但愿不要这样吧:)
foxfly 发表于 2023-10-26 23:56:08|来自:中国 | 显示全部楼层
目前想到的有如下方向,排名不分先后,欢迎大家讨论。

  • 自监督:以MAE,BEiT为代表的基于MASK方式的自监督训练策略在分类任务上取得明显提升。如何继续提升基于MASK的自监督性能和效率,以及如何把MAE相关工作拓展到其他任务上(比如检测,分割)应该后续会有不少工作。
  • 多模态:CLIP证明了多模态预训练模型在多个任务上的显著的性能优势。后续基于CLIP出现了不少多模态或者视觉预训练模型,如何提升多模态预训练的性能和效率目前受到广泛关注。同时,如何把多模态预训练模型应用的下游任务也是不错的研究方向,现在已经有把CLIP应用到detection, segmentation,caption,VLN等。
  • 3D:元宇宙(AR/VR)和自动驾驶最近非常火。与元宇宙相关的研究方向比如NERF,数字人等(比如talking face)。与自动驾驶相关的研究方向比如基于点云的检测/跟踪,点云+RGB多模态融合等
  • 安全:模型鲁棒性,对抗攻击,防御等

Improved CLIP
RegionCLIP: RegionCLIP: Region-based Language-Image Pretraining
ZeroVL: ZeroVL: A Strong Baseline for Aligning Vision-Language Representations with Limited Resources
CLIP+downstream tasks:
CLIP+seg+det: DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting
CLIP+cap: ClipCap: CLIP Prefix for Image Captioning
CLIP+refer seg: CRIS: CLIP-Driven Referring Image Segmentation
CLIP+style: StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
CLIP+nerf: Zero-Shot Text-Guided Object Generation with Dream Fields
CLIP+open vocabulary: OPEN-VOCABULARY OBJECT DETECTION VIA VISION AND LANGUAGE KNOWLEDGE DISTILLATION Towards Open Vocabulary Object Detection without Human-provided Bounding Boxes
CLIP+point cloud: PointCLIP: Point Cloud Understanding by CLIP
CLIP+grounding: Grounded Language-Image Pre-training
CLIP+adapter: Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling
CLIP+video: Prompting Visual-Language Models for Efficient Video Understanding
CLIP+lite: CLIP-Lite: Information Efficient Visual Representation Learning from Textual Annotations
后续持续更新,欢迎大家贡献
joeme 发表于 2023-10-26 23:57:01|来自:中国 | 显示全部楼层
序:作为一个长期从事计算机视觉工作的从业人员,也一直在进行计算机视觉底层算法研究。结合多年来的从业经历及科研经历,总结一下2021年计算机视觉领域的技术进展,同时对2022年计算机视觉的热门技术阐述个人的观点。
1. 工业界:对学术研究提出需求

2021年业界最火的两个概念:自动驾驶与元宇宙,这两个概念可能代表了未来一年甚至更久的一个行业走向。因此,工业界对学术界的需求在接下来一段时间大概率是基于自动驾驶与元宇宙的,这将是学术界的研究热点。分析自动驾驶及元宇宙的一些主要组件及底层技术,如图1所示。



图1 自动驾驶及元宇宙的主要组件及底层技术

可以推出学术界计算机视觉相关的研究热点如下:
(1)建图技术:三维重建技术,包括SLAM、定位、建图、更新等技术;
(2)点云理解技术:三维理解技术,包括点云检测、分割等技术;
(3)街景理解技术:街景图像视频识别、检测、分割等技术;
(4)三维渲染技术。
2. 学术界:自驱的学术研究

分析学术界的研究热点,这里重点以计算机视觉顶级会议CVPR 2021及ICCV 2021为例(2021年没有ECCV,相应的顶级期刊时效性可能没有会议快,因此均暂不分析),分析相应主题的论文接收情况。
CVPR 2021及ICCV 2021的关键字云图及对应文章数量如图2和图3所示。



图2 CVPR 2021(上)及ICCV 2021(下)关键云图



图3 CVPR 2021(左)及ICCV 2021(右)关键字对应文章数量排序(前50)

可以看出:

  • CVPR 2021前五的研究热点是:detection, 3d, segmegmentation, video, representation learning;
  • ICCV 2021前五的研究热点是:video, 3d, detection, segmentation, representation learning和transformer。
有个重点趋势可以发现:transformer相关文章从CVPR到ICCV不到半年时间增长非常明显(35篇->94篇)。

基于个人在计算机视觉领域的长期论文跟踪,2021年CV圈较火的研究点集中在两点:

  • 基于transformer的应用问题(包括检测、分割、3D视觉等);
  • 基于self-supervised的应用问题,尤其是transformer。

相应地,计算机视觉在学术界自发(bottom-up)的研究热点可以总结如下:
(4)基于transformer的视觉技术:已有大一统的趋势;
(5)基于self-supervised的无标注视觉技术。
3. 总结一下

接下来的研究热点个人分析主要包括:
面向应用(工业界):
(1)建图技术:三维重建技术,包括SLAM、定位、建图、更新等技术;
(2)点云理解技术:三维理解技术,包括点云检测、分割等技术;
(3)街景理解技术:街景图像视频识别、检测、分割等技术;
(4)三维渲染技术
面向通用(学术界):
(5)基于transformer的视觉技术:已有大一统的趋势;
(6)基于self-supervised的无标注视觉技术
更细致的研究方向就要看个人的taste了,喜欢应用层的研究(工业界需求的)可以更多考虑1-4,喜欢底层研究(偏纯学术路线的)可以更多考虑5-6。如果是发文章的话,以上提到的方向是顶会文章最多的,是最近的研究热点,肯定是相对更容易发表的,但也意味着是竞争最大的,因为很多人都会朝着这几个方向努力。
关于更细分的方向可以直接选择以上其一,也可以将以上1-4与5-6排列组合,例如基于transformer的稀疏重建、基于self-supervised的街景目标跟踪等等。
实际上,计算机视觉每个方向深耕都可以做出不错的工作(例如小样本、多模态、增量学习等),并发表顶会顶刊文章,如果已经有明确自己钟爱且值得深入研究的课题请不要放弃,目前我们看到的热点很多其实最初也是1-2篇颠覆性的文章引领起来的,因此沉下心来做出真正有用有意义solid的工作,这比灌水N篇都值得赞赏。
<hr/>如果日常喜欢跟踪最新前沿论文,可以关注专栏:
arXiv每日更新会每天更新arxiv中计算机视觉相关文章,并进行热点分析、分类及简介。

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则