[IT技术] 有没有大佬说下目前计算机视觉的现状和趋势?

[复制链接]
贝壳 发表于 2023-10-4 20:01:37|来自:北京 | 显示全部楼层 |阅读模式
目前计算机视觉领域相对于目前硬件和技术水平来说目标检测,追踪,分割,VQA到底发展到了什么地步,未来有哪些可以走下去的方向?多模态融合?
全部回复5 显示全部楼层
xiaoling 发表于 2023-10-4 20:01:51|来自:北京 | 显示全部楼层
提到计算机视觉,就不得不提一下Transformer。近一年来,Transformer 在计算机视觉领域所带来的革命性提升,引起了学术界的广泛关注,有越来越多的研究人员投入其中。Transformer 的特点和优势是什么?为什么在计算机领域中 Transformer 可以频频出圈?让我们通过今天的文章来一探究竟吧!

<hr/>“统一性”是很多学科共同追求的目标,例如在物理学领域,科学家们追求的大统一,就是希望用单独一种理论来解释力与力之间的相互作用。人工智能领域自然也存在着关于“统一性”的目标。在深度学习的浪潮中,人工智能领域已经朝着统一性的目标前进了一大步。比如,一个新的任务基本都会遵循同样的流程对新数据进行预测:收集数据,做标注,定义网络结构,训练网络参数。
但是,在人工智能的不同子领域中,基本建模的方式各种各样,并不统一,例如:在自然语言处理(NLP)领域目前的主导建模网络是 Transformer;计算机视觉(CV)领域很长一段时间的主导网络是卷积神经网络(CNN);社交网络领域目前的主导网络则是图网络等。
尽管如此,从2020年年底开始,Transformer 还是在 CV 领域中展现了革命性的性能提升。这就表明 CV 和 NLP 有望统一在 Transformer 结构之下。这一趋势对于两个领域的发展来说有很多好处:1)使视觉和语言的联合建模更容易;2)两个领域的建模和学习经验可以深度共享,从而加快各自领域的进展。
Transformer 在视觉任务中的优异性能

视觉 Transformer 的先驱工作是谷歌在 ICLR 2021 上发表的 ViT [1],该工作把图像分成多个图像块(例如16x16像素大小),并把这些图像块比作 NLP 中的 token。然后直接将 NLP 中的标准 Transformer 编码器应用于这些 “token”,并据此进行图像分类。该工作结合了海量的预训练数据(如谷歌内部3亿图片分类训练库 JFT-300M),在 ImageNet-1K 的 validation 评测集上取得了88.55%的准确率,刷新了该榜单上的纪录。
ViT 应用 Transformer 比较简单直接,因为其没有仔细考虑视觉信号本身的特点,所以它主要适应于图像分类任务,对于区域级别和像素级别的任务并不是很友好,例如物体检测和语义分割等。为此,学术界展开了大量的改进工作。其中,Swin Transformer 骨干网络 [2] 在物体检测和语义分割任务中大幅刷新了此前的纪录,让学术界更加确信 Transformer 结构将会成为视觉建模的新主流
具体而言,在物体检测的重要评测集 COCO 上,Swin Transformer 取得了单模型58.7的 box mAP 和51.1的 mask mAP,分别比此前最好的、没有扩充数据的单模型方法高出了+2.7个点和+2.6个点。此后,通过改进检测框架以及更好地利用数据,基于 Swin Transformer 网络的方法性能进一步取得了61.3的 box mAP 和53.0的 mask mAP,累计提升达+5.3 box mAP 和+5.5 mask mAP。在语义分割的重要评测数据集 ADE20K 上,Swin Transformer 也取得了显著的性能提升,达到了53.5 mIoU,比此前最好的方法高出+3.2 mIoU,此后随着分割框架和训练方法的进一步改进,目前已达到57.0 mIoU 的性能。




图1:历年 COCO 物体检测评测集上的纪录

除了在物体检测和语义分割任务上表现亮眼外,基于 Swin Transformer 骨干网络的方法在众多视觉任务中也取得了优异的成绩,如视频动作识别 [3]、视觉自监督学习 [4][5]、图像复原 [6]、行人 Re-ID [7]、医疗图像分割 [8]等。
Swin Transformer 的主要思想是将具有很强建模能力的 Transformer 结构和重要的视觉信号先验结合起来。这些先验具有层次性(Hierarchy)、局部性(locality)以及平移不变性的特点(translation invariance)。Swin Transformer 的一个重要设计是移位的不重叠窗口(shifted windows),不同于传统的滑动窗,不重叠窗口的设计对硬件实现更加友好,从而具有更快的实际运行速度。如图2(左)所示,在滑动窗口设计中,不同的点采用了不同的邻域窗口来计算相互关系,这种计算对硬件并不友好。而如图2(右)所示,Swin Transformer 使用的不重叠窗口中,统一窗口内的点将采用相同的邻域来进行计算,对速度更友好。实际测试表明,非重叠窗口方法的速度比滑动窗口方法快了2倍左右。在两个连续的层中还做了移位的操作。在 L 层中,窗口分区从图像的左上角开始;在 L+1 层中,窗口划分则往右下移动了半个窗口。这样的设计保证了不重叠的窗口间可以有信息的交换。



图2:传统的滑动窗口方法(左),由于不同的查询所用到的关键字集合不同,其对存储的访问不太友好,实际运行速度较慢。移位的不重叠窗口方法(右),由于不同的查询共享关键字集合,所以实际运行速度更快,从而更实用。

在过去的大半年中,学术界视觉 Transformer 还涌现了大量变种,包括 DeiT [9],LocalViT [10],Twins [11],PvT [12],T2T-ViT [13], ViL [14],CvT [15],CSwin [16],Focal Transformer [17],Shuffle Transformer [18] 等。


拥抱 Transformer 的五个理由

除了刷新很多视觉任务的性能纪录以外,视觉 Transformer 还拥有诸多好处。事实上,过去4年间学术界不断挖掘出了 Transformer 建模的各种优点,可以总结为图3所示的五个方面。



图3:过去4年学术界不断挖掘出的 Transformer 建模的五个优点

理由1:通用的建模能力

Transformer 的通用建模能力来自于两个方面:一方面 Transformer 可以看作是一种图建模方法。图是全连接的,节点之间的关系通过数据驱动的方式来学习得到。由于任意概念(无论具体或抽象)都可以用图中的节点来表示,且概念之间的关系可以用图上的边来刻画,因此 Transformer 建模具有很强的通用性。
另一方面,Transformer 通过验证的哲学来建立图节点之间的关系,具有较好的通用性:无论节点多么异构,它们之间的关系都可以通过投影到一个可以比较的空间里计算相似度来建立。如图4(右)所示,节点可以是不同尺度的图像块,也可以是“运动员”的文本输入,Transformer 均可以刻画这些异构节点之间的关系。




图4:促成 Transformer 通用建模能力的两大原因:图建模(左)和验证哲学(右)

正是因为具备这样的通用建模能力,Transformer 中的注意力单元可以被应用到各种各样的视觉任务中。具体而言,计算机视觉处理的对象主要涉及两个层次的基本元素:像素和物体。而计算机视觉所涉及到的任务主要就囊括了这些基本元素之间的关系,包括像素-像素,物体-像素和物体-物体的关系建模。此前,前两种关系建模主要是分别由卷积和 RoIAlign 来实现的,最后一种关系通常没有很好的建模方法。但是,Transformer 中的注意力单元因其通用的建模能力,可以被应用到所有这些基本关系的建模中。
近些年,在这个领域中已经出现了很多代表性的工作,例如:1) 非局部网络 [19]。王小龙等人将注意力单元用于建模像素-像素的关系,证明了 Transformer 可以帮助视频动作分类和物体检测等任务。元玉慧等人将其应用于语义分割问题,也取得了显著的性能提升[20]。2)物体关系网络 [21]。注意力单元用于物体检测中的物体关系建模,这一模块也被广泛应用于视频物体分析中 [22, 23, 24]。3)物体和像素的关系建模,典型的工作包括 DETR [25],LearnRegionFeat [26],以及 RelationNet++ [27]等。



图5:Transformer 能被应用于各种视觉基本元素之间的关系建模,包括像素-像素(左),物体-像素(中),物体-物体(右)

理由2:和卷积形成互补

卷积是一种局部操作,一个卷积层通常只会建模邻域像素之间的关系。Transformer 则是全局操作,一个 Transformer 层能建模所有像素之间的关系,双方可以很好地进行互补。最早将这种互补性联系起来的是非局部网络 [19],在这个工作中,少量 Transformer 自注意单元被插入到了原始网络的几个地方,作为卷积网络的补充,并被证明其在物体检测、语义分割和视频动作识别等问题中广泛有效。
此后,也有工作发现非局部网络在视觉中很难真正学到像素和像素之间的二阶关系 [28],为此,有研究员们也提出了一些针对这一模型的改进,例如解耦非局部网络 [29]。
理由3:更强的建模能力

卷积可以看作是一种模板匹配,图像中不同位置采用相同的模板进行滤波。而 Transformer 中的注意力单元则是一种自适应滤波,模板权重由两个像素的可组合性来决定,这种自适应计算模块具有更强的建模能力。
最早将 Transformer 这样一种自适应计算模块应用于视觉骨干网络建模的方法是局部关系网络 LR-Net [30] 和 SASA [31],它们都将自注意的计算限制在一个局部的滑动窗口内,在相同理论计算复杂度的情况下取得了相比于 ResNet 更好的性能。然而,虽然理论上与 ResNet 的计算复杂度相同,但在实际使用中它们却要慢得多。一个主要原因是不同的查询(query)使用不同的关键字(key)集合,如图2(左)所示,对内存访问不太友好。  
Swin Transformer 提出了一种新的局部窗口设计——移位窗口(shifted windows)。这一局部窗口方法将图像划分成不重叠的窗口,这样在同一个窗口内部,不同查询使用的关键字集合将是相同的,进而可以拥有更好的实际计算速度。在下一层中,窗口的配置会往右下移动半个窗口,从而构造了前一层中不同窗口像素间的联系。
理由4:对大模型和大数据的可扩展性

在 NLP 领域,Transformer 模型在大模型和大数据方面展示了强大的可扩展性。图6中,蓝色曲线显示近年来 NLP 的模型大小迅速增加。大家都见证了大模型的惊人能力,例如微软的 Turing 模型、谷歌的 T5 模型以及 OpenAI 的 GPT-3 模型。
视觉 Transformer 的出现为视觉模型的扩大提供了重要的基础,目前最大的视觉模型是谷歌的150亿参数 ViT-MoE 模型 [32],这些大模型在 ImageNet-1K 分类上刷新了新的纪录。



图6:NLP 领域和计算机视觉领域模型大小的变迁

理由5:更好地连接视觉和语言

在以前的视觉问题中,科研人员通常只会处理几十类或几百类物体类别。例如 COCO 检测任务中包含了80个物体类别,而 ADE20K 语义分割任务包含了150个类别。视觉 Transformer 模型的发明和发展,使视觉领域和 NLP 领域的模型趋同,有利于联合视觉和 NLP 建模,从而将视觉任务与其所有概念联系起来。这方面的先驱性工作主要有 OpenAI 的 CLIP [33] 和 DALL-E 模型 [34]。
考虑到上述的诸多优点,相信视觉 Transformer 将开启计算机视觉建模的新时代,我们也期待学术界和产业界共同努力,进一步挖掘和探索这一新的建模方法给视觉领域带来的全新机遇和挑战。



参考文献:
[1] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021
[2] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. ICCV 2021
[3] Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin, Han Hu. Video Swin Transformer. Tech report 2021
[4] Zhenda Xie, Yutong Lin, Zhuliang Yao, Zheng Zhang, Qi Dai, Yue Cao, Han Hu. Self-Supervised Learning with Swin Transformers. Tech report 2021
[5] Chunyuan Li, Jianwei Yang, Pengchuan Zhang, Mei Gao, Bin Xiao, Xiyang Dai, Lu Yuan, Jianfeng Gao. Efficient Self-supervised Vision Transformers for Representation Learning. Tech report 2021
[6] Jingyun Liang, Jiezhang Cao, Guolei Sun, Kai Zhang, Luc Van Gool, Radu Timofte. SwinIR: Image Restoration Using Swin Transformer. Tech report 2021
[7] https://github.com/layumi/Person_reID_baseline_pytorch
[8] Hu Cao, Yueyue Wang, Joy Chen, Dongsheng Jiang, Xiaopeng Zhang, Qi Tian, Manning Wang. Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation. Tech report 2021
[9] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Hervé Jégou. Training data-efficient image transformers & distillation through attention. Tech report 2021
[10] Yawei Li, Kai Zhang, Jiezhang Cao, Radu Timofte, Luc Van Gool. LocalViT: Bringing Locality to Vision Transformers. Tech report 2021
[11] Xiangxiang Chu, Zhi Tian, Yuqing Wang, Bo Zhang, Haibing Ren, Xiaolin Wei, Huaxia Xia, Chunhua Shen. Twins: Revisiting the Design of Spatial Attention in Vision Transformers. Tech report 2021
[12] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao. Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions. ICCV 2021
[13] Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Zihang Jiang, Francis EH Tay, Jiashi Feng, Shuicheng Yan. Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet. Tech report 2021
[14] Pengchuan Zhang, Xiyang Dai, Jianwei Yang, Bin Xiao, Lu Yuan, Lei Zhang, Jianfeng Gao. Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding. Tech report 2021
[15] Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu, Xiyang Dai, Lu Yuan, Lei Zhang. CvT: Introducing Convolutions to Vision Transformers. ICCV 2021
[16] Xiaoyi Dong, Jianmin Bao, Dongdong Chen, Weiming Zhang, Nenghai Yu, Lu Yuan, Dong Chen, Baining Guo. CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows. Tech report 2021
[17] Jianwei Yang, Chunyuan Li, Pengchuan Zhang, Xiyang Dai, Bin Xiao, Lu Yuan, Jianfeng Gao. Focal Self-attention for Local-Global Interactions in Vision Transformers. Tech report 2021
[18] Zilong Huang, Youcheng Ben, Guozhong Luo, Pei Cheng, Gang Yu, Bin Fu. Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer. Tech report 2021
[19] Xiaolong Wang, Ross Girshick, Abhinav Gupta, Kaiming He. Non-local Neural Networks. CVPR 2018
[20] Yuhui Yuan, Lang Huang, Jianyuan Guo, Chao Zhang, Xilin Chen, Jingdong Wang. OCNet: Object Context for Semantic Segmentation. IJCV 2021
[21] Han Hu, Jiayuan Gu, Zheng Zhang, Jifeng Dai, Yichen Wei. Relation Networks for Object Detection. CVPR 2018
[22] Jiarui Xu, Yue Cao, Zheng Zhang, Han Hu. Spatial-Temporal Relation Networks for Multi-Object Tracking. ICCV 2019
[23] Yihong Chen, Yue Cao, Han Hu, Liwei Wang. Memory Enhanced Global-Local Aggregation for Video Object Detection. CVPR 2020
[24] Jiajun Deng, Yingwei Pan, Ting Yao, Wengang Zhou, Houqiang Li, and Tao Mei. Relation distillation networks for video object detection. ICCV 2019
[25] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko. End-to-End Object Detection with Transformers. ECCV 2020
[26] Jiayuan Gu, Han Hu, Liwei Wang, Yichen Wei, Jifeng Dai. Learning Region Features for Object Detection. ECCV 2018
[27] Cheng Chi, Fangyun Wei, Han Hu. RelationNet++: Bridging Visual Representations for Object Detection via Transformer Decoder. NeurIPS 2020
[28] Yue Cao, Jiarui Xu, Stephen Lin, Fangyun Wei, Han Hu. GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond. ICCV workshop 2019
[29] Minghao Yin, Zhuliang Yao, Yue Cao, Xiu Li, Zheng Zhang, Stephen Lin, Han Hu. Disentangled Non-Local Neural Networks. ECCV 2020
[30] Han Hu, Zheng Zhang, Zhenda Xie, Stephen Lin. Local Relation Networks for Image Recognition. ICCV 2019
[31] Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya, Jonathon Shlens. Stand-Alone Self-Attention in Vision Models. NeurIPS 2019
[32] Carlos Riquelme, Joan Puigcerver, Basil Mustafa, Maxim Neumann, Rodolphe Jenatton, André Susano Pinto, Daniel Keysers, Neil Houlsby. Scaling Vision with Sparse Mixture of Experts. Tech report 2021
[33] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever. Learning Transferable Visual Models from Natural Language Supervision. Tech report 2021
[34] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever. Zero-Shot Text-to-Image Generation. Tech report 2021


<hr/>除此之外,微软亚洲研究院也一直致力于计算机视觉研究,快看看我们最近做的研究吧!更多内容,欢迎关注“微软亚洲研究院”知乎号和“微软研究院AI头条”微信号~

NeurIPS 2021 | 物体检测与分割的零标签视觉学习
ICCV 2021 | 带你了解微软亚洲研究院CV领域前沿进展
TrOCR:基于Transformer的新一代光学字符识别
ACL 2021 | 时空可控的图片描述生成
taihom 发表于 2023-10-4 20:02:10|来自:北京 | 显示全部楼层
个人混于工业界互联网,学术的就不表了。说说所了解的工业、应用和落地。
基于深度学习的计算机视觉现状:

  • 主要还是基于数据驱动,模型迁移、泛化差,俗称“人工智障”,“有多少数据就有多少智能”;
  • 关键问题基本在于数据问题,少、脏;
  • 算法工程师们天天分析badcase,给模型加约束,加策略,洗数据,做特征;
所以,趋势当然应该是当前很火的自监督、无监督、少样本研究。像transformer这种论文界宠儿短期内不会被广泛应用于落地。还是resnet backbone香。
<hr/>计算机视觉主要是分类检测分割生成等;这里,由于个人对GAN生成比较感兴趣,刚好也汇总了CVPR 2021的GAN论文,于此也做个分享:
生成对抗网络GAN:【CVPR 2021】110篇GAN论文汇总梳理生活不止有枸杞,还有深度学习GAN和远方另,GAN一直被诟病是灌水论文重灾区,甚至让不少所谓的学者谈GAN色变。其实,GAN作为一种思路,真得极其优美强大,鄙人非常坚信其未来之无穷潜力。希望越来越多的真大佬加入到GAN的研究中,早日彻底攻克精准可控生成可解释性生成的难题。
戳我,查看GAN的系列专辑~!

  • 1 年龄迁移
  • 2 发型迁移
  • 3 妆容迁移
  • 4 虚拟试衣
  • 5 姿势迁移、人像合成
  • 6 颜色控制
  • 7 说话人驱动
  • 8 人脸编辑
  • 9 人脸识别
  • 10 新视图生成
  • 11 表征学习
  • 12 解耦学习
  • 13 主动学习
  • 14 终身学习
  • 15 迁移学习
  • 16 少样本学习
  • 17 单样本训练
  • 18 多样化生成
  • 19 多模态生成
  • 20 新视图生成
  • 21 行人重识别
  • 22 人体运动合成
  • 23 字体生成
  • 24 仿真
  • 25 医学图像
  • 26 GAN的改进
  • 27 结合VAE
  • 28 结合transformer
  • 29 模型压缩
  • 30 散焦模糊检测
  • 31 图像恢复、超分
  • 32 图像去雨
  • 33 图像修复
  • 34 图像拼接融合
  • 35 图像阴影
  • 36 图像协调
  • 37 图像分割
  • 38 图像分类
  • 39 图像转换
  • 40 3D相关
GAN整整6年了!是时候要来捋捋了!

  • GAN公式简明原理之铁甲小宝篇
  • 【实习面经】GAN生成式算法岗一面
  • 盘点GAN在目标检测中的应用
  • 数百篇GAN论文已下载好!搭配一份生成对抗网络最新综述!
  • 新手指南综述 | GAN模型太多,不知道选哪儿个?
  • 语义金字塔式-图像生成:一种使用分类模型特征的方法
  • 拆解组新的GAN:解耦表征MixNMatch
  • CVPR 2020 | StarGAN第2版:多域多样性图像生成
  • CVPR 2020 | 11篇GAN图像转换img2img 的论文
  • CVPR2020之MSG-GAN:简单有效的SOTA?
  • CVPR2020之姿势变换GAN
  • CVPR2020之多码先验GAN:预训练好的模型怎么使用?
  • 两幅图像!这样能训练好 GAN 做图像转换吗?
  • 经典GAN不得不读:StyleGAN
一、年龄迁移


  • 1,Continuous Face Aging via Self-estimated Residual Age Embedding
二、发型迁移


  • 2,LOHO: Latent Optimization of Hairstyles via Orthogonalization https://github.com/dukebw/LOHO
三、妆容迁移


  • 3,Spatially-invariant Style-codes Controlled Makeup Transfer https://github.com/makeuptransfer/SCGAN
  • 4,Lipstick ain’t enough: Beyond Color Matching for In-the-Wild Makeup Transfer https://github.com/VinAIResearch/CPM
四、虚拟试衣


  • 5,Disentangled Cycle Consistency for Highly-realistic Virtual Try-On
  • 6,VITON-HD: High-Resolution Virtual Try-On via Misalignment-Aware Normalization
五、姿势迁移、人像合成


  • 7,HumanGAN: A Generative Model of Human Images
  • 8,MUST-GAN: Multi-level Statistics Transfer for Self-driven Person Image Generation
  • 9,PISE: Person Image Synthesis and Editing with Decoupled GAN
六、颜色控制


  • 10,HistoGAN: Controlling Colors of GAN-Generated and Real Images via Color Histograms https://github.com/mahmoudnafifi/HistoGAN HistoGAN
七、说话人驱动


  • 11,Audio-Driven Emotional Video Portraits
  • 12,Everything’s Talkin’: Pareidolia Face Reenactment
  • 13,Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation
  • 14,One-Shot Free-View Neural Talking-Head Synthesis for Video Conferencing
  • 15,Flow-guided One-shot Talking Face Generation with a High-resolution Audio-visual Dataset
八、人脸图像编辑


  • 16,Exploiting Spatial Dimensions of Latent in GAN for Real-time Image Editing https://github.com/naver-ai/StyleMapGAN
  • 17,High-Fidelity and Arbitrary Face Editing
  • 18,Hijack-GAN: Unintended-Use of Pretrained, Black-Box GANs https://github.com/a514514772/hijackgan
  • 19,Linear Semantics in Generative Adversarial Networks https://github.com/AtlantixJJ/LinearGAN
  • 20,DeFLOCNet: Deep Image Editing via Flexible Low-level Controls https://github.com/KumapowerLIU/DeFLOCNet
  • 21,L2M-GAN: Learning to Manipulate Latent Space Semantics for Facial Attribute Editing
  • 22,One Shot Face Swapping on Megapixels
九、人脸识别


  • 23、A 3D GAN for Improved Large-pose Facial Recognition
  • 24、When Age-Invariant Face Recognition Meets Face Age Synthesis: A Multi-Task Learning Framework https://github.com/Hzzone/MTLFace
十、新视图生成


  • 25、Coming Down to Earth: Satellite-to-Street View Synthesis for Geo-Localization
  • 26、Layout-Guided Novel View Synthesis from a Single Indoor Panorama https://github.com/bluestyle97/PNVS
  • 27、ID-Unet: Iterative Soft and Hard Deformation for View Synthesis https://github.com/MingyuY/ Iterative-view-synthesis
十一、表征学习


  • 28、Generative Hierarchical Features from Synthesizing Images https://genforce.github.io/ghfeat/
十二、解耦学习


  • 29,Smoothing the Disentangled Latent Style Space for Unsupervised Image-to-Image Translation
  • 30,Surrogate Gradient Field for Latent Space Manipulation
  • 31,StyleSpace Analysis: Disentangled Controls for StyleGAN Image Generation
  • 32,Unsupervised Disentanglement of Linear-Encoded Facial Semantics
十三、主动学习


  • 33、Task-Aware Variational Adversarial Active Learning
十四、终身学习


  • 34、Hyper-LifelongGAN: Scalable Lifelong Learning for Image Conditioned Generation
十五、迁移学习


  • 35、Visualizing Adapted Knowledge in Domain Transfer https://github.com/houyz/DA_visualization
  • 36、Efficient Conditional GAN Transfer with Knowledge Propagation across Classes https://github.com/mshahbazi72/cGANTransfer
十六、少样本学习


  • 37,Few-shot Image Generation via Cross-domain Correspondence
十七、半监督学习


  • 38、Mask-Embedded Discriminator with Region-based Semantic Regularization for Semi-Supervised Class-Conditional Image Synthesis
  • 39、DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort
十八、单样本训练


  • 40,Learning to Generate Novel Scene Compositions from Single Images and Videos
  • 41,IMAGINE: Image Synthesis by Image-Guided Model Inversion
十九、多样化生成


  • 42,DivCo: Diverse Conditional Image Synthesis via Contrastive Generative Adversarial Network https://github.com/ruiliu-ai/DivCo
  • 43,Diverse Semantic Image Synthesis via Probability Distribution Modeling https://github.com/tzt101/INADE.git
二十、多模态生成


  • 44,Navigating the GAN Parameter Space for Semantic Image Editing
  • 45,Context-Aware Layout to Image Generation with Enhanced Object Appearance https://github.com/wtliao/layout2img
  • 46,House-GAN++: Generative Adversarial Layout Refinement Network towards Intelligent Computational Agent for Professional Architects https://ennauata.github.io/houseganpp/page.html
  • 47,TediGAN: Text-Guided Diverse Image Generation and Manipulation https://github.com/weihaox/TediGAN
  • 48、Semantic Palette: Guiding Scene Generation with Class Proportions
  • 49、StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis
二十一、行人重识别


  • 50、 Joint Generative and Contrastive Learning for Unsupervised Person Re-identification https://github.com/chenhao2345/GCL
二十二、人体运动合成


  • 51、 Single-Shot Freestyle Dance Reenactment
  • 52、 Scene-aware Generative Network for Human Motion Synthesis
二十三、字体生成


  • 53、DG-Font: Deformable Generative Networks for Unsupervised Font Generation https://github.com/ecnuycxie/DG-Font
二十四、仿真


  • 54、DriveGAN: Towards a Controllable High-Quality Neural Simulation
二十五、医学图像


  • 55、GAN-Based Data Augmentation and Anonymization for Skin-Lesion Analysis: A Critical Review
二十六、GAN的改进


  • 56,Directional GAN: A Novel Conditioning Strategy for Generative Networks
  • 57,Image Generators with Conditionally-Independent Pixel Synthesis
  • 58,Efficient Feature Transformations for Discriminative and Generative Continual Learning
  • 59,A Sliced Wasserstein Loss for Neural Texture Synthesis
  • 60,Regularizing Generative Adversarial Networks under Limited Data https://github.com/google/lecam-gan
  • 61,Training Generative Adversarial Networks in One Stage
  • 62,Posterior Promoted GAN with Distribution Discriminator for Unsupervised Image Synthesis
  • 63、Adversarial Generation of Continuous Images https://universome.github.io/inr-gan
  • 64,Partition-Guided GANs
  • 65,Positional Encoding as Spatial Inductive Bias in GANs
二十七、结合VAE


  • 66,Dual Contradistinctive Generative Autoencoder
  • 67,Soft-IntroVAE: Analyzing and Improving the Introspective Variational Autoencoder https://taldatech.github.io/soft-introvae-web
二十八、结合transformer


  • 68,Taming Transformers for High-Resolution Image Synthesis https://git.io/JLlvY
二十九、模型压缩


  • 69,Anycost GANs for Interactive Image Synthesis and Editing https://github.com/mit-han-lab/anycost-gan
  • 70,Content-Aware GAN Compression
三十、散焦模糊检测


  • 71,Self-generated Defocus Blur Detection via Dual Adversarial Discriminators https://github.com/shangcai1/SG
三十一、图像恢复、超分


  • 72,GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution
  • 73,GAN Prior Embedded Network for Blind Face Restoration in the Wild https://github.com/yangxy/GPEN
  • 74,Progressive Semantic-Aware Style Transformation for Blind Face Restoration
三十二、图像去雨


  • 75,Closing the Loop: Joint Rain Generation and Removal via Disentangled Image Translation
  • 76,From Rain Generation to Rain Removal https://github.com/hongwang01/VRGNet
三十三、图像修复


  • 77,Generating Diverse Structure for Image Inpainting With Hierarchical VQ-VAE https://github.com/USTC-JialunPeng/Diverse-Structure-Inpainting
  • 78,Image Inpainting with External-internal Learning and Monochromic Bottleneck https://github.com/Tengfei-Wang/external-internal-inpainting
  • 79,Image Inpainting Guided by Coherence Priors of Semantics and Textures
  • 80,PD-GAN: Probabilistic Diverse GAN for Image Inpainting https://github.com/KumapowerLIU/PD-GAN
三十四、图像拼接融合


  • 81,Bridging the Visual Gap: Wide-Range Image Blending
三十五、图像阴影


  • 82,Towards High Fidelity Face Relighting with Realistic Shadows
  • 83,From Shadow Generation to Shadow Removal
三十六、图像协调


  • 84,Intrinsic Image Harmonization https://github.com/zhenglab/IntrinsicHarmony
  • 85,Region-aware Adaptive Instance Normalization for Image Harmonization https://github.com/junleen/RainNe
三十七、图像分割


  • 86,Repurposing GANs for One-shot Semantic Part Segmentation https://RepurposeGANs.github.io/
  • 87,Semantic Segmentation with Generative Models: Semi-Supervised Learning and Strong Out-of-Domain Generalization https://nvtlabs.github.io/semanticGAN/
三十八、图像分类


  • 88,Ensembling with Deep Generative Views
三十九、图像转换


  • 89,Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation https://github.com/eladrich/pixel2style2pixel
  • 90,Image-to-image Translation via Hierarchical Style Disentanglement https://github.com/imlixinyang/HiSD
  • 91,Memory-guided Unsupervised Image-to-image Translation
  • 92,ReMix: Towards Image-to-Image Translation with Limited Data
  • 93,Spatially-Adaptive Pixelwise Networks for Fast Image Translation
  • 94,The Spatially-Correlative Loss for Various Image Translation Tasks https://github.com/lyndonzheng/F-LSeSim
  • 95,CoCosNet v2: Full-Resolution Correspondence Learning for Image Translation
  • 96,BalaGAN: Cross-Modal Image Translation Between Imbalanced Domains
  • 97,Model-Aware Gesture-to-Gesture Translation
  • 98,Saliency-Guided Image Translation
  • 99,Teachers Do More Than Teach: Compressing Image-to-Image Models https://github.com/snap-research/CAT
  • 100,Not just Compete, but Collaborate: Local Image-to-Image Translation via Cooperative Mask Prediction
  • 101,Smoothing the Disentangled Latent Style Space for Unsupervised Image-to-Image Translation
  • 102,CoMoGAN: continuous model-guided image-to-image translation https://github.com/cv-rits/CoMoGAN
  • 103,Unbalanced Feature Transport for Exemplar-based Image Translation
  • 104,Unpaired Image-to-Image Translation via Latent Energy Transport https://github.com/YangNaruto/latentenergy-transport
四十、3D相关


  • 105,DECOR-GAN: 3D Shape Detailization by Conditional Refinement https://github.com/czq142857/DECOR-GAN
  • 106,Inverting Generative Adversarial Renderer for Face Reconstruction
  • 107,Normalized Avatar Synthesis Using StyleGAN and Perceptual Refinement
  • 108,A 3D GAN for Improved Large-pose Facial Recognition
  • 109,pi-GAN: Periodic Implicit Generative Adversarial Networks for 3D-Aware Image Synthesis
  • 110,StylePeople: A Generative Model of Fullbody Human Avatars http://saic-violet.github.io/style-people
  • 111,Unsupervised 3D Shape Completion through GAN Inversion

  • GAN整整6年了!是时候要来捋捋了!
  • GAN公式简明原理之铁甲小宝篇
  • 【实习面经】GAN生成式算法岗一面
  • 语义金字塔式-图像生成:一种使用分类模型特征的方法
  • 拆解组新的GAN:解耦表征MixNMatch
  • 经典GAN不得不读:StyleGAN
  • CVPR 2020 | StarGAN第2版:多域多样性图像生成
  • CVPR 2020 | 11篇GAN图像转换img2img 的论文
  • CVPR2020之MSG-GAN:简单有效的SOTA?
  • CVPR2020之姿势变换GAN
  • CVPR2020之多码先验GAN:预训练好的模型怎么使用?
  • 两幅图像!这样能训练好 GAN 做图像转换吗?
xzshengli 发表于 2023-10-4 20:02:38|来自:北京 | 显示全部楼层
做学术的话不要秉持浮躁的心态,即使很久之前就被认为做到顶的分类任务依然可以出现self supervision的好工作。每一个方向都值得付出和坚持。当然也欢迎开发新方向,但建议不要为灌水而挖坑。
工业界的话人脸、辅助驾驶都还算比较成熟的。但其它任务大部分只能作为工业系统的一个插件,面临落地难得窘境。倒是可以看看异构计算和CV-VR结合的比较硬核但有意义的方向。
散步人生 发表于 2023-10-4 20:03:07|来自:北京 | 显示全部楼层
某安防行业算法工程师
日常工作最多的就是清理数据,提交标注,增加数据优化模型。
学术界很多的东西几乎很难用的上,因为不仅仅是训练模型,你增加新的结构,例如空洞卷积,得看移植的设备平台是否支持,一个模型要转换到各种平台,所以大部分的时候,为了减少不必要的麻烦,模型都是用最基本的卷积池化和激活操作堆积起来。
而且公司大部分都是业务驱动,安防行业最大的特点就是业务需求杂,碎片化。
基线不是基线,定制满天飞。
今天检测人机非,明天检测鸡鸭狗,这些玩意你说你用什么transformer, detr来解决吗?不现实,还不如我整理数据来的快。
cv工业界80%的问题都是数据问题,还有10%是策略问题,最后10%是学术界也解决不了的问题。
所以,工业界的算法可能和你想象的做研究不太一样,尤其是落地的算法。纯算法研究刷比赛水论文可能比较接近学校的状态。但是又有几个公司能花闲钱养这样的机构。
佳宁 发表于 2023-10-4 20:03:50|来自:北京 | 显示全部楼层
简单说下吧,在计算机视觉领域内也算是摸爬滚打三四年了。自己或组里其他同事检测,分类,OCR,视频,动作都接触过。不过这里更多偏向做业务,不是做学术。
直观的感觉就是现在各个问题算法效果都能出一个baseline,但是调优的空间并不大,更多的时候是靠苦力,比如标数据,清洗数据,badcase分析,写一些保护逻辑,前后处理等。就像学术界几篇无监督MOCO,CLIP等新作,确实很惊艳,但是,比不上我用业务数据训练出来的backbone模型,这个没办法。再说NLP里面bert大火,无论检测,识别,GAN,还是多模态都有论文,也不乏一些惊艳的论文。其中多模态bert我有试,单模型提升也不大,说起来很心塞。辛辛苦苦试了新模型,调整,调优,不一定搞得过写点策略,清洗下数据,说起来后者省时省力,一周就出效果去汇报。
最后谈点看法吧,主要是两点。一个是说技术是技术,产品是产品,技术要依赖产品,而不是我的产品厉害是因为我的视觉算法厉害,这个太难了。技术还是要依赖产品做出口,未必技术登峰造极,这里不单单是计算机视觉了。大家可以看看自己用的最多的软件,有多少是说哪个功能别人做不了呢。还有一点是我刚还是关注的产业AI,不过这块了解不多,希望能做起来吧,感觉是AI最后的希望了。
我是凤舞九天,欢迎大家多多交流~

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则