jbuse 发表于 2023-10-4 19:29:21

2023年计算机视觉有什么可做的新方向?

2023年计算机视觉有什么可做的新方向?

wx520 发表于 2023-10-4 19:29:55

个人比较关注 生成式 这个方向,包括不限于扩散模型diffusion、GAN生成对抗网络等。
生成模型当然远不止于直接用于生成,它们在计算机视觉中各项任务(low-level、high-level、图像理解等等)有着诸多妙用。近段时间,看了一下CVPR 2023,这里列举汇总一下里采用 AIGC 的思路解决 CV任务 的论文吧!
先放个详细介绍的版本,每篇论文都附上了简介、以及代码(如果开源),后面再列个清单list。
AI生成创作:一口气读完 CVPR 2023 最全 AIGC 论文!6万字!30个方向130篇!

[*]1、图像转换/翻译
[*]2、GAN改进/可控
[*]3、可控文生图/定制化文生图
[*]4、图像恢复
[*]5、布局可控生成
[*]6、医学图像
[*]7、人脸相关
[*]8、3D相关
[*]9、deepfake检测
[*]10、图像超分
[*]11、风格迁移
[*]12、去雨去噪去模糊
[*]13、图像分割
[*]14、视频相关
[*]15、对抗攻击
[*]16、扩散模型改进
[*]17、数据增广
[*]18、说话人生成
[*]19、视图合成
[*]20、目标检测
[*]21、人像生成/姿态迁移
[*]22、发型迁移
[*]23、图像修复
[*]24、表征学习/表示学习
[*]25、语音相关
[*]26、域适应/迁移学习
[*]27、知识蒸馏
[*]28、字体生成
[*]29、异常检测
[*]30、数据集
一、图像转换/翻译


[*]1、Masked and Adaptive Transformer for Exemplar Based Image Translation
[*]2、LANIT: Language-Driven Image-to-Image Translation for Unlabeled Data
[*]3、Interactive Cartoonization with Controllable Perceptual Factors
[*]4、LightPainter: Interactive Portrait Relighting with Freehand Scribble
[*]5、Picture that Sketch: Photorealistic Image Generation from Abstract Sketches
[*]6、Few-shot Semantic Image Synthesis with Class Affinity Transfer
二、GAN改进


[*]7、CoralStyleCLIP: Co-optimized Region and Layer Selection for Image Editing
[*]8、Cross-GAN Auditing: Unsupervised Identification of Attribute Level Similarities and Differences between Pretrained Generative Models
[*]9、Efficient Scale-Invariant Generator with Column-Row Entangled Pixel Synthesis
[*]10、Fix the Noise: Disentangling Source Feature for Transfer Learning of StyleGAN
[*]11、Improving GAN Training via Feature Space Shrinkage
[*]12、Look ATME: The Discriminator Mean Entropy Needs Attention
[*]13、NoisyTwins: Class-Consistent and Diverse Image Generation through StyleGANs
[*]14、DeltaEdit: Exploring Text-free Training for Text-Driven Image Manipulation
[*]15、Delving StyleGAN Inversion for Image Editing: A Foundation Latent Space Viewpoint
[*]16、SIEDOB: Semantic Image Editing by Disentangling Object and Background
三、可控文生图/定制化文生图


[*]17、DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
[*]18、Ablating Concepts in Text-to-Image Diffusion Models
[*]19、Multi-Concept Customization of Text-to-Image Diffusion
[*]20、Imagic: Text-Based Real Image Editing with Diffusion Models
[*]21、Shifted Diffusion for Text-to-image Generation
[*]22、SpaText: Spatio-Textual Representation for Controllable Image Generation
[*]23、Scaling up GANs for Text-to-Image Synthesis
[*]24、GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis
[*]25、Variational Distribution Learning for Unsupervised Text-to-Image Generation
四、图像恢复


[*]26、Bitstream-Corrupted JPEG Images are Restorable: Two-stage Compensation and Alignment Framework for Image Restoration
[*]27、Contrastive Semi-supervised Learning for Underwater Image Restoration via Reliable Bank
[*]28、Efficient and Explicit Modelling of Image Hierarchies for Image Restoration
[*]29、Generating Aligned Pseudo-Supervision from Non-Aligned Data forImage Restoration in Under-Display Camera
[*]30、 Learning Semantic-Aware Knowledge Guidance for Low-Light Image Enhancement
[*]31、Refusion: Enabling Large-Size Realistic Image Restoration with Latent-Space Diffusion Model
[*]32、Robust Model-based Face Reconstruction through Weakly-Supervised Outlier Segmentation
[*]33、Robust Unsupervised StyleGAN Image Restoration
五、布局可控生成


[*]34、LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation
[*]35、LayoutDM: Discrete Diffusion Model for Controllable Layout Generation
[*]36、PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout
[*]37、Unifying Layout Generation with a Decoupled Diffusion Model
[*]38、Unsupervised Domain Adaption with Pixel-level Discriminator for Image-aware Layout Generation
六、医学图像


[*]39、High-resolution image reconstruction with latent diffusion models from human brain activity
[*]40、 Leveraging GANs for data scarcity of COVID-19: Beyond the hype
[*]41、Why is the winner the best?
[*]45、Solving 3D Inverse Problems using Pre-trained 2D Diffusion Models
七、人脸相关


[*]46、A Hierarchical Representation Network for Accurate and Detailed Face Reconstruction from In-The-Wild Images
[*]47、DR2: Diffusion-based Robust Degradation Remover for Blind Face Restoration
[*]48、DiffusionRig: Learning Personalized Priors for Facial Appearance Editing
[*]49、Fine-Grained Face Swapping via Regional GAN Inversion
[*]50、SunStage: Portrait Reconstruction and Relighting using the Sun as a Light Stage
八、3D相关


[*]51、3DQD: Generalized Deep 3D Shape Prior via Part-Discretized Diffusion Process
[*]52、Controllable Mesh Generation Through Sparse Latent Point Diffusion Models
[*]53、GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds
[*]54、GINA-3D: Learning to Generate Implicit Neural Assets in the Wild
[*]55、Graphics Capsule: Learning Hierarchical 3D Face Representations from 2D Images
[*]56、HOLODIFFUSION: Training a 3D Diffusion Model using 2D Images
[*]57、Learning 3D-aware Image Synthesis with Unknown Pose Distribution
[*]58、Lift3D: Synthesize 3D Training Data by Lifting 2D GAN to 3D Generative Radiance Field
[*]59、Magic3D: High-Resolution Text-to-3D Content Creation
[*]60、NeuFace: Realistic 3D Neural Face Rendering from Multi-view Images
[*]61、NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models
[*]62、Next3D: Generative Neural Texture Rasterization for 3D-Aware Head Avatars
[*]63、SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation
[*]64、SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation
[*]65、Solving 3D Inverse Problems using Pre-trained 2D Diffusion Models
[*]66、T2M-GPT: Generating Human Motion from Textual Descriptions with Discrete Representations
[*]67、TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision
九、deepfake检测


[*]68、Detecting and Grounding Multi-Modal Media Manipulation
十、图像超分


[*]69、Activating More Pixels in Image Super-Resolution Transformer
[*]70、Denoising Diffusion Probabilistic Models for Robust Image Super-Resolution in the Wild
[*]71、Implicit Diffusion Models for Continuous Super-Resolution
[*]72、Perception-Oriented Single Image Super-Resolution using Optimal Objective Estimation
[*]73、Structured Sparsity Learning for Efficient Video Super-Resolution
[*]74、Super-Resolution Neural Operator
[*]75、Towards High-Quality and Efficient Video Super-Resolution via Spatial-Temporal Data Overfitting
十一、风格迁移


[*]76、CAP-VSTNet: Content Affinity Preserved Versatile Style Transfer
[*]77、Inversion-Based Style Transfer with Diffusion Models
[*]78、Neural Preset for Color Style Transfer
十二、去雨去噪去模糊


[*]79、Learning A Sparse Transformer Network for Effective Image Deraining
[*]80、Masked Image Training for Generalizable Deep Image Denoising
[*]81、Uncertainty-Aware Unsupervised Image Deblurring with Deep Residual Prior
十三、图像分割


[*]82、DiGA: Distil to Generalize and then Adapt for Domain Adaptive Semantic Segmentation
[*]83、Generative Semantic Segmentation
[*]84、Learning to Generate Text-grounded Mask for Open-world Semantic Segmentation from Only Image-Text Pairs
[*]85、Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models
十四、视频相关


[*]86、A Dynamic Multi-Scale Voxel Flow Network for Video Prediction
[*]87、A Unified Pyramid Recurrent Network for Video Frame Interpolation
[*]88、Conditional Image-to-Video Generation with Latent Flow Diffusion Models
[*]89、Diffusion Video Autoencoders: Toward Temporally Consistent Face Video Editing via Disentangled Video Encoding
[*]90、Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation
[*]91、MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation
[*]92、MOSO: Decomposing MOtion, Scene and Object for Video Prediction
[*]93、Text-Visual Prompting for Efficient 2D Temporal Video Grounding
[*]94、Towards End-to-End Generative Modeling of Long Videos with Memory-Efficient Bidirectional Transformers
[*]95、Video Probabilistic Diffusion Models in Projected Latent Space
[*]96、VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation
十五、对抗攻击


[*]97、Adversarial Attack with Raindrops
[*]98、TrojDiff: Trojan Attacks on Diffusion Models with Diverse Targets
十六、扩散模型改进


[*]99、All are Worth Words: A ViT Backbone for Diffusion Models
[*]100、Towards Practical Plug-and-Play Diffusion Models
[*]101、Wavelet Diffusion Models are fast and scalable Image Generators
十七、数据增广


[*]102、DCFace: Synthetic Face Generation with Dual Condition Diffusion Model
[*]103、Leveraging GANs for data scarcity of COVID-19: Beyond the hype
[*]104、Lift3D: Synthesize 3D Training Data by Lifting 2D GAN to 3D Generative Radiance Field
十八、说话人生成


[*]105、MetaPortrait: Identity-Preserving Talking Head Generation with Fast Personalized Adaptation
[*]106、Seeing What You Said: Talking Face Generation Guided by a Lip Reading Expert
十九、视图合成


[*]107、Consistent View Synthesis with Pose-Guided Diffusion Models
二十、目标检测


[*]108、Multi-view Adversarial Discriminator: Mine the Non-causal Factors for Object Detection in Unseen Domains
二十一、人像生成-姿态迁移


[*]109、Person Image Synthesis via Denoising Diffusion Model
[*]110、VGFlow: Visibility guided Flow Network for Human Reposing
二十二、发型迁移


[*]111、StyleGAN Salon: Multi-View Latent Optimization for Pose-Invariant Hairstyle Transfer
二十三、图像修复


[*]112、SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model
二十四、表征学习


[*]113、GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds
二十五、语音相关


[*]114、Conditional Generation of Audio from Video via Foley Analogies
[*]115、Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos
[*]116、Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment
二十六、域适应-迁移学习


[*]117、Back to the Source: Diffusion-Driven Test-Time Adaptation
[*]118、Domain Expansion of Image Generators
[*]119、Zero-shot Generative Model Adaptation via Image-specific Prompt Learning
二十七、知识蒸馏


[*]120、KD-DLGAN: Data Limited Image Generation via Knowledge Distillation
二十八、字体生成


[*]121、CF-Font: Content Fusion for Few-shot Font Generation
[*]122、Handwritten Text Generation from Visual Archetypes
二十九、异常检测


[*]123、SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection
三十、数据集


[*]124、An Image Quality Assessment Dataset for Portraits
[*]125、CelebV-Text: A Large-Scale Facial Text-Video Dataset
[*]126、Human-Art: A Versatile Human-Centric Dataset Bridging Natural and Artificial Scenes
[*]127、Uncurated Image-Text Datasets: Shedding Light on Demographic Bias
戳我,查看GAN的系列专辑~!深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
深入浅出ControlNet,一种基于生成扩散模型Stable Diffusion、可控生成的AIGC绘画生成算法!
CVPR 2022 | 最全25+主题方向、最新50篇GAN论文汇总
超110篇!CVPR 2021最全GAN论文汇总梳理!
ECCV2022 | 生成对抗网络GAN论文汇总
经典GAN不得不读:StyleGAN
超100篇!CVPR 2020最全GAN论文梳理汇总!

[*]GAN整整6年了!是时候要来捋捋了!
[*]GAN公式简明原理之铁甲小宝篇
[*]【实习面经】GAN生成式算法岗一面
[*]语义金字塔式-图像生成:一种使用分类模型特征的方法
[*]拆解组新的GAN:解耦表征MixNMatch
[*]经典GAN不得不读:StyleGAN
[*]CVPR 2020 | StarGAN第2版:多域多样性图像生成
[*]CVPR 2020 | 11篇GAN图像转换img2img 的论文
[*]CVPR2020之MSG-GAN:简单有效的SOTA?
[*]CVPR2020之姿势变换GAN
[*]CVPR2020之多码先验GAN:预训练好的模型怎么使用?
[*]两幅图像!这样能训练好 GAN 做图像转换吗?

joep 发表于 2023-10-4 19:30:12

来通过微软亚洲研究院入选CVPR 2023 的系列工作找找灵感吧!
掩码图像建模(Masked Image Modeling, MIM)的提出,为计算机视觉模型训练引入无监督学习做出了重要贡献。得益于 MIM 的预训练算法,计算机视觉领域在近年来持续输出着优质的研究成果。然而整个业界对 MIM 机制的研究仍存在不足。
秉持着不断扩展前沿技术边界的探索精神,微软亚洲研究院的研究员们在理解 MIM 作用机制,以及基于这些机制提升现有 MIM 算法的领域,取得了一系列的创新成果,并获得了 CVPR 2023 的认可。这些成果包含:基于 MIM 预训练方法的扩展法则研究、分析 MIM 的具体性质以及有效性背后的原因、通过蒸馏技术将 MIM 模型的优势拓展到小模型中。
正值 CVPR 2023 大会举办之际,让我们一起了解 MIM 助推计算机视觉研究进入加速道的新发现吧!
预训练-微调(Pre-training and Fine-tuning)是过去十年计算机视觉中最重要的学习范式之一,其基本想法是在海量数据的任务中,对神经网络进行训练,然后再将预训练过的模型在下游数据量较少的任务中进行微调。这种方式能够将上游大数据任务中学到的信息迁移至下游数据量较少的任务上,缓解数据量不足的问题,并显著提升模型的性能。
预训练-微调范式的成功,源于计算机视觉领域十年来预训练算法的停滞。自2012年 AlexNet 提出以来,计算机视觉中的预训练算法在很大程度上被等价于以 ImageNet 数据集为代表的图像分类任务。尽管图像分类的数据标注成本已然较低,但后续的数据清洗、质量控制等步骤仍对扩展图像分类数据产生了挑战,而数据不足的困难也限制了计算机视觉模型的进一步扩大。因此,如何使用无监督学习方法进行视觉模型的预训练逐渐成为了计算机视觉任务中的核心问题。

http://pic1.zhimg.com/v2-ba8576e7ff668bef0413b4ecf4c26eac_r.jpg?source=1940ef5c

图1:预训练-微调范式

2021年6月,微软亚洲研究院提出的 BEiT 方法,通过引入自然语言处理(NLP)中的掩码语言建模(Masked Language Modeling, MLM)算法,成功地证明了计算机视觉中无监督预训练可以达到与有监督预训练相同甚至更好的效果。2021年11月,微软亚洲研究院提出的 SimMIM 与 Meta 提出的 MAE 进一步简化了 BEiT,并提升了算法性能。自此,掩码图像建模(Masked Image Modeling, MIM)的研究范式正式开启。
虽然基于 MIM 的预训练算法的成果在计算机视觉领域内百花齐放,但对 MIM 机制的探索仍然十分匮乏。今天我们将介绍微软亚洲研究院视觉计算组在理解 MIM 作用机制,以及基于这些机制扩展并提升现有 MIM 算法的系列工作。
探索 MIM 的扩展法则与数据可扩展性

扩展法则(scaling law)的概念最初由 OpenAI 发表于2020年的“Scaling Laws for Neural Language Models”,文中提出:测试集上的 Loss 会随着计算(compute)、数据规模(dataset size)与模型参数量(parameters)的增加而呈现可以预测的下降模式。该发现对于如何优化自然语言模型的设计与训练,具有里程碑式的指导意义。

http://pic1.zhimg.com/v2-63356933e216699ed17d7d02984d090d_r.jpg?source=1940ef5c

图2:自然语言处理中的扩展法则:测试集 Loss 随着计算,数据规模以及模型参数的增加呈现可以预测的下降模式

在入选 CVPR 2023 的“On Data Scaling in Masked Image Modeling”(论文链接:https://arxiv.org/abs/2206.04664)一文中,微软亚洲研究院的研究员们也探索了基于 MIM 预训练方法的扩展法则。尽管在计算与模型大小这两个维度中,MIM 预训练算法也呈现了较好的扩展性质,但是在数据维度上,MIM 算法则呈现了与在 NLP 中截然不同的特性:测试集的 Loss 随着数据集大小达到一定规模后不再降低,呈饱和状。这引发了一个关键问题——作为一个无监督预训练算法,MIM 是否能从更多的数据中受益?换言之,MIM 是否具有数据可扩展性?

http://picx.zhimg.com/v2-e59befb207206e9faec78253708577b0_r.jpg?source=1940ef5c

图3:MIM 中的扩展法则:测试集 Loss 仅随着计算与模型参数的增加呈现可预测的下降模式,而在数据集大小维度上,呈现了饱和的现象

为了回答该问题,研究员们分析了模型大小、数据规模以及训练长度的影响,发现 MIM 具有数据可扩展性,但需要满足两个关键的条件:1)需要更大的模型;2)需要配以更长的训练轮数。进一步的观察表明,该现象是由过拟合(over-fitting)导致的。

http://picx.zhimg.com/v2-6caef2f337ee549925923c2047f7a35d_r.jpg?source=1940ef5c

图4:MIM 中的过拟合现象

如图4所示,对一些较大的模型,使用小数据与长训练轮数会使得训练 Loss 异常下降,测试 Loss 与下游任务中的微调性能受损。同时,过拟合状态时,模型更倾向于呈现记忆图像的性质;非过拟合状态时,更倾向呈现推理的性质。基于这些发现,研究员们认为对于 MIM 而言,测试集 Loss 比训练 Loss 更适合作为下游任务迁移能力的代理指标。

http://picx.zhimg.com/v2-47d031b8f1cbc5f932ba23cbbe51f8d7_r.jpg?source=1940ef5c

图5:展示了过拟合模型与非过拟合模型对图片补全的可视化结果。过拟合模型在训练集上会记忆原图,而在测试集上则无法正确的推理内容。非过拟合模型则在训练集与测试集图像上都表现出较好的推理能力。

更深入地理解 MIM 及其有效性

MIM 展示了其在预训练-微调范式下的广泛有效性。传统视角通常认为模型的有效性取决于其提取的特征质量。然而,进一步实验发现,在固定网络权重的设定时,MIM 的性能远逊色于其他预训练算法。这说明 MIM 的有效性源自其他因素。

http://pic1.zhimg.com/v2-6f40385bc393b6b898602c5b89339035_r.jpg?source=1940ef5c

表1:在固定网络权重(frozen setting)与微调全网络权重(full fine-tuning setting)下,比较不同预训练算法的性能

于是,在微软亚洲研究院入选 CVPR 2023 的另一篇论文“Revealing the Dark Secrets of Masked Image Modeling”中(论文链接:https://arxiv.org/abs/2205.13543),研究员们对 MIM 的性质以及有效性背后的原因进行了更细致的研究与分析,取得了如下发现:
1) 有监督预训练以及基于对比学习的预训练方法的深层网络仅建模长程信息,相比之下,MIM 能够对局部信息与长程信息同时建模,如图6所示。

http://pic1.zhimg.com/v2-5aca24f90a92ef65b57868c4d069f805_r.jpg?source=1940ef5c

图6:不同模型中的注意力距离(attention distance)。有监督预训练与对比学习预训练算法在网络的深层只关注长程信息,而 MIM 方法同时关注长程信息与局部信息。

2) MIM 中不同注意力头(attention head)关注的信息具有多样,如图7所示,在有监督预训练与对比学习预训练算法中,网络的较深层注意力模块里,不同注意力头关注的信息是趋同的,而在 MIM 中,不同注意力头关注的信息更多样,这在一定程度上避免了模型塌陷(model collapse)的问题。

http://picx.zhimg.com/v2-6ddc7ec284bf0ae97a9e31358d249b29_r.jpg?source=1940ef5c

图7:不同模型中注意力头对应的注意力地图(attention map)的多样性分析

3) MIM 对语义信息的刻画较少,但是对几何信息的刻画较多。因此,研究员们对比了监督学习与 MIM 在语义分类任务中和几何任务中的性能表现。结果显示 MIM 在语义分类任务中的性能表现较差,但是在几何任务中的性能表现较好,如表2所示。同时,研究员们还考察了在混合任务(如物体检测)中,MIM 与有监督预训练在分类与定位两个子任务上的性能变化情况(如图8所示)。结果也显示 MIM 在分类任务上的收敛速度比有监督预训练差,但是在定位任务上收敛性更好。

http://pic1.zhimg.com/v2-8a3b0b5f2d46cc289ac0867b0c602b51_r.jpg?source=1940ef5c

表2:(左)语义分类任务的性能比较;(右)几何任务的性能比较

http://pic1.zhimg.com/v2-c7dfb1f1478df4294cf8a9632cf5b96f_r.jpg?source=1940ef5c

图8:物体检测任务中的分类损失与定位损失

扩展 MIM 在小模型上的有效性

在关于 MIM 的早期论文中,科研人员普遍发现 MIM 方法对大模型更加友好,直接在小模型中使用的有效性欠佳。如表3所示,在 ViT-T 等较小的模型中使用 MIM 预训练算法,其性能甚至落后于随机初始化的模型。如何将 MIM 应用于小模型,是领域中一个重要的开放性问题。在另外一篇入选 CVPR 2023 的工作“TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models”中(论文链接:https://arxiv.org/abs/2301.01296),微软亚洲研究院的研究员们通过蒸馏(distillation)技术,成功将 MIM 模型的优势拓展到了小模型中。

http://picx.zhimg.com/v2-00a7967fc4e2f590a85702c718d6a8b8_r.jpg?source=1940ef5c

表3:不同大小模型下,使用 MIM 预训练与随机初始化模型的性能比较

TinyMIM 中,研究员们系统性地研究了如何使用经过 MIM 预训练的模型蒸馏至小模型中。其研究对象包括输入形式,蒸馏对象,以及蒸馏方法三个方面。通过广泛的实验,研究人员发现:
1) 直接蒸馏元素间的关系(relation)是 MIM 中最有效的蒸馏方式,其性能可以比蒸馏 CLS Token 在 ViT-T 上好4.2 Top-1 Acc,在 ViT-B 上好1.6 Top-1 Acc.

http://picx.zhimg.com/v2-c3c54f0510121e30f5e7bebb894aa4cd_r.jpg?source=1940ef5c

表4:不同蒸馏对象对结果的影响

2) 在蒸馏时引入 MIM 任务会损害性能。如表5所示,使用掩码图像作为输入,以及在蒸馏时引入图像重构任务,都会损害模型的蒸馏效果。

http://picx.zhimg.com/v2-f3b223c12c52ebf7e42d7e6695f39d6b_r.jpg?source=1940ef5c

表5:蒸馏时引入 MIM 任务对性能的影响

3) 序列化蒸馏可以进一步降低难度,提升性能。序列化蒸馏指的是使用小模型蒸馏大模型的过程中,引入中等规模模型进行蒸馏,即先蒸馏出一个中等大小的模型,再利用该模型去蒸馏小模型。这样的蒸馏方式可以获得更好的性能,如表6所示。

http://picx.zhimg.com/v2-ce238fc20574df6d9550466129793d9c_r.jpg?source=1940ef5c

表6:序列化蒸馏对结果的影响

结合上述发现,TinyMIM 在一系列中小型模型中均取得了显著的性能提升,相较于其他直接训练的小模型,如 MobileViT 等,也取得了更好的下游任务迁移能力,如图9所示。

http://picx.zhimg.com/v2-61b088e21e0f0e34538d2f4703432979_r.jpg?source=1940ef5c

图9:TinyMIM 相较于 MAE 与其他小模型设计方法均取得了显著的性能优势

展望未来

随着计算机视觉中预训练范式从有监督学习逐渐演变至自监督学习,科研人员对视觉智能的认识与理解也在不断改变与深化。现阶段,基于掩码图像建模(MIM)的图像预训练算法已经展现出无监督预训练强大的潜力,但是否存在更适合视觉信号的预训练方法仍然是领域内最重要的开放问题之一。此外,在视觉与语言大一统的发展趋势之下,如何有效利用掩码信号建模等预训练算法高效连接语言与视觉信号的问题也仍需探索。微软亚洲研究院的研究员们希望随着对掩码图像建模预训练算法理解与认识的深化,研究并提出更高效的预训练算法,促进视觉智能迈入下一个发展新阶段。

海底捞 发表于 2023-10-4 19:30:50

http://picx.zhimg.com/v2-07d7a2e0059216883d2fe2e3c55d53f1_r.jpg?source=1940ef5c
随着计算机视觉的迅速发展,几乎每个行业都在使用 AI 赋能的计算机视觉解决最棘手的问题。下面我们就一起看看几个机器视觉的应用实例,以及NVIDIA的机器视觉工具,来找找新灵感吧!
机器视觉应用新方向
百事公司使用 NVIDIA Metropolis 优化自身运营,提高生产量、减少停工时间和最大程度地减少能耗。作为方便食品和饮料巨头,百事率先使用 NVIDIA Omniverse 平台在配送中心开发 AI 驱动的数字孪生,以便直观了解设施中的各种设置是如何影响运营效率的,然后才部署到现实世界。百事公司同时也使用 NVIDIA AI 平台和 GPU 驱动的先进机器视觉技术,提高分销流程效率和精准性。
汽车制造商宝马集团在其慕尼黑工厂使用由 Seoul Robotics 构建、NVIDIA Jetson 边缘 AI 平台驱动的基于激光雷达和摄像头的计算机视觉技术 ,实现汽车移动的自动化,此举大幅节省了时间和成本,提高了员工工作的安全性。
全球领先的嵌入式微控制器制造商意法半导体,将NVIDIA TAO 集成到其 STM32Cube AI 开发者工作流程中。借助 TAO,该公司能够在 STM32 微控制器驱动的各种物联网和边缘用例中,根据它们的最大算力和内存运行各种复杂 AI 功能。
行业领先的 IT 服务公司 Infosys 使用 NVIDIA Metropolis 大幅加快视觉 AI 应用的开发和部署速度。NVIDIA TAO 低代码训练框架和预训练模型帮助 Infosys 减少 AI 训练的工作量。Metropolis Microservices 以及 DeepStream SDK 优化了该公司的视觉处理流程吞吐量,并降低整体解决方案成本。Infosys 还可以使用 NVIDIA Omniverse Replicator SDK 生成大量合成数据,用新的库存单元和包装来轻松训练 AI 模型。
机器视觉工具——不可错过的开发助手

http://pic1.zhimg.com/v2-ddbd30f94adc223b84101cc490c564b9_r.jpg?source=1940ef5c
超过 1000 家公司正在使用 NVIDIA Metropolis 开发者工具的视觉 AI 解决方案,解决物联网(IoT)、传感器处理和运营方面的难题,采用速度还在加快。目前,这些工具已被想要构建视觉 AI 应用的用户下载超过 100 万次。
NVIDIA TAO 工具套件是一个低代码 AI 框架,能够为任何开发人员在任何服务和设备上开发视觉 AI 模型提供极大便利。TAO 5.0 包含许多新的功能,包括视觉转换器预训练 AI 模型、通过标准 ONNX 导出在任何平台上部署的能力、使用 AutoML 自动超参数调整,以及 AI 辅助数据注释等。
NVIDIA DeepStream SDK 则已成为各个行业想要创建视觉 AI 应用的开发人员所使用的一款强大工具。随着最近的一次更新,新的图形执行运行时(GXF)允许开发人员扩展到开源 GStreamer 多媒体框架之外。一些用户想要构建具备严格执行控制、高级调度和关键线程管理能力的应用,对于他们来说,GXF 的加入彻底改变了“游戏规则”。这一功能为用户带来了工业质量控制、机器人和自主机器等方面的大量新应用。
此外,计算机视觉领域目前所面临的挑战,包括监测包装货物在仓库中的流动情况,以及分析大型零售空间中的独立客流。NVIDIA Metropolis Microservices 使这些复杂的视觉 AI 任务能够便捷地集成和部署到用户的应用中。
写在最后
NVIDIA 在 GTC23 上展示了 Metropolis 工作流程的重大扩展,通过 NVIDIA TAO 工具套件、 Metropolis Microservices 和 DeepStream SDK,以及 NVIDIA Isaac Sim 合成数据生成工具与机器人仿真应用,为开发人员带来最新的 AI 性能和研究成果。
如果想了解更多计算机视觉行业的最新发展与应用,不妨观看 GTC23 视觉 AI 相关分会重播↓,学习如何加速视觉 AI 应用开发,并了解其他用例。
https://register.nvidia.com/events/widget/nvidia/gtcspring2023/1675972091885001IklA

像椰子的心 发表于 2023-10-4 19:31:24

Diffusion Model

qqsweb 发表于 2023-10-4 19:32:03

去顶会上看看那些方向的论文录用量高吧,比如CVPR,ICCV,ECCV等等。当然也可以看NeurIPS,ICML,AAAI等会议当中的视觉相关的track。
附赠近期人工智能相关的会议截稿时间:
CCF推荐会议 | 人工智能:截稿日期纵览(含ACL,ICML,IJCAI,ICCV等)此外,NeurIPS马上召开了,可以注册看看,只要50刀:

NeurIPS 2022,全称是Thirty-sixth Conference on Neural Information Processing Systems,NeurIPS是人工智能领域的顶级会议,与ICML并称为人工智能领域难度最大,水平最高,影响力最强的会议!NeurIPS是CCF 推荐A类会议,Core Conference Ranking推荐A*类会议,H5 index高达198!Impact Score高达33.49!NeurIPS是由连接学派神经网络的学者于1987年在加拿大创办,后来随着影响力逐步扩大,也6移师美洲、欧洲等地举办。早年发布在NIPS中的论文包罗万象,从单纯的工程问题到使用计算机模型来理解生物神经元系统等各种主题。大会讨论的内容包含深度学习、计算机视觉、大规模机器学习、学习理论、优化、稀疏理论等众多细分领域。

http://pic1.zhimg.com/v2-5d64ea9b80cec1584ec42039c41edd91_r.jpg?source=1940ef5c
NeurIPS近年来的录取率相对稳定,在20%-30%之间,相对来说还是比较高的,但是丝毫不影响录用文章的质量。从投稿量来看,NeurIPS的投稿从2016年开始出现大幅上升,今年更是超过10000篇!从录取量来看,NeurIPS的录取量也是逐年上升,今年更是突破2600篇!从2020年开始出现了Spotlight文章,2020年是280篇,2021是260篇,今年更是达到了523篇!
NeurIPS'22
组委会信息
NeurIPS'22的General Chair为Sanmi Koyejo (Stanford & Google Research)和Shakir Mohamed (DeepMind)。在所有Organizing Committee组织者中,基本都为国外学者,国内学者只有国立台湾大学Hsuan-Tien Lin担任Workshop Chair。

注册费信息
本届NeurIPS将在New Orleans, USA举办,为期两周。第一周将在美国新奥尔良举行现场会议,第二周改为线上会议。


http://pica.zhimg.com/v2-31b18d49aa4553bb0084c90aae846323_r.jpg?source=1940ef5c
参会人员身份被划分为Full-time Student、Academic和Non-academic,参会形式分为Conference、Workshops和Virtual Only Pass。

http://picx.zhimg.com/v2-62ced7cd8582dff06b05cd1d1b236cdc_r.jpg?source=1940ef5c
完整的注册费信息请参考:https://nips.cc/Register/view-registration
近期人工智能相关的CCF推荐会议截稿日期如下: CCF推荐会议 | 人工智能:截稿日期纵览(含ACL,ICML,IJCAI,ICCV等)。同时欢迎中稿NeurIPS'22或有意向一起交流的各位大佬添加文末助手微信并备注【NeurIPS+昵称+学校】,相互交流学习。

Keynote Speakers
NeurIPS 2022 将有七位主题演讲者,其中就有大家所熟知的图灵奖得主、深度学习教父Geoffrey Hinton教授!经过两年的线上虚拟会议,本届NeurIPS的Keynote演讲将在第一周线下会议中为大家介绍具有创造性的研究方向。具体内容详见:
https://blog.neurips.cc/2022/10/05/introducing-the-neurips-2022-keynote-speakers/

Invited talks & Tutorials
会议共设置7场Invited talks,外加13场Tutorials,具体如下:

http://pic1.zhimg.com/v2-4c8a70bc5115ae7c2657397831c34279_r.jpg?source=1940ef5c

http://pic1.zhimg.com/v2-5b5e51dc357eeefd981620465c182331_r.jpg?source=1940ef5c
录用论文
本届会议共有10411篇论文投稿,录用2665篇,接收率为25.6%。有网友(知乎Star.Gazer)按照第一单位统计了论文分布,前30的排名和中稿数目如下:

http://pic1.zhimg.com/v2-5a6e37ff0eb7b492354fa9c46a5c940b_r.jpg?source=1940ef5c
其中,清华大学以85篇位列全球第一,此外,据统计,今年作者总共有9126位,其中中稿4篇以上的作者有222人,中稿三篇以上的作者有561人,两篇以上有1747人。中稿篇数最多(10篇以上)的11位作者和单位如下:

http://picx.zhimg.com/v2-f925df58ac333ca294a3edb238d51cf7_r.jpg?source=1940ef5c
其中来自上海交大的严俊驰并列排名全球第四,上述统计数据可能存在错漏,仅供参考。全部录用论文各位可以参考官网链接查看:https://nips.cc/Conferences/2022
页: [1]
查看完整版本: 2023年计算机视觉有什么可做的新方向?