[IT技术] 计算机视觉哪些方向容易发论文?

[复制链接]
nana00101 发表于 2023-10-4 20:02:36|来自:北京 | 显示全部楼层 |阅读模式
研一最近在确定小方向 导师放养 让自己选感兴趣的……
全部回复5 显示全部楼层
ruozhis 发表于 2023-10-4 20:03:13|来自:北京 | 显示全部楼层
自动驾驶BEV感知还有不少能卷的!卷感知还要看BEV!首个详细入门BEV感知的学习路线(纯视觉+多传感器融合)
业内普遍认为,2020-2030年将是自动驾驶发展的“黄金十年”,这段时间也是我国实现对其它国家超越的好时机。据麦肯锡预测,中国未来很可能成为全球最大的自动驾驶市场,预计至2030年,中国自动驾驶相关的新车销售及出行服务创收将超过3.58万亿元。在众多的自动驾驶方案中,基于BEV感知的算法以其模态融合简易、优化方式简单,无疑成为当前自动驾驶技术风向标之一,在未来几年甚至更长一段时间内影响工业界和学术界。



BEV感知相当于给自动驾驶开启了“上帝视角”,能够让车辆无遮挡的“看清”道路上的实况信息,在BEV视角下统一完成感知和预测任务。当下不少的研究机构和各大车企都在推动BEV方案的落地,基于来自传感器输入层、基本任务和产品场景的不同组合,可以给出相应的BEV算法,例如,BEVFormer属于纯摄像机路线的算法,从多个摄像机获取图像信息来执行多种任务,包括3D目标检测和BEV地图分割等。BEVFusion设计了一个BEV空间的多模态融合策略,同时使用摄像机和LiDAR作为输入完成3D检测和跟踪任务。在BEV感知算法出现之后,整个自动驾驶感知模块趋向形成统一,简洁,高效的端到端结构。此外,不仅仅是感知模块,甚至基于BEV进行的规划决策也是学术界研究的方向。
许多同学在刚学习BEV感知算法的时候往往不知道如何下手,大多数人不清楚网络设计、空间转换、后处理解析也是一头雾水、如何选择损失函数与模型方案也难倒了一大批人!
课程大纲

在深入调研大家的需求后,我们选择了行业几乎所有主流BEV算法(纯视觉+多传感器融合方案),从0到1为大家详细展开网络结构设计、算法优化、实战等方方面面,内容非常详细!最适合刚入门的小白以及需要在业务上优化算法的同学,大纲如下:


主讲老师

柒柒,自动驾驶之心前沿技术研究团队成员,上海交通大学在读博士,深耕自动驾驶算法领域多年。在CVPR,ECCV,ACM MM,TCSVT,TITS等计算机视觉、智能交通领域发表多篇论文,在自动驾驶算法设计、模型优化部署方面有着丰富的落地经验。
本课程适合人群


  • 计算机视觉与自动驾驶感知相关研究方向的本科/硕士/博士;
  • 自动驾驶2D/3D感知相关算法工程人员;
  • 想要转入自动驾驶与BEV感知算法的小伙伴;
学后你将收获


  • 对BEV感知的所有主流方案有着深入理解,在模型设计和优化上有较大提升;
  • 学习到自动驾驶算法设计思想,从根本上学会如何设计一个有效的BEV检测框架;
  • 能够精通自动驾驶通用算法,理论实践并重,无论是学术界抑或工业界都能直接复用;
  • 学完本课程能够达到1年左右的自动驾驶工程师水平;
  • 能够结识许多行业从业人员与学习合作伙伴!
加入学习
卷感知还要看BEV!首个详细入门BEV感知的学习路线(纯视觉+多传感器融合)
0nwn0 发表于 2023-10-4 20:04:13|来自:北京 | 显示全部楼层
计算机视觉论文分享 共计110篇
GAN|Diffusion|Image Reconstruction|Denoising相关(17篇)[1] SHERF: Generalizable Human NeRF from a Single Image
标题:SHERF:来自单个图像的可泛化人类NeRF
链接:https://arxiv.org/abs/2303.12791
代码:未开源

[2] SALAD: Part-Level Latent Diffusion for 3D Shape Generation and Manipulation
标题:SALAD:用于3D形状生成和操作的零件级潜在扩散
链接:https://arxiv.org/abs/2303.12236
代码:未开源

[3] VecFontSDF: Learning to Reconstruct and Synthesize High-quality Vector Fonts via Signed Distance Functions
标题:VecFontSDF:学习通过符号距离函数重构和合成高质量矢量字体
链接:https://arxiv.org/abs/2303.12675
代码:未开源

[4] Make Encoder Great Again in 3D GAN Inversion through Geometry and Occlusion-Aware Encoding
标题:通过几何和遮挡感知编码使编码器在3D GAN反演中再次发挥作用
链接:https://arxiv.org/abs/2303.12326
代码:未开源

[5] Diffuse-Denoise-Count: Accurate Crowd-Counting with Diffusion Models
标题:扩散去噪计数:使用扩散模型的精确人群计数
链接:https://arxiv.org/abs/2303.12790
代码:未开源

[6] Feature-Conditioned Cascaded Video Diffusion Models for Precise Echocardiogram Synthesis
标题:用于精确超声心动图合成的特征条件级联视频扩散模型
链接:https://arxiv.org/abs/2303.12644
代码:https://github.com/HReynaud/EchoDiffusion.

[7] A Perceptual Quality Assessment Exploration for AIGC Images
标题:AIGC图像的感知质量评估探索
链接:https://arxiv.org/abs/2303.12618
代码:未开源

[8] Compositional 3D Scene Generation using Locally Conditioned Diffusion
标题:使用局部条件扩散的合成3D场景生成
链接:https://arxiv.org/abs/2303.12218
代码:未开源

[9] Semantic Brain Decoding: from fMRI to conceptually similar image reconstruction of visual stimuli
标题:语义大脑解码:从fMRI到视觉刺激的概念相似图像重建
链接:https://arxiv.org/abs/2212.06726
代码:未开源

[10] RaBit: Parametric Modeling of 3D Biped Cartoon Characters with a Topological-consistent Dataset
标题:RaBit:基于拓扑一致数据集的三维Biped卡通人物参数化建模
链接:https://arxiv.org/abs/2303.12564
代码:未开源

[11] Region-wise matching for image inpainting based on adaptive weighted low-rank decomposition
标题:基于自适应加权低秩分解的图像修复区域匹配
链接:https://arxiv.org/abs/2303.12421
代码:未开源

[12] Balanced Spherical Grid for Egocentric View Synthesis
标题:用于自我中心视图合成的平衡球面网格
链接:https://arxiv.org/abs/2303.12408
代码:未开源

[13] One-Step Detection Paradigm for Hyperspectral Anomaly Detection via Spectral Deviation Relationship Learning
标题:基于光谱偏差关系学习的高光谱异常一步检测范式
链接:https://arxiv.org/abs/2303.12342
代码:未开源

[14] NLOS-NeuS: Non-line-of-sight Neural Implicit Surface
标题:NLOS NeuS:非视线神经隐式曲面
链接:https://arxiv.org/abs/2303.12280
代码:未开源

[15] Pre-NeRF 360: Enriching Unbounded Appearances for Neural Radiance Fields
标题:Pre-NeRF360:丰富神经辐射场的无边界外观
链接:https://arxiv.org/abs/2303.12234
代码:未开源

[16] Image Reconstruction without Explicit Priors
标题:无显式先验的图像重建
链接:https://arxiv.org/abs/2303.12217
代码:未开源

[17] Oral-NeXF: 3D Oral Reconstruction with Neural X-ray Field from Panoramic Imaging
标题:口腔NeXF:利用全景成像的神经X射线场进行3D口腔重建
链接:https://arxiv.org/abs/2303.12123
代码:未开源

Transformer相关(10篇)[1] Spherical Transformer for LiDAR-based 3D Recognition
标题:用于激光雷达三维识别的球形变换器
链接:https://arxiv.org/abs/2303.12766
代码:https://github.com/dvlab-research/SphereFormer.git.

[2] OcTr: Octree-based Transformer for 3D Object Detection
标题:OcTr:用于3D对象检测的基于八叉树的变换器
链接:https://arxiv.org/abs/2303.12621
代码:未开源

[3] Q-HyViT: Post-Training Quantization for Hybrid Vision Transformer with Bridge Block Reconstruction
标题:Q-HyViT:具有桥接块重建的混合视觉变换器的训练后量化
链接:https://arxiv.org/abs/2303.12557
代码:https://github.com/Q-HyViT.

[4] Multiscale Attention via Wavelet Neural Operators for Vision Transformers
标题:基于小波神经算子的视觉变换器多尺度注意
链接:https://arxiv.org/abs/2303.12398
代码:未开源

[5] RegFormer: An Efficient Projection-Aware Transformer Network for Large-Scale Point Cloud Registration
标题:RegFormer:一种用于大规模点云配准的高效投影感知变换网络
链接:https://arxiv.org/abs/2303.12384
代码:未开源

[6] LiDARFormer: A Unified Transformer-based Multi-task Network for LiDAR Perception
标题:LiDARFormer:一种用于LiDAR感知的基于变压器的统一多任务网络
链接:https://arxiv.org/abs/2303.12194
代码:未开源

[7] Dual-Stream Transformer for Generic Event Boundary Captioning
标题:用于通用事件边界字幕的双流转换器
链接:https://arxiv.org/abs/2207.03038
代码:未开源

[8] UniDAformer: Unified Domain Adaptive Panoptic Segmentation Transformer via Hierarchical Mask Calibration
标题:UniDAformer:通过分层掩模校准的统一域自适应泛光分割转换器
链接:https://arxiv.org/abs/2206.15083
代码:未开源

[9] Joint Liver and Hepatic Lesion Segmentation in MRI using a Hybrid CNN with Transformer Layers
标题:使用具有变换器层的混合CNN在MRI中分割联合肝脏和肝脏病变
链接:https://arxiv.org/abs/2201.10981
代码:未开源

[10] DA-DETR: Domain Adaptive Detection Transformer with Information Fusion
标题:DA-DETR:具有信息融合的域自适应检测转换器
链接:https://arxiv.org/abs/2103.17084
代码:未开源

Weak-Supervised|Unsupervised|Self-Supervised|Semi-Supervised相关(18篇)[1] Correlational Image Modeling for Self-Supervised Visual Pre-Training
标题:用于自监督视觉预训练的相关图像建模
链接:https://arxiv.org/abs/2303.12670
代码:未开源

[2] An Effective Motion-Centric Paradigm for 3D Single Object Tracking in Point Clouds
标题:一种有效的点云中三维单目标跟踪的运动中心范式
链接:https://arxiv.org/abs/2303.12535
代码:未开源

[3] EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones
标题:高效训练:探索通用课程学习,培养视觉骨干
链接:https://arxiv.org/abs/2211.09703
代码:https://github.com/LeapLabTHU/EfficientTrain.

[4] Label-Efficient Deep Learning in Medical Image Analysis: Challenges and Future Directions
标题:医学图像分析中的标签高效深度学习:挑战和未来方向
链接:https://arxiv.org/abs/2303.12484
代码:未开源

[5] Unsupervised Domain Adaptation for Training Event-Based Networks Using Contrastive Learning and Uncorrelated Conditioning
标题:基于对比学习和不相关条件的训练事件网络的无监督领域自适应
链接:https://arxiv.org/abs/2303.12424
代码:未开源

[6] Preventing Dimensional Collapse of Incomplete Multi-View Clustering via Direct Contrastive Learning
标题:通过直接对比学习防止不完全多视图聚类的维数崩溃
链接:https://arxiv.org/abs/2303.12241
代码:未开源

[7] Leveraging Inpainting for Single-Image Shadow Removal
标题:利用修复来去除单个图像阴影
链接:https://arxiv.org/abs/2302.05361
代码:未开源

[8] MARLIN: Masked Autoencoder for facial video Representation LearnINg
标题:MARLIN:用于面部视频表示的蒙面自动编码器LearnINg
链接:https://arxiv.org/abs/2211.06627
代码:https://github.com/ControlNet/MARLIN

[9] CycDA: Unsupervised Cycle Domain Adaptation from Image to Video
标题:CycDA:从图像到视频的无监督循环域自适应
链接:https://arxiv.org/abs/2203.16244
代码:https://github.com/wlin-at/CycDA}.

[10] Representation Uncertainty in Self-Supervised Learning as Variational Inference
标题:作为变分推理的自监督学习中的表示不确定性
链接:https://arxiv.org/abs/2203.11437
代码:未开源

[11] MaskCon: Masked Contrastive Learning for Coarse-Labelled Dataset
标题:MaskCon:粗标记数据集的掩蔽对比学习
链接:https://arxiv.org/abs/2303.12756
代码:https://github.com/MrChenFeng/MaskCon_CVPR2023.

[12] Multi-view Feature Extraction based on Triple Contrastive Heads
标题:基于三重对比头的多视图特征提取
链接:https://arxiv.org/abs/2303.12615
代码:未开源

[13] Prompt-MIL: Boosting Multi-Instance Learning Schemes via Task-specific Prompt Tuning
标题:提示MIL:通过特定任务的提示调整来增强多实例学习方案
链接:https://arxiv.org/abs/2303.12214
代码:未开源

[14] MV-MR: multi-views and multi-representations for self-supervised learning and knowledge distillation
标题:MV-MR:用于自我监督学习和知识提炼的多视图和多表示
链接:https://arxiv.org/abs/2303.12130
代码:https://github.com/vkinakh/mv-mr

[15] Interpretable histopathology-based prediction of disease relevant features in Inflammatory Bowel Disease biopsies using weakly-supervised deep learning
标题:使用弱监督深度学习对炎症性肠病活检中疾病相关特征的可解释的基于组织病理学的预测
链接:https://arxiv.org/abs/2303.12095
代码:未开源

[16] Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning
标题:用于开集半监督学习的自适应负证据深度学习
链接:https://arxiv.org/abs/2303.12091
代码:未开源

[17] DrapeNet: Garment Generation and Self-Supervised Draping
标题:DrapeNet:服装的生成和自我监督的Draping
链接:https://arxiv.org/abs/2211.11277
代码:https://github.com/liren2515/DrapeNet

[18] DeepAstroUDA: Semi-Supervised Universal Domain Adaptation for Cross-Survey Galaxy Morphology Classification and Anomaly Detection
标题:DeepAstroUDA:用于交叉观测星系形态分类和异常检测的半监督通用域自适应
链接:https://arxiv.org/abs/2302.02005
代码:未开源

Classification|Recognition|Retrieval相关(27篇)[1] An Extended Study of Human-like Behavior under Adversarial Training
标题:对抗性训练下类人行为的扩展研究
链接:https://arxiv.org/abs/2303.12669
代码:未开源

[2] Facial Emotion Recognition
标题:面部情绪识别
链接:https://arxiv.org/abs/2301.10906
代码:未开源

[3] Dynamic Query Selection for Fast Visual Perceiver
标题:快速视觉感知器的动态查询选择
链接:https://arxiv.org/abs/2205.10873
代码:未开源

[4] Fix the Noise: Disentangling Source Feature for Transfer Learning of StyleGAN
标题:修复噪声:用于StyleGAN迁移学习的纠缠源特征
链接:https://arxiv.org/abs/2204.14079
代码:未开源

[5] Curvature-Balanced Feature Manifold Learning for Long-Tailed Classification
标题:用于长尾分类的曲率平衡特征流形学习
链接:https://arxiv.org/abs/2303.12307
代码:未开源

[6] SiamTHN: Siamese Target Highlight Network for Visual Tracking
标题:SiamTHN:用于视觉跟踪的暹罗目标高亮网络
链接:https://arxiv.org/abs/2303.12304
代码:未开源

[7] Active Learning for Deep Neural Networks on Edge Devices
标题:边缘设备上深度神经网络的主动学习
链接:https://arxiv.org/abs/2106.10836
代码:未开源

[8] Dense Distinct Query for End-to-End Object Detection
标题:端到端对象检测的密集差异查询
链接:https://arxiv.org/abs/2303.12776
代码:https://github.com/jshilong/DDQ}.

[9] Reveal to Revise: An Explainable AI Life Cycle for Iterative Bias Correction of Deep Models
标题:揭示修正:深度模型迭代偏差修正的可解释人工智能生命周期
链接:https://arxiv.org/abs/2303.12641
代码:https://github.com/maxdreyer/Reveal2Revise.

[10] DevelSet: Deep Neural Level Set for Instant Mask Optimization
标题:DevelSet:用于即时口罩优化的深度神经水平集
链接:https://arxiv.org/abs/2303.12529
代码:未开源

[11] Sibling-Attack: Rethinking Transferable Adversarial Attacks against Face Recognition
标题:兄弟姐妹攻击:重新思考针对人脸识别的可转移对抗性攻击
链接:https://arxiv.org/abs/2303.12512
代码:未开源

[12] Rigidity-Aware Detection for 6D Object Pose Estimation
标题:用于6D物体姿态估计的刚性感知检测
链接:https://arxiv.org/abs/2303.12396
代码:未开源

[13] Road Extraction with Satellite Images and Partial Road Maps
标题:利用卫星图像和部分道路地图进行道路提取
链接:https://arxiv.org/abs/2303.12394
代码:未开源

[14] Re-thinking Federated Active Learning based on Inter-class Diversity
标题:基于班际多样性的联合主动学习再思考
链接:https://arxiv.org/abs/2303.12317
代码:未开源

[15] AUTO: Adaptive Outlier Optimization for Online Test-Time OOD Detection
标题:AUTO:用于在线测试时间OOD检测的自适应异常值优化
链接:https://arxiv.org/abs/2303.12267
代码:未开源

[16] Multiple Appropriate Facial Reaction Generation in Dyadic Interaction Settings: What, Why and How?
标题:二元互动环境中的多重适当面部反应生成:什么、为什么以及如何?
链接:https://arxiv.org/abs/2302.06514
代码:未开源

[17] Causality-based Dual-Contrastive Learning Framework for Domain Generalization
标题:基于因果关系的领域泛化双重对比学习框架
链接:https://arxiv.org/abs/2301.09120
代码:未开源

[18] VINet: Lightweight, Scalable, and Heterogeneous Cooperative Perception for 3D Object Detection
标题:VINet:用于3D对象检测的轻量级、可扩展和异构协作感知
链接:https://arxiv.org/abs/2212.07060
代码:未开源

[19] An advanced YOLOv3 method for small object detection
标题:一种用于小物体检测的高级YOLOv3方法
链接:https://arxiv.org/abs/2212.02809
代码:未开源

[20] OpenGait: Revisiting Gait Recognition Toward Better Practicality
标题:OpenGait:重新审视步态识别以提高实用性
链接:https://arxiv.org/abs/2211.06597
代码:https://github.com/ShiqiYu/OpenGait.

[21] Unbiased Supervised Contrastive Learning
标题:无偏监督对比学习
链接:https://arxiv.org/abs/2211.05568
代码:未开源

[22] Enhancing the Self-Universality for Transferable Targeted Attacks
标题:增强可转移目标攻击的自普遍性
链接:https://arxiv.org/abs/2209.03716
代码:https://github.com/zhipeng-wei/Self-Universality.

[23] MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures
标题:MobileNeRF:利用多边形光栅化流水线在移动架构上实现高效的神经场绘制
链接:https://arxiv.org/abs/2208.00277
代码:未开源

[24] CgAT: Center-Guided Adversarial Training for Deep Hashing-Based Retrieval
标题:CgAT:基于深度哈希的检索的中心引导对抗性训练
链接:https://arxiv.org/abs/2204.10779
代码:https://github.com/xunguangwang/CgAT.

[25] Towards Compositional Adversarial Robustness: Generalizing Adversarial Training to Composite Semantic Perturbations
标题:走向复合对抗性鲁棒性:将对抗性训练推广到复合语义扰动
链接:https://arxiv.org/abs/2202.04235
代码:未开源

[26] Learning to Diversify for Single Domain Generalization
标题:学习单一领域泛化的多样性
链接:https://arxiv.org/abs/2108.11726
代码:未开源

[27] RoBIC: A benchmark suite for assessing classifiers robustness
标题:RoBIC:一个用于评估分类器稳健性的基准套件
链接:https://arxiv.org/abs/2102.05368
代码:未开源

Segmentation相关(10篇)[1] MI-SegNet: Mutual Information-Based US Segmentation for Unseen Domain Generalization
标题:MI SegNet:用于未知领域泛化的基于互信息的US分割
链接:https://arxiv.org/abs/2303.12649
代码:未开源

[2] FeatureNeRF: Learning Generalizable NeRFs by Distilling Foundation Models
标题:功能NeRF:通过提取基础模型学习可泛化NeRF
链接:https://arxiv.org/abs/2303.12786
代码:https://jianglongye.com/featurenerf/

[3] Tube-Link: A Flexible Cross Tube Baseline for Universal Video Segmentation
标题:Tube-Link:一种用于通用视频分割的柔性跨管基线
链接:https://arxiv.org/abs/2303.12782
代码:未开源

[4] Uncertainty Aware Active Learning for Reconfiguration of Pre-trained Deep Object-Detection Networks for New Target Domains
标题:用于新目标域的预训练深度目标检测网络重构的不确定性感知主动学习
链接:https://arxiv.org/abs/2303.12760
代码:未开源

[5] Less is More: Unsupervised Mask-guided Annotated CT Image Synthesis with Minimum Manual Segmentations
标题:少即是多:无监督掩膜引导注释CT图像合成,具有最小手动分割
链接:https://arxiv.org/abs/2303.12747
代码:未开源

[6] NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation
标题:NUWA-XL:超长视频生成中的扩散
链接:https://arxiv.org/abs/2303.12346
代码:https://msra-nuwa.azurewebsites.net/}

[7] Distribution Aligned Diffusion and Prototype-guided network for Unsupervised Domain Adaptive Segmentation
标题:用于无监督领域自适应分割的分布对齐扩散和原型引导网络
链接:https://arxiv.org/abs/2303.12313
代码:未开源

[8] Automated deep learning segmentation of high-resolution 7 T ex vivo MRI for quantitative analysis of structure-pathology correlations in neurodegenerative diseases
标题:高分辨率7T离体MRI的自动深度学习分割用于神经退行性疾病结构病理相关性的定量分析
链接:https://arxiv.org/abs/2303.12237
代码:https://github.com/Pulkit-Khandelwal/upenn-picsl-brain-ex-vivo.

[9] PanopticPartFormer++: A Unified and Decoupled View for Panoptic Part Segmentation
标题:PanopticPartFormer + +:用于Panoptic零件分割的统一且解耦的视图
链接:https://arxiv.org/abs/2301.00954
代码:https://github.com/lxtGH/Panoptic-PartFormer}.

[10] LidarMultiNet: Towards a Unified Multi-Task Network for LiDAR Perception
标题:激光雷达MultiNet:建立一个用于激光雷达感知的统一多任务网络
链接:https://arxiv.org/abs/2209.09385
代码:未开源

Video|Temporal|Action|Multi-view相关(20篇)[1] $P^{3}O$: Transferring Visual Representations for Reinforcement Learning via Prompting
标题:$P^{3}O$:通过提示传递视觉表示用于强化学习
链接:https://arxiv.org/abs/2303.12371
代码:未开源

[2] Weakly Supervised Video Representation Learning with Unaligned Text for Sequential Videos
标题:序列视频的弱监督非对齐文本视频表示学习
链接:https://arxiv.org/abs/2303.12370
代码:https://github.com/svip-lab/WeakSVR

[3] Neural Pre-Processing: A Learning Framework for End-to-end Brain MRI Pre-processing
标题:神经预处理:端到端脑MRI预处理的学习框架
链接:https://arxiv.org/abs/2303.12148
代码:https://github.com/Novestars/Neural-Pre-processing}.

[4] Learning Human Motion Representations: A Unified Perspective
标题:学习人体运动表征:一个统一的视角
链接:https://arxiv.org/abs/2210.06551
代码:未开源

[5] RIAV-MVS: Recurrent-Indexing an Asymmetric Volume for Multi-View Stereo
标题:RIAV-MVS:用于多视图立体的非对称体积的递归索引
链接:https://arxiv.org/abs/2205.14320
代码:未开源

[6] Deployment of Image Analysis Algorithms under Prevalence Shifts
标题:流行率变化下图像分析算法的部署
链接:https://arxiv.org/abs/2303.12540
代码:未开源

[7] CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive Learning
标题:CiCo:基于跨语言对比学习的领域感知手语检索
链接:https://arxiv.org/abs/2303.12793
代码:https://github.com/FangyunWei/SLRT.

[8] MAIR: Multi-view Attention Inverse Rendering with 3D Spatially-Varying Lighting Estimation
标题:MAIR:具有三维空间变化照明估计的多视图注意力逆绘制
链接:https://arxiv.org/abs/2303.12368
代码:未开源

[9] AeDet: Azimuth-invariant Multi-view 3D Object Detection
标题:AeDet:方位不变的多视图3D对象检测
链接:https://arxiv.org/abs/2211.12501
代码:https://fcjian.github.io/aedet.

[10] Enhancement of Novel View Synthesis Using Omnidirectional Image Completion
标题:利用全向图像补全增强新视图合成
链接:https://arxiv.org/abs/2203.09957
代码:未开源

[11] Empirical Assessment of End-to-End Iris Recognition System Capacity
标题:端到端虹膜识别系统能力的实证评估
链接:https://arxiv.org/abs/2303.12742
代码:未开源

[12] VMCML: Video and Music Matching via Cross-Modality Lifting
标题:VMCML:通过跨模态提升实现视频和音乐匹配
链接:https://arxiv.org/abs/2303.12379
代码:未开源

[13] Unbiased Multiple Instance Learning for Weakly Supervised Video Anomaly Detection
标题:弱监督视频异常检测的无偏多实例学习
链接:https://arxiv.org/abs/2303.12369
代码:https://github.com/ktr-hubrt/UMIL.

[14] Automatically Predict Material Properties with Microscopic Image Example Polymer Compatibility
标题:用显微图像自动预测材料财产例如聚合物相容性
链接:https://arxiv.org/abs/2303.12360
代码:未开源

[15] Weakly-Supervised Temporal Action Localization by Inferring Snippet-Feature Affinity
标题:基于Snippet特征仿射推断的弱监督时间动作定位
链接:https://arxiv.org/abs/2303.12332
代码:未开源

[16] EBSR: Enhanced Binary Neural Network for Image Super-Resolution
标题:EBSR:用于图像超分辨率的增强二元神经网络
链接:https://arxiv.org/abs/2303.12270
代码:未开源

[17] State-of-the-art optical-based physical adversarial attacks for deep learning computer vision systems
标题:用于深度学习计算机视觉系统的最先进的基于光学的物理对抗性攻击
链接:https://arxiv.org/abs/2303.12249
代码:未开源

[18] Autofluorescence Bronchoscopy Video Analysis for Lesion Frame Detection
标题:用于病变框架检测的自主荧光支气管镜视频分析
链接:https://arxiv.org/abs/2303.12198
代码:未开源

[19] Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation
标题:告诉我发生了什么:通过多模式屏蔽视频生成统一文本引导视频完成
链接:https://arxiv.org/abs/2211.12824
代码:未开源

[20] Hand Avatar: Free-Pose Hand Animation and Rendering from Monocular Video
标题:手头像:单眼视频中的自由姿势手动画和渲染
链接:https://arxiv.org/abs/2211.12782
代码:https://seanchenxy.github.io/HandAvatarWeb.

Zero-Shot|Few-Shot相关(1篇)[1] Black-box Backdoor Defense via Zero-shot Image Purification
标题:基于零样本图像净化的黑匣子后门防御
链接:https://arxiv.org/abs/2303.12175
代码:未开源

Knowledge|Distillation|Graph相关(6篇)[1] Adaptive Instance Distillation for Object Detection in Autonomous Driving
标题:自动驾驶中用于目标检测的自适应实例提取
链接:https://arxiv.org/abs/2201.11097
代码:未开源

[2] LFM-3D: Learnable Feature Matching Across Wide Baselines Using 3D Signals
标题:LFM-3D:使用3D信号跨宽基线的可学习特征匹配
链接:https://arxiv.org/abs/2303.12779
代码:未开源

[3] UMC: A Unified Bandwidth-efficient and Multi-resolution based Collaborative Perception Framework
标题:UMC:一个统一的带宽高效和基于多分辨率的协作感知框架
链接:https://arxiv.org/abs/2303.12400
代码:未开源

[4] PVT++: A Simple End-to-End Latency-Aware Visual Tracking Framework
标题:PVT + +:一个简单的端到端Latency-Aware视觉跟踪框架
链接:https://arxiv.org/abs/2211.11629
代码:未开源

[5] Dense Network Expansion for Class Incremental Learning
标题:用于类增量学习的密集网络扩展
链接:https://arxiv.org/abs/2303.12696
代码:未开源

[6] Encoding Binary Concepts in the Latent Space of Generative Models for Enhancing Data Representation
标题:在生成模型的潜在空间中编码二进制概念以增强数据表示
链接:https://arxiv.org/abs/2303.12255
代码:未开源

Open Vocalbulary|Open Domain|Domain Adaptation相关(1篇)[1] Exploring the Benefits of Visual Prompting in Differential Privacy
标题:探索视觉提示在差异隐私中的优势
链接:https://arxiv.org/abs/2303.12247
代码:未开源
哈欠 发表于 2023-10-4 20:04:32|来自:北京 | 显示全部楼层
Out of distribution(OOD)问题目前是视觉领域最容易发文章的几个方向之一了。
由于CV现在卷的过于严重,研究者们都在试图寻找新方向。就目前来看,抱团做OOD问题的人数越来越多了,这两年应该是风口,建议及早上车。
kgb811031 发表于 2023-10-4 20:04:56|来自:北京 | 显示全部楼层
不仅仅是计算机视觉研究,对于计算机领域整体的研究而言。
一开始找准方向是一个很重要的问题,其原因有两个:
某些细节方向可能是走着走着发现“此路不通”;
一个“好的”论文方向最好是一个你自己感兴趣的方向。每个人擅长的领域也不尽相同。
计算机视觉的应用有很多,仅在此列举一二:
augmented reality(增强现实)
virtual reality(虚拟现实)
autonomous vehicles(自动驾驶,现在很火热)
character recognition(字符识别,入门级的MINIST,还有很多复杂场景的)
face recognition(应用已经很成熟了)
image restoration(图像超分辨率)
medical image analysis(医学图像应用)
autonomous vehicles(自动驾驶,现在很火热)
character recognition(字符识别,入门级的MINIST,还有很多复杂场景的识别是很难的问题)
face recognition(应用已经很成熟了,可做的空间可能不是很大了)
image restoration(图像超分辨率)
medical image analysis(医学图像应用)
可以挑一个感兴趣的应用问题入手,多阅读一些文献去找细节的topic。
在做公开数据集的问题的时候,比较拼手速,因为流行的解决方案很容易想到基本的idea,到时候就看谁做得快了。
回过头来,可能没有任何一个方向是“好”发论文的,因为一篇论文发出来。确实需要劳心劳力。
威廉.尚 发表于 2023-10-4 20:05:09|来自:北京 | 显示全部楼层
自己没品味导师也没品味还不简单吗,列个表(excel之类随便)近三年cvpr iccv eccv看标题摘要把还行的paper列进去,顺便把dataset,用的模型,训练方法顺手也填了。
先根据手边条件列个deal-breaker(比如数据集大于10T的不要,ConvNeXt要炼几个月的不要,模型要两张A100并联才能装下的不要,黑名单的ACL故事汇科幻作家走穴过来整的玩意儿不要),把这表过滤一遍。
然后在设定几个自己的好感项(比如现成代码质量/可获取度,后续idea数量/可行度,复现需要资源/时间,对自己未来的项目帮助度,etc),甚至政治考量(学界/业界affinity,主要竞争的组好不好拿捏,跟喜欢/讨厌的人的相关性,作者是否是开会时到处撩中年妇女的油腻普信老秃驴)从上一步的shortlist里面挨个打分。
随便写个heuristic给加总分,排序,你不管再怎样,对着这个表上排名靠前的paper也该有些自己想法和喜好点了,剩下的就简单了。还能看着结果再随便调自己打总分的heuristic,即改即见。
这都很日常简单的活,坐下来整两罐快乐水,也就一个周末完成的事,有啥难的。就跟招学生筛选申请一样,是很机械化的过程,没啥麻烦的。(当然我最近整了个GPT3改的Event Extraction和其他IE方法做的申请者特质提取器,帮我提前读一遍申请从里面抓这些出来,就更省事了)

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则