电脑问答:计算机视觉这几个方向哪个比较好啊？-今日问答

心中只有他 发表于 2023-10-4 20:04:22

计算机视觉这几个方向哪个比较好啊？

老师说了几个研究的方向不知道选哪一个适合就业，所以想问问大家的意见参考参考

http://pic1.zhimg.com/v2-7e7c3754dd2ef42562f0132b95bab570_r.jpg

wang4444 发表于 2023-10-4 20:04:35

在人工智能领域中，计算机视觉（Computer Vision, CV）被称为是人工智能时代的眼睛，具有广泛应用和巨大潜力。它为机器提供了对图像的高层次理解，以复制人类视觉能力为最终目标。2022年是计算机视觉的蓬勃发展之年，也是迄今以来计算机视觉的巅峰之年，出现了无数新科技（视觉Transformer、Pix2Seq）、新产品（Imagen、DALL-E2）、新模型（YOLOv7）。那么，对于计算机保研er来说，计算机视觉方向如何呢？今天岛主就来和大家一起聊聊这个热门话题，以及该如何准备计算机视觉保研。
一、计算机视觉介绍

1、什么是计算机视觉？

计算机视觉是使用计算机及相关设备对生物视觉的一种模拟，它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息。计算机视觉既是工程领域，也是科学领域中的一个富有挑战性重要研究领域。作为一门综合性的学科，它已经吸引了来自各个学科的研究者参加到对它的研究之中。其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学、神经生理学和认知科学等。

http://picx.zhimg.com/v2-1e3912f7cfa9582e74ef4d8e8cfea9ef_r.jpg?source=1940ef5c

图源中国计算机学会官网（https://www.ccf.org.cn/Media_list/cncc/2021-10-08/745182.shtml）

2、计算机视觉有哪些研究方向？

01）图像分类
图像分类是根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。图像分类应用在许多领域，如医学成像、卫星图像中的目标识别、交通控制系统、刹车灯检测、机器视觉等。
02）目标检测
目标检测，也叫目标提取，是一种基于目标几何和统计特征的图像分割。它将目标的分割和识别合二为一，其准确性和实时性是整个系统的一项重要能力，是计算机视觉的一个重要分支。目标检测多用于人脸识别、智慧交通（异常事件检测、交通流量监控与红绿灯配时控制）、工业检测等
03）目标跟踪
目标跟踪（Tracking-by-Detection）旨在跟踪一段视频中的目标的运动情况。它可以用来区分主体和背景之间的差异，并已成为首选的跟踪方法。目标跟踪目前广泛应用在体育赛事转播、安防监控和无人机、无人车、机器人等领域。
04）语义分割
语义分割是对图像中的每一个像素进行分类，目前广泛应用于医学图像与无人驾驶等。分割是计算机视觉的重要组成部分，它将整个图像划分为可以标记和分类的像素组。更具体地说，语义分割试图理解每个像素在给定图像中的作用。这一领域主要分为有监督语义分割、无监督语义分割、视频语义分割等。
······

http://pica.zhimg.com/v2-fc27cfd165a51a24119311b57eedf1ea_r.jpg?source=1940ef5c

计算机视觉应用案例引用自图书：Computer vision: algorithms and applications

二、计算机视觉发展前景

1、国家政策大力支持

近年来，我国政府对计算机视觉行业给予了高度重视，并出台了多项政策支持其发展，为计算机视觉行业提供了良好的政策环境，促进其健康发展。

http://picx.zhimg.com/v2-f48bad8f356cb01d854b727cfb1359a7_r.jpg?source=1940ef5c

图源华经产业研究院官网www.huaon.com

计算机视觉技术正处于发展的上半场，随着人脸识别性能、限定场景识别准确率等效果的不断提升，许多对象识别和分类问题将实现工业化，渗透到更多的行业应用中。国家政策已从多方向促进产业发展，督促企业在重视前沿算法研发的同时，加强算法与商业应用的融合，以提供更全面、及时的服务。未来，我国的医疗影像、智慧物流、工业制造、批发零售等创新应用领域也将进一步解锁，大力支持和引导中国人工智能的健康发展。
2、学术界多方向发展

近年来，计算机视觉领域的学术成果以爆发式增长，发展非常迅猛。计算机视觉顶会（CVPR、ICCV、ECCV等）每年都会收到大量的论文投稿，其中一些论文以出色的表现获得了大量的关注，例如GoogleNet VGG在不到8年的时间里就获得了10万次引用，而2015年的ResNet更是在更短的时间内获得了接近10万次的引用。虽然不少方向已经迈向技术成熟阶段，但仍有很多新的研究领域有待探索。

http://picx.zhimg.com/v2-7a8188963806883102d637b1dd0b88e8_r.jpg?source=1940ef5c

图源学术范官网https://www.xueshufan.com/field/31972630?s=001001008001004

结合深度学习领域几大顶会以及产业界的需求，不难发现三维视觉、视频理解、多模态融合等技术慢慢成为新的研究趋势。更贴近现实场景的三维视觉技术，包括三维感知（点云获取及处理）、三维重建（大规模场景的三维重建、动态三维重建）、三维理解（三维物体的识别、检测及分割等）在近五年来得到快速发展。此外，随着5G时代的到来，视频数量呈爆炸式增长，视频的智能化理解成为亟待解决的问题。在计算机视觉愈发成熟后，多个传感器之间的相互保护和融合，也即多模态融合，也成为未来发展的机遇和挑战。
3、就业岗位和薪资

随着计算机视觉技术的不断进步，越来越多的企业开始采用计算机视觉技术，以提高生产效率，提升服务质量。据《2020年度中国计算机视觉人才调研报告》显示，在人工智能技术领域中，计算机视觉是中国市场规模最大的应用方向，占据了整个中国人工智能市场应用的34.9%。目前，最受欢迎的是算法工程师岗，有算法的实际产品化及视频分析经验的人才大受欢迎。除算法工程师外，计算机视觉与AI产业催生的AI产品经理、AI算法测试工程师、AI售前解决方案工程师等成为企业急需人才。此外，研究院、高校、政府机构也在吸纳计算机视觉领域人才。

http://pica.zhimg.com/v2-ab1ad0b78600f15f81735af28ce3eabd_r.jpg?source=1940ef5c

图源澎湃新闻网https://m.thepaper.cn/baijiahao_11433021

三、计算机视觉保研准备

1、背景知识

扎实的基础知识是我们在保研笔试、面试中的最大底气，那么对于想要保研该方向的同学来说需要加强哪些方面的知识呢？岛主为大家总结为以下三大方面：

[*]图像处理，大致包括的内容：光学成像基础、颜色、滤波器、局部图像特征、图像纹理、图像配对等。
[*]立体视觉，大致包括的内容：相机几何模型、双目视觉、从运动中恢复物体结构、三维重建技术等。
[*]人工智能，大致包括的内容：场景理解与分析、模式识别、图像搜索、数据挖掘、深度学习等。
岛主推荐：<计算机类笔面试常考知识点总结>
2、学习平台介绍

工欲善其事，必先利其器。人工智能（尤其是算法）的实现需要强大的计算能力的支撑，特别是深度学习算法的大规模使用，对计算能力提出了更高的要求。计算机视觉由于针对图像、视频，更需要算力较强的计算机来运行。在学习中个人的计算机配置可能难以达到令人满意的要求，或是由于配置不够导致计算较慢，效率较低。但幸运的是，国内外多家企业和团体提供了AI平台开源服务，使得我们可以利用免费高效的在线云计算编程环境，甚至白嫖一些公开的数据集和常用代码。下面岛主就给大家介绍一些好用的线上平台。
01）百度AI Studio
百度AI Studio是一个面向AI学习者的在线一体化学习与实训社区，它汇集了多种AI教程、深度学习样例工程、各领域的经典数据集、云端的超强运算及存储资源，以及比赛平台和社区，旨在解决学习者在AI学习过程中遇到的诸多问题，如教程水平不一、教程和样例代码难以衔接、高质量的数据集不易获得，以及本地难以使用大体量数据集进行模型训练等。
02）阿里云人工智能平台
自2009年创立以来，阿里云一直是全球领先的云计算及人工智能科技公司，致力于通过在线公共服务的方式，为用户提供安全、可靠的计算和数据处理能力。阿里云平台整合资源涉及自然语言处理、智能语音、视觉计算等多个热门领域。
03）华为云AI平台
华为的AI平台建立在华为云的基础上，它依托华为的硬件，特别强调面向开发者的服务。Model Arts是华为云的AI一站式开发平台，可以支持开发者完成从数据到AI应用的全流程开发，包括数据处理、模型训练、模型管理和部署等操作。
04）Kaggle
Kaggle是一个数据建模和数据分析竞赛平台，企业和研究者可在其上发布数据和问题，吸引各界人士在平台上竞赛以产生最好的解决模型。如果提交的结果符合指标要求并且在参赛者中排名第一，可以获得比赛丰厚的奖金。对于初学者而言，Kaggle每周提供的30h的GPU免费使用权也是非常有诱惑力的，这意味着我们可以在Kaggle平台上运行自己的深度学习代码。
岛主推荐：<计算机竞赛一本通>
3、招生学校/实验室推荐

01）北京大学智能学院信息科学中心
北大智能学院成立时间较短，但师资力量雄厚（院士1人，“长江学者”2人，杰青2人，优青2人），且学校title也很好。它属于弱com，导师具有很大话语权，所以一定要提前联系导师，通过导师的考核基本就能拿到offer。
岛主推荐：<联系导师攻略手册>
02）中科院自动化研究所模式识别国重
该实验室历史较久（1987年），实力在国内数一数二，拥有众多大牛导师。属于强com，需要通过面试考核拿到优营（60%比例），直博和学硕的招生人数都很多，值得推荐。
岛主推荐：<保研面试攻略手册>
03）中科大智能信息处理重点实验室
该实验室成果丰富，在国内也很有名气，属于报名火爆的院校。是强com院校，需要经历几轮测试（笔试，机试and面试），根据最终成绩录取。大部分是学硕，直博很少。
岛主推荐：<计算机保研机试真题手册>
四、相关Q&A

Q1：哪些专业的同学适合这个方向？
岛主通过对近年来各高校、研究所老师的招生要求分析，发现数学、计算机科学与技术、软件工程、自动化等专业的学生都比较受该专业青睐，有计算机视觉、深度学习、计算机图形学、人工智能等课程或者科研项目经历者能够被优先考虑。此外，良好的数理基础、快速迭代实现的编程能力、机器学习的基本知识和较好的英文阅读和写作能力都是老师们格外看重的能力。
岛主推荐：<中英文自我介绍手册>

http://picx.zhimg.com/v2-b15f0fe324fe0554a02b7c0a8cc8efef_r.jpg?source=1940ef5c

上海交通大学叶南阳助理教授招生条件可供参考（https://ynysjtu.github.io/）

Q2：电信/自动化同学能否跨保？
答案是肯定的。作为一个交叉性较强的前沿专业，计算机视觉欢迎各种专业背景的同学们加入，可以说跨保门槛较低。目前大多数理工科专业都会学习一些基本的数理和计算机技术，这为我们学习计算机视觉打下了良好的基础。计算机视觉专业在招生上比较包容，因此各专业的同学在跨保时一定要对自己有信心！
Q3：计算机视觉看重专业还是学校title？
作为一个新兴的研究方向，为它专门开设一门专业的院校其实并不是特别多，更多情况下是纳入计算机应用技术专业招生，或者从事该方向的老师发布具有针对性的招生要求。因此，可以根据自己的实际情况来判断到底是专业还是学校title更重要。如果已经下定决心致力于计算机视觉领域，那么选择实力强、具有权威性、走在前沿的导师组或者院校是很有帮助的。这会使得你在读研期间有丰富的经费和资源支持、专业性极强的指导，从而获得更快速的成长、更广阔的发展空间。如果你还并未下定决心，只是在没有明确目标的情况下想尝试这个方向，那么综合实力更强、排名更前的学校可能更适合你。即使以后想改换专业，也能有更多的退路。
岛主推荐：<计算机保研招生详细要求表>
<hr/>岛主对计算机视觉领域详细的介绍和解读有没有帮助到你呢？祝愿每个计算机保研er都能找到自己心仪的道路~
如有问题，欢迎咨询~

lyon 发表于 2023-10-4 20:05:29

2023年建议你考虑自动驾驶感知方向，如BEV感知和多传感器融合，学术和业界都是刚需！卷感知还要看BEV！首个详细入门BEV感知的学习路线（纯视觉+多传感器融合）
业内普遍认为，2020-2030年将是自动驾驶发展的“黄金十年”，这段时间也是我国实现对其它国家超越的好时机。据麦肯锡预测，中国未来很可能成为全球最大的自动驾驶市场，预计至2030年，中国自动驾驶相关的新车销售及出行服务创收将超过3.58万亿元。在众多的自动驾驶方案中，基于BEV感知的算法以其模态融合简易、优化方式简单，无疑成为当前自动驾驶技术风向标之一，在未来几年甚至更长一段时间内影响工业界和学术界。

http://pica.zhimg.com/v2-f998c7344d22937dcbe6bce73df177a5_r.jpg?source=1940ef5c
BEV感知相当于给自动驾驶开启了“上帝视角”，能够让车辆无遮挡的“看清”道路上的实况信息，在BEV视角下统一完成感知和预测任务。当下不少的研究机构和各大车企都在推动BEV方案的落地，基于来自传感器输入层、基本任务和产品场景的不同组合，可以给出相应的BEV算法，例如，BEVFormer属于纯摄像机路线的算法，从多个摄像机获取图像信息来执行多种任务，包括3D目标检测和BEV地图分割等。BEVFusion设计了一个BEV空间的多模态融合策略，同时使用摄像机和LiDAR作为输入完成3D检测和跟踪任务。在BEV感知算法出现之后，整个自动驾驶感知模块趋向形成统一，简洁，高效的端到端结构。此外，不仅仅是感知模块，甚至基于BEV进行的规划决策也是学术界研究的方向。
许多同学在刚学习BEV感知算法的时候往往不知道如何下手，大多数人不清楚网络设计、空间转换、后处理解析也是一头雾水、如何选择损失函数与模型方案也难倒了一大批人！
课程大纲

在深入调研大家的需求后，我们选择了行业几乎所有主流BEV算法（纯视觉+多传感器融合方案），从0到1为大家详细展开网络结构设计、算法优化、实战等方方面面，内容非常详细！最适合刚入门的小白以及需要在业务上优化算法的同学，大纲如下:

添加图片注释，不超过 140 字（可选）
主讲老师

柒柒，自动驾驶之心前沿技术研究团队成员，上海交通大学在读博士，深耕自动驾驶算法领域多年。在CVPR，ECCV，ACM MM，TCSVT，TITS等计算机视觉、智能交通领域发表多篇论文，在自动驾驶算法设计、模型优化部署方面有着丰富的落地经验。
本课程适合人群

[*]计算机视觉与自动驾驶感知相关研究方向的本科/硕士/博士；
[*]自动驾驶2D/3D感知相关算法工程人员；
[*]想要转入自动驾驶与BEV感知算法的小伙伴；
学后你将收获

[*]对BEV感知的所有主流方案有着深入理解，在模型设计和优化上有较大提升；
[*]学习到自动驾驶算法设计思想，从根本上学会如何设计一个有效的BEV检测框架；
[*]能够精通自动驾驶通用算法，理论实践并重，无论是学术界抑或工业界都能直接复用；
[*]学完本课程能够达到1年左右的自动驾驶工程师水平；
[*]能够结识许多行业从业人员与学习合作伙伴！
加入学习

卷感知还要看BEV！首个详细入门BEV感知的学习路线（纯视觉+多传感器融合）

猪头他爸 发表于 2023-10-4 20:05:54

哇，都是卷死的方向

bird034 发表于 2023-10-4 20:06:05

我们要知道这几个方向未来的就业环境。
1、图像语义分割，偏向于算法工程师，未来会是研发岗。就业于交通场景的自动驾驶，AGV，物品分拣以及视频监控软件研发岗。
2、2D/3D 图像检测，除了图像视觉知识以外，还需要大量的工业协议通信知识，工程师岗，需要去各大头部工厂流水线调试，总需要出差。
3、室外场景视频监控，这个偏向于警务系统应用的多，其实和1多多少少相似，以研发为主，但是偏向于交通，专业面更窄更深入。

hellos 发表于 2023-10-4 20:06:22

这三个基本上是难度逐级递增。但是就业的话直觉上都差不多。按自己能力选吧。

页: [1]

今日问答's Archiver

计算机视觉这几个方向哪个比较好啊？