[IT技术] 简谈计算机视觉学习的技术路线(入门篇)

[复制链接]
he59195 发表于 2024-1-2 06:15:58|来自:北京师范大学 | 显示全部楼层 |阅读模式
计算机视觉的学习我认为最重要的地方在于完善两方面的能力
1)编程能力;
2)理论知识的储备。
二者相辅相成,缺一不可。以下我也从这两个点切入,简要的总结一下计算机视觉的学习路线(学习循序有先后):
1)Python编程基础

Python是做算法的标准语言,目前诸如PyTorch、TensorFlow等最流行的深度学习框架都是基于python的。所以在接触算法之前需要有一定的python基础。
对于python的学习,网上有很多推荐的文本资料,差不多都是看书然后敲代码学习的思路。不过个人认为,对于初次接触python编程的学习者而言,看视频教程是最合适的也是最快的。看书很容易陷入局部知识点的纠结之中,而这些知识点可能都不是很重要。但是看视频的话是有人给你过滤了一遍知识点的,所以学习速度会更快。
对于视频教程的话,在b站、网易云课堂等平台上搜python,一搜一大把,挑选一个你喜欢的风格即可,比如以下教程我觉得就讲得很清晰:
(前100P是讲Linux的,如果赶时间可以跳过,从101P开始看)
看完视频教程之后如果有时间,再回过头来看书本就能够带着自己的理解去巩固知识点了。
2)理论知识储备

计算机视觉的学习现在绕不过深度学习,而深度学习的入门又绕不过“吴恩达”这三个字。我相信,很多人都是看着吴恩达的网课入门深度学习的。
学习完这门网课之后,你将至少明白什么是神经网络;神经网络的工作原理、结构;卷积神经网络;循环神经网络;以及计算机视觉、自然语言处理等方向的一些具体应用。
Note:我认为这门网课是整个计算机视觉学习的基础,他对后续你能不能形成自己的理解并有创新有很大的影响。所以,学习的时候最后对每一节课做出总结。同时遇见不懂的知识点的时候,最好不要闭门造车,建议可以网上搜索一下关键词,像github、知乎、微信公众号上都有很多总结性的资料。
3)了解计算机视觉发展现状

目前视觉上主要有几个基础任务,具体包括图像分类、语义分割、目标检测等。 需要学习者有一个全面的概览,做到计算机视觉各个方向是怎么做的心中有数。
具体步骤如下:

  • 首先阅读图像分类经典模型阅读:具体包括vgg、inception系列、resnet。这些模型的论文网上搜关键词都有,建议先读原文,再配合者网上的各种论文笔记进行理解;
  • 从Pytorch、Tensorflow中挑选一个框架作为你的的深度学习编程框架。个人喜欢Pytorch,它简单易上手,对初学者友好。学术界也大多用Pytorch。不过工业界目前来说还是tensorflow主流。但是Pytorch的使用率也在逐渐上升。那这种框架的学习我认为还是看文本自己实践比较好。这里也推荐一下PyTorch学习资料:
60分钟快速入门深度学习。同时这里有个小的demo —— 训练一个图像分类器,也能帮助理解和巩固 图像分类 任务的知识。

  • 在有了图像分类的知识以及使用pytorch的搭建模型的能力之后,我们可以去接触一下稍微复杂的计算机视觉任务 - 语义分割与目标检测。对于语义分割,我之前有详细的总结过它的发展历程:
可以直接以这个文章为目录开始对语义分割任务的理解,并复现一些经典模型。在复现过程中加深对模型的理解以及增强编程的动手能力。而对于目标检测任务而言,大家同样可以以这个思路在网上搜素类似的综述性总结,然后以其为目录去了解这个任务。

  • 当然,计算机视觉肯定不止这些任务,还有诸如超像素重建、超像素分割、OCR等一系列任务都可以去探索。只是以上两个任务比较经典而且基础。
4)保持学习,追逐前沿

学习完以上点之后,我认为应该是算入门计算机视觉了(当然,不包括一些传统的图像算法,对于传统的图像处理算法的学习可以去学习一下opencv)。我们初步具备了完成一个项目的能力。但是,学习是终身的。如果停留于学过的知识,很快就会被淘汰。同时对发论文有需求的同学追逐前沿也是必须的点。一个人的阅读能力与热点捕捉能力终究是有限的。这时,可以关注一些做你这个方向的公众号,他们一般都会推一些最新的文章,这样有助于始终跟随热点,了解这个方向上大家都在做什么。这里也推荐几个公众号:
1)首推当然是我自己的公众号,微信搜索:阿柴的算法学习日记,或者直接扫描以下二维码即可关注:
这里将定期分享阿柴阅读的论文笔记,内容包括:
CVPR、ECCV、ICCV等计算机视觉顶会论文,主要推送语义分割方向的最新论文,比如:
遥感航空数据集语义分割方向论文,比如:
ACL、EMNLP等NLP方向顶会论文,比如:
KDD、SIGIR、WWW、RecSys等推荐系统方向顶会论文,比如:
本柴将致力于分享、交流、共进 ( 'ω' )  !!!
2)极世平台:专注于计算机视觉前沿资讯和技术干货;
3)CVer:一个专注侃侃计算机视觉方向的公众号。
以上,个人拙见,欢迎交流。
全部回复3 显示全部楼层
axwww 发表于 2024-1-2 06:16:16|来自:北京师范大学 | 显示全部楼层
回答的好仔细
chnnic 发表于 2024-1-2 06:17:12|来自:北京师范大学 | 显示全部楼层
推荐一下最近开源的闭环在线学习媒介 http://github.com/Charmve/computer-vision-in-action 文档和源代码都开源了
new_jam 发表于 2024-1-2 06:17:33|来自:北京师范大学 | 显示全部楼层
爱了爱了[doge]

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则