电脑问答:研究生阶段如何自学计算机视觉？-今日问答

yym110 发表于 2023-10-17 18:01:29

研究生阶段如何自学计算机视觉？

研究生的研究方向大概是嵌入式图像采集与处理。想自学计算机视觉，当一个算法工程师，该如何自学呢？研究生三年的时间是否足够？

Virtual 发表于 2023-10-17 18:02:06

我来回答一下，计算机视觉是人工智能领域一个非常重要的方向，一直都是 AI 应用落地最为广泛的领域，所以 CV 从业/学习人群基础应该也是 AIer 中最多的了，可以说是十分的卷。研究生三年时间够不够的问题，我的观点是：如果你能三年持续学习，水平一定还算可以了，至少毕业工作应该比较好找了，另外，学习对二三十的小年轻来说，什么时候都不会晚，一定要养成终身学习的习惯，因为人生中往往不是等你完全准备好了才跨入/面对下一个阶段，而是在不同阶段中不断成长进步。读研，一方面是能够学习更加专业的知识，更重要的是养成自我研究能力和习惯。
学习计算机视觉，我觉得可以从三个方面进行：
（1）理论知识：数字图像处理、高等数学、矩阵论、概率论等都是需要的，不然推导公式等会感觉吃力；
（2）编程能力：python 和 c++ 是用的最多的了，python主要训练的时候用，c++主要部署的时候用。这两门语言都会当然是最好的了，不过很多公司也可能是训练和部署的人分开的，所以一些专注于算法训练的人只会 python，也是有可能的。从 python 训练切入的话又会涉及训练框架，主流的如 pytorch 等，从 c++ 部署切入的话又会涉及推理框架，主流的如 TensorRT；
（3）系统能力：现在的 CV 已经不是两年前的 CV 了，现在多模态、大模型越来越火热，SOTA 的 CV 模型往往已经不是纯 CNN 的架构了，会融入像 Transformer 等本来应用于自然语言处理领域的架构，有很多学者/研究者/工程师都在推进 CV 和 NLP 大一统。从这个角度出发，你还必须具有系统的眼光来看待 CV 问题和发展。
另外“工欲善其事必先利其器”，学习过程中的一些小工具往往能帮助我们更加高效的学习，这些工具可能不是 CV 或 AI 的 “专业知识”，但掌握了学习和知识整理的效率会高很多，这些工具如：docker、git、一款适合自己的笔记软件、一款适合自己的论文管理软件、一款适合自己的编程软件(最好是可以远程的那种)如vscode、cmake、conda 等。
说了这么多，在自我学习的过程中一定需要一些“过来人”的经验、技术、踩坑分享，这样对于学习会事半功倍。这里推荐可以多看看我的文章（可以关注我的公众号 [极智视界] 或知乎），我会持续输出一些 AI 领域的技术文章，主要面向 CV 的技术和经验分享，我想一定会对你的学习有所帮助。

woyyaizn 发表于 2023-10-17 18:02:15

入门必备，推荐关注我们公众号《有三AI》，一年原创将近百万字的技术文章，大部分是计算机视觉领域，2019年终总结如下：
【年终总结】2019年有三AI做了什么，2020年我们要做什么？还有我在阿里云开设的深度学习课程，链接为：
深度学习原理与实践 - AI学习 - 阿里云天池我写的4本书：
言有三新书预售，不贵，有料言有三新书来袭！业界首次深入全面讲解深度学习模型设计言有三新书来袭，业界首次深入全面讲解深度学习人脸图像算法言有三新书来袭，业界首本深度学习计算摄影书籍，科技与艺术的结合我们的学习小组：
【总结】2022年有三AI-CV夏季划出炉，超200个课时+10个方向+30个项目，从理论到实践全部系统掌握【CV秋季划】生成对抗网络GAN有哪些研究和应用，如何循序渐进地学习好？【CV秋季划】模型算法与落地很重要，如何循序渐进地学习好（2022年言有三一对一辅导）？【CV秋季划】人脸算法那么多，如何循序渐进地学习好？【CV秋季划】图像质量提升与编辑有哪些研究和应用，如何循序渐进地学习好？我们的课程内容汇总：
【视频课】有三AI所有免费与付费的视频课程内容汇总（2022年1月）
接下来从两个方向来回答这个问题，第一个是从零开始怎么系统性入门计算机视觉，这是一个路线问题。第二个是如何系统性学习，涉及到计算机视觉的各个方向。
第一个问题，如何系统性进阶，我斗胆将学习深度学习的同志分为5大境界，分别是白身，初识，不惑，有识，不可知，下面一个一个道来，以计算机视觉方向为例。1 白身

所谓白身境界，就是基本上什么都不会，还没有进入角色。在这个境界需要修行的内容包括：
(1) 熟练掌握linux及其环境下的各类工具的使用
(2) 熟练掌握python及机器学习相关库的使用
(3) 掌握c++等高性能语言的基本使用
(4) 知道如何获取和整理，理解数据
(5) 掌握相关的数学基础
(6) 了解计算机视觉的各大研究方向
(7) 了解计算机视觉的各大应用场景
(8) 了解行业的优秀研究人员，知道如何获取最新的资讯，能够熟练阅读简单的技术资料
如果掌握了这些，那么就从白痴，不，是白身境界晋级了。怎么判断这个境界呢？可以参考以下的文章，看看掌握的如何。
AI白身境界系列完整链接：第一期：【AI白身境】深度学习从弃用windows开始
第二期：【AI白身境】Linux干活三板斧，shell、vim和git
第三期：【AI白身境】学AI必备的python基础
第四期：【AI白身境】深度学习必备图像基础
第五期：【AI白身境】搞计算机视觉必备的OpenCV入门基础
第六期：【AI白身境】只会用Python？g++，CMake和Makefile了解一下
第七期：【AI白身境】学深度学习你不得不知的爬虫基础
第八期：【AI白身境】深度学习中的数据可视化
第九期：【AI白身境】入行AI需要什么数学基础：左手矩阵论，右手微积分
第十期：【AI白身境】一文览尽计算机视觉研究方向
第十一期：【AI白身境】AI+，都加在哪些应用领域了
第十二期：【AI白身境】究竟谁是paper之王，全球前10的计算机科学家
2 初识

所谓初识，就是对相关技术有基本了解，掌握了基本的使用方法。在这个阶段，需要修行以下内容。
(1) 熟练掌握神经网络
(2) 培养良好的数据敏感性，知道如何正确准备和使用数据
(3) 至少熟练掌握一个深度学习框架的使用
(4) 熟悉深度学习模型的基本训练和调参，网络设计
(5) 掌握归一化，激活机制，最优化等对模型性能的影响
(6) 能熟练评估自己的算法，使用合适的优化准则
AI初识境界系列完整链接：第一期：【AI初识境】从3次人工智能潮起潮落说起
第二期：【AI初识境】从头理解神经网络-内行与外行的分水岭
第三期：【AI初识境】近20年深度学习在图像领域的重要进展节点
第四期：【AI初识境】激活函数：从人工设计到自动搜索
第五期：【AI初识境】什么是深度学习成功的开始？参数初始化
第六期：【AI初识境】深度学习模型中的Normalization，你懂了多少？
第七期：【AI初识境】为了围剿SGD大家这些年想过的那十几招
第八期：【AI初识境】被Hinton，DeepMind和斯坦福嫌弃的池化，到底是什么？
第九期：【AI初识境】如何增加深度学习模型的泛化能力
第十期：【AI初识境】深度学习模型评估，从图像分类到生成模型
第十一期：【AI初识境】深度学习中常用的损失函数有哪些？
第十二期：【AI初识境】给深度学习新手开始项目时的10条建议
3 不惑

进入到不惑境界，就是向高手迈进的开始了，在这个境界的重点就是进一步巩固知识，并且开始独立思考。如果说学习是一个从模仿，到追随，到创造的过程，那么到这个阶段，应该跳过了追随，进入了创造的阶段。
如果是在学校读研究生，就要能够发表水平不错的文章，如果是在公司做业务，就要能够提出正确且快速的解决方案，如果是写技术文章，就要能够信手拈来原创写作而不需要参考。
这个阶段需要修行以下内容：
(1) 熟练玩转数据和模型对一个任务的影响
(2) 能够准确的分析出模型的优劣，瓶颈
(3) 对于新的任务能够快速寻找和敲定方案
(4) 拥有各种各样的深刻理解深度学习模型的技能，从可视化到参数分析等等等
(5) 能够优化模型到满足业务的需求，实现工业级落地
(6) 了解行业的最新进展，并在某些领域有自己的独到理解
不惑境界的内容第一期：【AI不惑境】数据压榨有多狠，人工智能就有多成功
第二期：【AI不惑境】网络深度对深度学习模型性能有什么影响？
第三期：【AI不惑境】网络的宽度如何影响深度学习模型的性能？
第四期：【AI不惑境】学习率和batchsize如何影响模型的性能？
第五期：【AI不惑境】残差网络的前世今生与原理
第六期：【AI不惑境】移动端高效网络，卷积拆分和分组的精髓
第七期：【AI不惑境】深度学习中的多尺度模型设计
第八期：【AI不惑境】计算机视觉中注意力机制原理及其模型发展和应用
第九期：【AI不惑境】模型剪枝技术原理及其发展现状和展望
第十期：【AI不惑境】模型量化技术原理及其发展现状和展望
第十一期：【AI不惑境】模型压缩中知识蒸馏技术原理及其发展现状和展望
第十二期：【AI不惑境】AutoML在深度学习模型设计和优化中有哪些用处？
4 有识

到这里，就步入高手境界了。可以大胆地说自己是一个非常合格的深度学习算法工程师甚至是研究员了，在自己研究的领域里处于绝对的行业前沿，对自己暂时不熟悉的领域也能快速地触类旁通。
无论是眼界，学习能力，还是学习态度都是一流水平，时而大智若愚，时而锋芒毕露，当之无愧的大师兄。
这个修行之路仍然在更新中，我们发布了超过360页的指导手册和GitHub项目，大家可以去自行获取。
【通知】有三AI更新420页14万字视觉算法工程师成长指导手册，可下载收藏打印【完结】给新手的12大深度学习开源框架快速入门项目
http://pica.zhimg.com/v2-ff5bbe9cb3720311528a096ea7edacdc_r.jpg?source=1940ef5c
------------------------------------这是分隔线------------------------------------
第二个问题，如何系统性学习，大家就可以去我们公众号《有三AI》和知乎专栏《有三AI学院》看，覆盖CV/NLP两大领域，涵盖深度学习数据和模型、GAN、AutoML等基础技术，人脸图像，医学图像，图像分类分割等应用领域，学习资源、系统性的论文推荐、AI行业与产品等学习资料，将近30个专栏，500多篇原创文章，超过100万字，下图是其中的一个大目录。
http://pic1.zhimg.com/v2-b41c0e828038220e69d758c8d6a386c3_r.jpg?source=1940ef5c
下面是一些综述性质的总结文章举例和两个适合初学者的专栏内容。

[*]【总结】深度学习小白不可错过！超过570页文档+40节视频+开源代码！
[*]【杂谈】篇篇精华，有三AI不得不看的技术综述(超过100篇核心干货)
[*]【杂谈】GAN对人脸图像算法产生了哪些影响？
[*]【杂谈】那些底层的图像处理问题中，GAN能有什么作为？
[*]【技术综述】人脸算法新热点，人脸编辑都有哪些方向，如何学习
[*]【技术综述】基于3DMM的三维人脸重建技术总结
[*]【技术综述】深度学习中的数据增强方法都有哪些？
[*]【总结】最全1.5万字长文解读7大方向人脸数据集v2.0版，搞计算机视觉怎能不懂人脸
[*]【年终总结】2019年有三AI NLP做了什么，明年要做什么？
[*]【年终总结】有三AI至今在人脸图像算法领域都分享了哪些内容？
[*]【年终总结】2019年有三AI知识星球做了什么，明年又会做什么
[*]【小结】除了网络搜索(NAS)，AutoML对深度学习模型优化还有哪些贡献？
[*]【完结】12篇GAN的优化文章大盘点，浓浓的数学味儿
[*]【杂谈】有三AI不得不看的技术综述(超过100篇核心干货)
[*]【总结】言有三&阿里天池深度学习模型设计直播汇总，附赠超过200页直播PPT课件
[*]【完结】16篇图像分类干货文章总结，从理论到实践全流程大盘点！
[*]【完结】12篇文章带你逛遍主流分割网络
[*]【完结】优秀的深度学习从业者都有哪些优秀的习惯
[*]【完结】给新手的12大深度学习开源框架快速入门项目
1 深度学习模型设计

第一期：【模型解读】从LeNet到VGG，看卷积+池化串联的网络结构
第二期：【模型解读】network in network中的1*1卷积，你懂了吗
第三期：【模型解读】GoogLeNet中的inception结构，你看懂了吗
第四期：【模型解读】说说移动端基准模型MobileNets
第五期：【模型解读】pooling去哪儿了？
第六期：【模型解读】resnet中的残差连接，你确定真的看懂了？
第七期：【模型解读】“不正经”的卷积神经网络
第八期：【模型解读】“全连接”的卷积网络，有什么好？
第九期：【模型解读】从“局部连接”回到“全连接”的神经网络
第十期：【模型解读】深度学习网络只能有一个输入吗
第十一期：【模型解读】从2D卷积到3D卷积，都有什么不一样
第十二期：【模型解读】浅析RNN到LSTM
第十三期：【模型解读】历数GAN的5大基本结构
2 开源框架速成（更新中）

第一篇：【caffe速成】caffe图像分类从模型自定义到测试
第二篇：【tensorflow速成】Tensorflow图像分类从模型自定义到测试
第三篇：【pytorch速成】Pytorch图像分类从模型自定义到测试
第四篇：【paddlepaddle速成】paddlepaddle图像分类从模型自定义到测试
第五篇：【Keras速成】Keras图像分类从模型自定义到测试
第六篇：【mxnet速成】mxnet图像分类从模型自定义到测试
第七篇：【cntk速成】cntk图像分类从模型自定义到测试
第八篇：【chainer速成】chainer图像分类从模型自定义到测试
第九篇：【DL4J速成】Deeplearning4j图像分类从模型自定义到测试
第十篇：【MatConvnet速成】MatConvnet图像分类从模型自定义到测试
第十一篇：【Lasagne速成】Lasagne/Theano图像分类从模型自定义到测试
第十二篇：【darknet速成】Darknet图像分类从模型自定义到测试
将近500篇成系统的文章，超过100万字原创，相信全网没有第二个这样的计算机视觉公众号，希望对你有用。接下来是重点内容

http://pic1.zhimg.com/v2-3be5910086b269707c6f46ea3900ecaa_r.jpg?source=1940ef5c
计算机视觉中大大小小可以包括至少30个以上的方向，在基于深度学习的计算机视觉研究方向中，图像分类，图像分割，目标检测无疑是最基础最底层的任务，掌握好之后可以很快的迁移到其他方向，比如目标识别，目标跟踪，图像增强等。为了让大家能够掌握好相关技术，我们平台开设了若干门相关的视频课程，分别从理论和实践详细讲解了其中的核心技术。
这不是随便拼凑一些案例堆积而成的快消课程，而是真正希望大家可以借助课程完成整个领域的学习，而且课程内容一直都在持续保持更新，每次更新小鹅通都会有消息通知的，请大家及时关注。
另外，有三还录制了38个课时的免费深度学习基础课程供大家夯实自己的基础知识，下面请听详细介绍：
深度学习基础2021年3月份有三AI与阿里天池联合推出了深度学习基础课程，课程内容包括人工智能与深度学习发展背景，深度学习典型应用，卷积神经网络，循环神经网络，生成对抗网络，深度学习开源框架等内容，目前已经完结。

http://picx.zhimg.com/v2-fa83600cf2e2491ba0cbb0244747f837_r.jpg?source=1940ef5c
本课程不仅讲述神经卷积，卷积神经网络，生成对抗网络等内容，还包括深度学习的典型应用，模型的设计，深度学习框架等内容，具有足够的深度和宽度，通用性强，下面是当前的课程内容。
第1课：人工智能简介
第2课：深度学习崛起背景
第3课：深度学习典型应用与研究方向之语音处理
第3课：深度学习典型应用与研究方向之计算机视觉
第3课：深度学习典型应用与研究方向之自然语言处理
第3课：深度学习典型应用与研究方向之推荐系统
第4课：神经网络（上）
第4课：神经网络（下）
第5课：卷积神经网络（上）
第5课：卷积神经网络（下）
第6课：深度学习优化之激活函数与参数初始化
第6课：深度学习优化之标准化与池化
第6课：深度学习优化之泛化与正则化
第6课：深度学习优化之最优化
第6课：深度学习优化之优化目标与评估指标
第6课：深度学习优化之数据增强
第7课：深度学习框架之Pytorch快速入门与实践
第7课：深度学习框架之Caffe快速入门与实践
第7课：深度学习框架之Tensorflow快速入门与实践
实践课1：从零完成人脸表情分类任务
第8课：循环神经网络之RNN及其改进
第9课：图神经网络基础
第10课：模型设计之网络宽度和深度设计
第10课：模型设计之残差网络
第10课：模型设计之分组网络
第10课：模型设计之卷积核设计
第10课：模型设计之注意力机制
第10课：模型设计之动态网络
第11课：深度生成模型基础
第11课：深度生成模型之自编码器与变分自编码器
第11课：深度生成模型之GAN基础
第11课：深度生成模型之GAN优化目标设计与改进
实践课2: 从零使用GAN进行图片生成
第11课：深度生成模型之数据生成GAN结构与应用
第11课：深度生成模型之图像翻译GAN结构与应用
第11课：深度生成模型之GAN的评估
实践课3：基于GAN的人脸图像超分辨
课程地址为：https://tianchi.aliyun.com/course/279推荐深度学习基础不好的朋友学习，千万不要再为一些基础内容课程去付费了，这些内容一开始我们平台就提供了海量的免费资料。

http://picx.zhimg.com/v2-55bfbae441378043d56222d77db688bc_r.jpg?source=1940ef5c
有了扎实的深度学习基础后，才能真正进入计算机视觉专业知识的学习。
深度学习之数据使用数据是深度学习系统的输入，对深度学习算法的落地起着至关重要的作用！如果没有超越百万级图片数量的ImageNet数据集的整理提出，深度学习计算机视觉算法的落地进程肯定会被推迟！

http://picx.zhimg.com/v2-d369a472aecbeffd12e69f97092ae746_r.jpg?source=1940ef5c
随着各类基础CV算法的成熟，决定模型能否上线的关键，很大程度上取决于数据的质量以及数据是否被正确地使用！你和大厂差的往往并不是算法的先进性，而是数据的多少！然而这一点很容易被忽视，尤其是被缺少工业界实战经验的学习者忽视。
子欲学算法，必先搞数据！这就是我们这一门课期望帮大家搞定的问题！本课程内容包括数据的获取，数据的整理，数据的标注，数据增强，数据的分析等领域，覆盖了深度学习中数据使用的各个方向，大纲如下：

http://picx.zhimg.com/v2-d2ce3d456f22716b5684b7c26632d39e_r.jpg?source=1940ef5c
课程订阅地址如下：

http://picx.zhimg.com/v2-d7ba9a747515bd463fef7dbeb714f8c2_r.jpg?source=1940ef5c
完整的课程目录如下：

http://picx.zhimg.com/v2-656599c3080f5d89fbab19e9c0ade8ad_r.jpg?source=1940ef5c
课程的完整介绍，请大家点击下图阅读：
【视频课】深度学习必备基础，如何使用好数据？
http://picx.zhimg.com/v2-ec2504c21bd91da958e12659d73fb54b_r.jpg?source=1940ef5c
深度学习之图像分类对于刚接触深度学习计算机视觉的初学者来说，图像分类问题是最常见的问题，如何做好图像分类任务，关系到大家能否正确顺利地入门、如何学习接下来更加高阶的内容。
图像分类课程当前包含的内容共约14个小时，大纲如下。

http://pic1.zhimg.com/v2-ab399f30c95244eca0da6e2540fd0e7c_r.jpg?source=1940ef5c
理论部分：涵盖了深度学习之图像分类的各个研究方向，如图像分类简介、多类别图像分类、细粒度图像分类，多标签图像分类，弱监督图像分类，零样本图像分类等，既有足够的宽度，也具备有足够的深度。
实践部分：一共已经包含了5个实践案例，分别为人脸表情分类基本模型与ResNet实战，动物细粒度分类实战，生活用品多标签图像分类实战，基于血红细胞的图像分类竞赛技巧，从4大方向基于Pytorch实战来详解图像分类任务实践。

http://picx.zhimg.com/v2-c876d0a04b04ee8bbc5579e4fa41f9ec_r.jpg?source=1940ef5c

http://picx.zhimg.com/v2-caabbd5127227a313eded9ea89b63c67_r.jpg?source=1940ef5c
课程订阅地址如下：

http://picx.zhimg.com/v2-b6723786f8968b009d70a01a57511864_r.jpg?source=1940ef5c
课程的完整目录如下：

http://picx.zhimg.com/v2-d351416f77a370032f1d6cf658de4879_r.jpg?source=1940ef5c
课程的完整介绍，请大家点击下图阅读：
【视频课】深度学习CV算法必须掌握的内容，详解各种图像分类算法！
http://picx.zhimg.com/v2-f51fef866bf3dae523aa630aa1678ea2_r.jpg?source=1940ef5c
深度学习之图像分割图像分割是在图像分类基础上更加细粒度的像素级分类问题，在视频直播，电商推荐，自动驾驶，医学图像等行业中有着广泛的应用，是深度学习计算机视觉领域中非常底层的问题，也是必须掌握的核心算法，包含的东西非常多。
图像分割课程当前包含的内容共约14个小时，大纲如下：

http://picx.zhimg.com/v2-90f41347bff402ad72d1b7759a5f2c40_r.jpg?source=1940ef5c
理论部分：涵盖了深度学习之图像分割的各个研究方向，如图像分割基础、语义分割、弱监督语义分割，Image Matting，实例分割等，既有足够的宽度，也具备有足够的深度。
实践部分。本次课程中一共已经包含了4个实践案例，分别为人脸嘴唇分割实战，缺陷分割实战，Image Matting人像抠图实战，Mask RCNN实例分割实战，后续可能还会增加其他方向的实战。

http://picx.zhimg.com/v2-cbd25d3e7b57ac1d4feefb231d228898_r.jpg?source=1940ef5c
课程订阅地址如下：

http://pic1.zhimg.com/v2-db8dfa8283c47a136b762a88268198c1_r.jpg?source=1940ef5c
课程的完整目录如下：

http://picx.zhimg.com/v2-e43a100f01218e9df36ec177c2762cd1_r.jpg?source=1940ef5c
课程的完整介绍，请大家点击下图阅读：
【视频课】深度学习经典任务，详解各类图像分割算法理论与实践！
http://pic1.zhimg.com/v2-6109eea28d5f7697d7fab61d67c775a3_r.jpg?source=1940ef5c
深度学习之目标检测目标检测是计算机视觉和数字图像处理的一个热门方向，广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域，是图像处理和计算机视觉学科的重要分支，也是智能监控系统的核心部分，对后续的人脸识别、步态识别、人群计数、实例分割等任务起着至关重要的作用。
目标检测课程当前包含的内容共约28个小时。
理论部分内容包括：目标检测相关基础，包括流程与评价指标，two-stage算法-Faster RCNN系列详解、one-stage算法-YOLO系列详解，Anchor-free算法系列详解（包括Densebox，CenterNet，CornetNet等）；

http://pic1.zhimg.com/v2-7ec4f00ae7b3934ef22b86d18b7ccc2a_r.jpg?source=1940ef5c
实践部分共包含4个案例，分别是YOLOv3实战（工业缺陷检测）、Faster-RCNN实战（猫脸检测），CenterNet（电路板缺陷检测），MMdetection框架使用；

http://picx.zhimg.com/v2-7d81c8552a5c322a746e49a857e9b22c_r.jpg?source=1940ef5c

http://picx.zhimg.com/v2-83a2610430efdcdc659a7bc253ab6084_r.jpg?source=1940ef5c
课程订阅地址如下：

http://picx.zhimg.com/v2-2bacc60a93161aa0a112a2598f908017_r.jpg?source=1940ef5c
完整的课程目录如下：

http://picx.zhimg.com/v2-bb9a414c1ce624354ed4e464110dd8ca_r.jpg?source=1940ef5c
课程的完整介绍，请大家点击下图阅读：
【视频课】深度学习最有价值的CV领域，30小时掌握目标检测（附作者经历分享）！
http://picx.zhimg.com/v2-44357ce6df1a16ae09c8c44329005c4e_r.jpg?source=1940ef5c
合集专栏如果大家想要同时订阅CV基础专栏，推荐用如下的合集：不仅更加优惠，而且合集中还附带有额外的视频《深度学习之Pytorch入门实战》与有三AI知识星球，扫码即可订阅，地址如下：

http://pic1.zhimg.com/v2-95a6039c4ea1f54a3348d6a0e63b28b8_r.jpg?source=1940ef5c
《深度学习之Pytorch入门实践篇》的内容包含PyTorch简介、PyTorch环境配置、张量简介、PyTorch中的层结构及初始化、PyTorch中的损失函数、PyTorch中的优化器、PyTorch中的数据读取、PyTorch中的模型加载与保存、基于PyTorch的人脸表情图像分类等内容，目前总课时超过5个小时。
课程采用理论加Pytorch实战的方式进行讲解，大纲如下：

http://picx.zhimg.com/v2-5d18c6ac5450f8ae1682bc6f79c8b3ed_r.jpg?source=1940ef5c
完整目录可以扫码阅读详情：

http://pica.zhimg.com/v2-33bd4eb917a7c9e215e669653a92bc84_r.jpg?source=1940ef5c
本系列课程配套有专门的答疑群，订阅后在课程的订阅详情处可以找到小助手的联系方式入群，言有三本人每天都在群里进行答疑。

http://pic1.zhimg.com/v2-3003daf133627031bd0f883efe3441b1_r.jpg?source=1940ef5c
------------------------------------这是分隔线------------------------------------
另外我们还有一个知识星球社区，也是一年更新几百期原创内容，里面的内容相当的多。
【杂谈】有三AI知识星球指导手册出炉！和公众号相比又有哪些内容？1 知识星球是什么
有三AI知识星球依托于知识星球APP，2019年3月12日创建，目前由言有三全职独立运营。

http://picx.zhimg.com/v2-460c57245eb6aaa8dc39bd6996300e04_r.jpg?source=1940ef5c
如果说微信公众号是有三AI的第一免费生态，那么有三AI知识星球就是我们的第一付费生态，两者的共同特点是，只专注于做系统性的原创。下面我们来重点介绍一下知识星球社区的特点，有了微信公众号，为什么我们还一定需要知识星球？
2 可以自由提问
公众号和知乎最缺失的内容是什么？实时的自由交流，这就是知识星球最重要的功能之一了。在星球里可以向有三私信提问，也可以直接自己发状态提问和大家交流，还可以向嘉宾提问，有三会在每天睡觉之前清空问题(一些非常难以回答的提问除外)。

http://pic1.zhimg.com/v2-472e0f40a40a05d8f5e805eba5114425_r.jpg?source=1940ef5c
关于提问功能，有两点值得大家注意：
(1) 不只是可以向有三提问，也可以向所有人提问，其中我们星球里还有许多重量级的嘉宾，包括阿里达摩院，腾讯AILab，百度IDL，奇虎360AI研究院，海康威视研究院，陌陌深度学习实验室以及其他一线互联网公司AI部门的资深技术专家，主管，甚至是总监；包括计算机视觉，OpenCV，Java，Android等技术领域的行业专家，优秀专业自媒体，畅销书作家，相信在圈子里的大家肯定都认识的；包括CSDN，Gitchat等创始人，相信大家对于敢于当老板的大佬一定是有很多的问题想问的。
(2) 可以选择免费提问，也可以选择付费提问，当你想向大咖提问又不好意思的时候，不妨私信发个红包提问，当然跟有三提问是大家的权益，不需要选择付费私信。
3 存有重要资料
知识星球作为一个社区，还可以补足微信公众号的另外一个短板，存储资料，包括有三分享的也包括星友分享的，下图可以稍微感受一下大家的下载热情。

http://picx.zhimg.com/v2-68098088a6cca36a9b5e0bb73b4a22c0_r.jpg?source=1940ef5c
里面的重点包含两方面内容：
(1)公众号付费图文。公众号已经开启付费图文内容，其中作者同意发布到知识星球社区的，将在一周后进行同步。有三承诺，凡是价值不超过知识星球年费10%的，一律会同步到社区。

http://picx.zhimg.com/v2-5d584ac63b5bd493edd8a84215f8efa7_r.jpg?source=1940ef5c
(2) 有三非公开分享内容。有很多的资料，比如直播PPT，项目代码，是没法在公众号实时分享的，这会放在星球。有一些以前在公众号分享过的，后续的更新都会及时在星球通知。
4 用户可以赚钱
这第四条想必大家很感兴趣，加入星球固然要交一两百块钱的年费，但是如果你愿意稍微努力一下，很快就能赚回来，甚至远超，因为在这里你确实可以赚钱。

http://picx.zhimg.com/v2-ccc2cbcfcd62205f2af8d246b6005c5e_r.jpg?source=1940ef5c
(1) 推荐分享我们的星球给别人，如果别人加入，直接可以获得赏金，当前一个人加入赏金就是50元，这非常适合自己还有自媒体平台的朋友，一次赚几百完全不是问题，记得用自己分享的二维码。
(2) 参与小作业，分享干货内容，有三会直接进行打赏，有付出有回报，这才是一个良性的循环。
总之一句话，有心做事，与生态就可以共赢。毕竟不是所有的小伙伴都可以成为公众号的博主，这需要付出很多的时间，但是在社区里，你可以充分展示自己的才华，获得众人的关注，成为人气小偶像，甚至获得不少的付费收入，还有老大们的另眼青睐。
5 参加线下活动
原则上，我们每周都是有线下活动的，有三人在哪，活动就在哪，活动主要是组织当地的大家一起认识，结交人脉，共享资源，今年会增加更多的技术内容。

http://pica.zhimg.com/v2-c3467b6e63ed51b45f118dd61bff281c_r.jpg?source=1940ef5c
6 大量技术干货
说到这里，就是我们星球中最重要的一块了，那就是我们星球整个的技术内容板块，主要包括AI领域最核心的问题，比如模型设计优化和数据集等，大家可以点击标签快速进入所有内容。

http://pic1.zhimg.com/v2-4b050ba64e0b0a901e23f6fb02c7428b_r.jpg?source=1940ef5c

http://picx.zhimg.com/v2-b994b26bdf0f6147f8c5ae02de23813f_r.jpg?source=1940ef5c
下面对其中的重要板块进行介绍。
(1) 网络结构1000变。我们在公众号推送了很多的模型结构和优化的知识，但是公众号能发的内容是有限的，而模型结构优化的知识太多了，因此我们通常是将入门的，大致的学习路线放在了公众号，而更多的进阶内容放在了星球，形式差不多就是如下，会解读论文细节，提供文章下载，介绍开源项目，有一些会剖析代码，进行实验，本板块不是简短的信息摘要。

http://picx.zhimg.com/v2-f04af66de551bec9d2962f918ea8f087_r.jpg?source=1940ef5c
以最近三个月的内容为例，我们主要是关注模型优化(模型剪枝，模型量化，模型蒸馏)，生成对抗网络(GAN)，三维重建等方向。

http://pic1.zhimg.com/v2-5c81f0bc771fd6ff994edee7e98d5c9d_r.jpg?source=1940ef5c

http://picx.zhimg.com/v2-e85be4ae9e855663c52ea04a570b2fca_r.jpg?source=1940ef5c

http://pica.zhimg.com/v2-ff9cda39e5d252237526b35b021ed3e3_r.jpg?source=1940ef5c
目前网络结构1000变里面的内容太多了，有三在星球里有超过600条状态，其中一半以上都是网络结构相关的，因此大家可以感受一下，下面是一个目录，细节处大家可以移步星球详读。

http://picx.zhimg.com/v2-ecdc0027d980f1f128b0b59e8e0afa8e_r.jpg?source=1940ef5c
(2) 数据集。模型解决了接下来就是数据问题，那么基于什么样的原则做分享呢？星球里不仅包括ImageNet，EffectNet等超过100G的大型数据集，不容易下载的数据集。也包括各个方向的有趣的数据集，一些案例如下：

http://picx.zhimg.com/v2-9336a3730e6ebc7f189ce9dcd088535a_r.jpg?source=1940ef5c

http://picx.zhimg.com/v2-bbb9347ac1fbdb5d450c963455501828_r.jpg?source=1940ef5c
如果你想要更多的数据集，直接在星球里求助即可，已经有一些小伙伴这样得到了帮助，瞧瞧没准能节省你不少时间。或许你会觉得，数据集有什么好说的呢？其实不然。一个新的数据集的诞生，往往意味着一个新的方向的开始，你的新idea，或者从此诞生。
(3) 其他。除了上述内容，还包括AI1000问，看图猜技术，GitHub项目，AI知识汇总，每周读论文等板块，篇幅和精力有限就不做详细介绍，大家可以看一些图感受一下，阅读本文的一些链接了解详细。

http://pica.zhimg.com/v2-83c6df361c2223026f211b6aed974769_r.jpg?source=1940ef5c

http://picx.zhimg.com/v2-51d8e216a8fa401ffcb80c9f63f52f3c_r.jpg?source=1940ef5c

http://picx.zhimg.com/v2-976b3d1baf266ec995bbc9fffbe00c6d_r.jpg?source=1940ef5c

http://pica.zhimg.com/v2-1d6dbf54b8584ae0d6eb7591d8b715fc_r.jpg?source=1940ef5c
7 寄语
总之一句话，有三AI知识星球生态已经拥有非常庞大的原创内容，有三在这里花费的时间不比其他平台少，而且今年会更多，还要继续拓展技术板块，攻城略地。
如果你看好我们，那就扫码加入吧。
上述内容，只是有三AI生态的一小部分，如果不信，请移步公众号《有三AI》自行验证。

918外链网 发表于 2023-10-17 18:02:29

如果你能做到研究生期间努力自学网课+公司实习+参与学校研发项目，那么三年时间足以让你ready for the real world. 我是2016年9月读硕期间正式接触计算机视觉领域，2018年一月入职小公司做实习，6月到了北美OPPO做全职，到2019年9月的时候已经任职了奔驰北美研究所senior职位，合起来总共也是用了三年左右的时间。在这里想系统地总结一下个人经验与学习步骤。

[*]第一阶段——了解传统CV.
我十分不建议一开始就搞深度学习，从传统的计算机视觉入手会让你对图像领域的本质有更深刻的了解，另外在很多问题上深度学习与传统CV相结合才是最好的方案。比如我们现在玩的超级夜景，基本都是传统多帧融合增加细节+深度模型去噪才有最有效果。
另外我也不建议新手一开始就啃什么概率论，线性代数，马可夫链等等，因为在没有对计算机视觉领域有一个大概认识与实际接触之前啃这些理论会让你一头雾水，很容易劝退, 就算啃完了一会就忘记了。在第一阶段我的建议是，从应用（调包）入手，只大概了解相应的数学理论，就算有点迷糊也不要太计较。比如说你在学习SIFT，你只要知道它是用来做什么的，大概是一个什么流程（确认interesting point, 确认patch主方向，提取feature descriptor）以及如何在opencv里调用就好。里面的DOG到底是什么数学原理之类的，大概了解下就行。这一阶段只有一个目的——让你最快速地了解传统计算机视觉里面到底有哪些模块，是什么样子的。在这里我推荐一个udemy上适合的网课。这一阶段一般两周到一个月就可以完成。
Master Computer Vision™ OpenCV4 in Python with Deep Learning2. 第二阶段——接触深度学习
既然我们已经大概了解了”老一辈“的做法，下一步自然该过渡到新时代的宠儿深度学习了（其实Neural Network很多年前就有了，多亏了大数据时代才能发光）。与第一阶段不同，在你学习深度学习时，对其中的数学一定要搞明白。一是深度学习的数学较为简单，二是深度学习本来就像一个黑匣子，如果你再不搞清楚里面是怎么运转的，到后面一定会一头雾水。最起码的要求是，你可以手推forward and backward propagation。同时建议学习Tensorflow + Pytorch framework. 深度学习的网课实在太多了，这里推荐cousera Andrew NG系列。这一阶段大概需要一到两个月。
https://www.coursera.org/specializations/deep-learning#courses3. 第三阶段——参与学校项目
在前两个阶段结束后，你对整个CV已经有了基本的认识，是时候进入实战训练。最好的机会就是参与学校各个实验室里的相关项目，在解决实际问题时提高自己。在这里有几个要点要注意：1.一定要把项目涉及到的理论搞熟，不要继续当一个调包侠。2.在此期间大量阅读相关的论文。3.虽然是学校项目，代码一定要写规范，养成良好习惯，方便以后进入工业界。可以参考谷歌的style guide
styleguide4.第四阶段——夯实理论，学习C++与statistic learning
这一阶段可以与第三阶段同时进行。该阶段主要为了补足之前第一阶段的理论缺陷，同时为后续去公司实习面试做准备。这一次你可以跟随LearnOpencv（https://www.learnopencv.com/）进行C++的课程学习，因为C++对于算法落地具有重要意义，必须要熟练掌握。同时要注意，这一次要把每一块的算法背后的数学理论尽可能地搞透。搞定这门课程之后，你的能力将会上一个新的台阶，可以拓宽自己学习一些statistic相关课程，弄清楚什么是随机森林，KNN, K-Means，PCA等传统统计算法。
5.第五阶段——为公司实习做准备。
经历了前四个阶段后，时间大概已经过去了一年多一些。你已经完成了许多知识储备，同时参与了学校一到两个不错的项目，是时候准备一下面试，参与公司的暑期实习了。在这一阶段你可以继续参与着学校项目，但是要拿一部分时间出来准备暑期实习。面试其实无非考三大模块——你的项目经历，代码能力与理论基础。可以刷一些medium以下的leetcode问题，然后开始系统学习一下线性代数、贝叶斯理论，同时多看看面经，至少要拿出三个月的时间为实习做准备。
6.剩余阶段
在你完成上述事情之后，基本只剩下了一年到一年半的时间。剩余的时间你可以继续刷题提高代码能力，接着参与学校项目，恶补理论基础，也可以在业余时间参加一些开源项目，并且在最后一个暑假再拿一个实习，这次争取拿到Return offer.
总结

这六个阶段基本就是当年我的经历，你在未来三年内会过的很累但是充实而快乐。另外，千万不要忘记锻炼身体，好的身体是革命的本钱！

ytey3j47r4 发表于 2023-10-17 18:02:37

深度学习目前已经成为了计算机视觉领域的重要方法，是建议学习的。
比较基础的深度学习网络结构包括：
① 卷积神经网络
AlexNet是一种经典的卷积神经网络结构，在2012年的ImageNet竞赛中获得了冠军。

http://pic1.zhimg.com/v2-cf07a3450415c3a9369f152bb4824980_r.jpg?source=1940ef5c

AlexNet

② 深度残差网络
残差网络ResNet是一种层数极深的卷积神经网络，它的特殊之处在于引入了跨层恒等连接。

http://picx.zhimg.com/v2-725f1d8a11c2859ca1ef004908718276_r.jpg?source=1940ef5c

ResNet

③ 深度残差收缩网络
当数据噪声较强、冗余较多时，深度残差收缩网络是合适的选择。它在基本模块中引入了软阈值化，而且能够自动设置软阈值化的阈值，能够自适应地消除冗余信息。

http://picx.zhimg.com/v2-a0430268e517f14cefbe087b952dd972_r.jpg?source=1940ef5c

（面向强噪、高冗余数据的）深度残差收缩网络

wo177775 发表于 2023-10-17 18:02:54

计算机视觉也是一个大类啊，具体的呢，我身边有用FPGA做图像去雾的，貌似很高端的样子。只是想做纯软件的图像的话，看看深度学习啊，cv方向的，目标检测什么的，当然，结合嵌入式，那就更高端了！

页: [1]

今日问答's Archiver

研究生阶段如何自学计算机视觉？