你们都是怎么学习计算机视觉的？

dle5374 · 发表于 2023-10-26 23:45:55|来自：中国

你们都是怎么学习计算机视觉的？

杰克豆 · 发表于 2023-10-26 23:46:09|来自：中国

首先，基础的机器学习知识必不可少，因为传统的一些方法就是手工特征+机器学习方法等，在2012年以前的ImageNet视觉挑战赛上获胜，这里安利一些资料，不过都是老生常谈了。如周志华老师的《机器学习》、李航老师的《统计学习方法》、《机器学习实践》、吴恩达老师的cs229、李宏毅老师的机器学习视频（B站就有），除此以外，基础的图像处理知识也是必不可少的，比如冈萨雷斯的《数字图像处理》。

其次的话，就是深度学习了，2012年以后深度学习方法在计算机视觉领域一骑绝尘，经典网络必须要知道，LeNet、AlexNet、VGG、GoogLeNet、ResNet、DenseNet、SENet等，还有一些轻量级的网络，比如ShuffleNet、MobileNet系列，我在第七章节中已经更新了相关论文的解读和源码实现。在更详细的任务中，有一些经典任务，上述的一些网络主要是分类网络，用于分类的，比如给一张图，输出图片是猫还是狗，但是会有很多更复杂的问题，比如图像既有猫又有狗，这时候网络应该输出什么呢？这样就衍生出了经典任务中的检测任务、分割任务等。
检测任务实际是输出目标的位置和概率，位置就是用bounding box圈出目标物体。目标检测大概的发展是这样（本人水平有限，难免会有错误，欢迎批评指正），在一张图中密集生成候选框，然后提取特征+机器学习分类器，这里就有一个问题如何生成候选框，滑窗法、随机搜索法等，不断发展。2014年出现了一个很出名的文章——RCNN，将深度学习用到目标检测中，但是仅仅是将CNN作为特征提取器。在此就不再赘述，RCNN系列（RCNN、Fast RCNN、Faster RCNN、Mask RCNN）、YOLO系列（YOLO v1、YOLO v2、YOLO v3）以及SSD，从去年开始涌现了一些anchor-free的工作，在ECCV 2018上出现了一个工作——CornerNet，提出了一个想法——把目标检测问题转换成关键点检测问题，之后涌现了CenterNet、ExtremeNet等一系列基于关键点的目标检测工作。最近谷歌有一些NAS和目标检测的工作，以及用强化学习的方式选择数据增广策略（近期我会复现该论文的数据增广策略）。

像分割任务，是像素级的分类问题，同样也有传统方法和深度学习方法，深度学习比较经典的方法是FCN，输出大小和输入大小应该是一致的（这里大小是长宽）。目标追踪任务和检测任务有一些相似，但有一些不同之处，对每一帧进行检测的效果和追踪十分类似，但是目标检测通常检测的是已知类别，追踪可以追踪给定的第一帧里的内容，有一些传统方法、相关滤波方法以及深度学习方法，比如孪生网络系列的文章。再衍生出来的话，还有Re-ID。除此以外，还有很多很多计算机视觉任务，比如超分辨率、三维重建（还涉及计算机图形学等），由于篇幅有限就不一一介绍这些任务的基本发展了，可以找一些论文自己研读，注意不仅仅是最近的文章，还有上个世纪的文章，最好写个综述，看个几十上百篇文章，读读代码。
有一些计算机视觉、深度学习方向的课和书籍，比如 @李沐老师的《动手学深度学习》，有课有jupyter notebook，非常好，相见恨晚，还有花书《深度学习》、《计算机视觉：算法与应用》、《计算机视觉——一种现代方法》、《计算机视觉：模型、学习和推理》等。课的话，可以看cs231n，非常经典的计算机视觉课程，cs224d，虽然这门课是nlp的课，但是RNN这些东西对时间序列建模有非常大的帮助，可以也关注一下。最近需要的关注的还有GNN paper list，用图的思想去处理一些计算机视觉问题，以及CV和NLP结合还有一些任务，比如很早之前就有的VQA、caption等，这里有一篇论文可以参考一下，Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods。
除此以外，代码能力也非常有必要。无论是传统的数字图像处理还是图形学，最近我就在看一些图形学的算法并打算逐一实现，还是深度学习方法，都需要有一定的代码能力，平时多看看别人写的代码，学习一下，最近我就复现了一篇ECCV 2018的文章HairNet，相对我之前的代码就非常工程化，也便于在其他设备上进行使用。传统数字图像处理使用matlab比较多一点，图形学使用C++多一点，深度学习时代的一些代码主要基于python，还有一些深度学习框架，例如pytorch、mxnet、tensorflow、caffe、darknet等，目前这几种都或多或少地使用多，安利前面两种，pytorch目前也是比较主流的框架了，mxnet可以基于李沐大大那本书就学习，对理解底层的代码比较有帮助，我就是通过那个代码理解dataloader具体是怎么实现的。
“快速”二字，我不知道该如何体现，这个因人而异吧，笨鸟先飞，勤能补拙，好好学习总是会有收获的，提升是不知不觉之中的，就像我不知不觉之中就从NLP、KG圈就跑去搞CV、CG了（滑稽脸.jpg）。
那讲了这么多，也是我对计算机视觉领域的理解，我将这些内容从一个初学者的角度设计了一个闭环学习框架，面向实际业务场景，通过工程能力的将计算机视觉这一学习任务处理成为一种在线学习反馈的体验。

在我们开始写这本书的时候，没有资源能够同时满足一些条件：

（1）是最新的；
（2）涵盖了现代机器学习的所有领域，技术深度丰富；
（3）在一本引人入胜的教科书中，你可以在实践教程中找到干净的可运行代码，并从中穿插高质量的阐述。

我们发现了大量关于如何使用给定的深度学习框架（例如，如何对TensorFlow中的矩阵进行基本的数值计算)或实现特定技术的代码示例（例如，LeNet、AlexNet、ResNet的代码片段），这些代码示例分散在各种博客帖子和GitHub库中。但是，这些示例通常关注如何实现给定的方法，但忽略了为什么做出某些算法决策的讨论。虽然一些互动资源已经零星地出现以解决特定主题。例如，在网站Distill上发布的引人入胜的博客帖子或个人博客，但它们仅覆盖深度学习中的选定主题，并且通常缺乏相关代码。另一方面，虽然已经出现了几本教科书，其中最著名的是:cite:Goodfellow.Bengio.Courville.2016（中文名《深度学习》），它对深度学习背后的概念进行了全面的调查，但这些资源并没有将这些概念的描述与这些概念的代码实现结合起来。有时会让读者对如何实现它们一无所知。此外，太多的资源隐藏在商业课程提供商的付费壁垒后面。
我们着手创建的资源可以：

（1）每个人都可以免费获得；
（2）提供足够的技术深度，为真正成为一名应用机器学习科学家提供起步；
（3）包括可运行的代码，向读者展示如何解决实践中的问题；
（4）允许我们和社区的快速更新;
（5）由一个论坛作为补充，用于技术细节的互动讨论和回答问题。

这些目标经常是相互冲突的。公式、定理和引用最好用LaTeX来管理和布局。代码最好用Python描述。网页原生是 HTML 和JavaScript的。此外，我们希望内容既可以作为可执行代码访问、作为纸质书访问，作为可下载的PDF访问，也可以作为网站在互联网上访问。目前还没有完全适合这些需求的工具和工作流程，所以我们不得不自行组装。我们在 :numref:sec_how_to_contribute 中详细描述了我们的方法。我们选择GitHub来共享源代码并允许编辑，选择Jupyter记事本来混合代码、公式和文本，选择Sphinx作为渲染引擎来生成多个输出，并为论坛提供讨论。虽然我们的体系尚不完善，但这些选择在相互冲突的问题之间提供了一个很好的妥协。我们相信，这可能是第一本使用这种集成工作流程出版的书。
在实践中学习

许多教科书教授一系列的主题，每一个都非常详细。例如，克里斯·毕晓普（Chris Bishop）的优秀教科书 :cite:Bishop.2006 ，对每个主题都教得很透彻，以至于要读到线性回归这一章需要大量的工作。虽然专家们喜欢这本书正是因为它的透彻性，但对于初学者来说，这一特性限制了它作为介绍性文本的实用性。

本项目已经发布就收获了大量关注，持续登陆GitHub中文榜前三。

<hr/>最近一些经历给我一些感触，传统的一些数字图像处理方法还是必不可少的，数学上很fancy，实际上可能也比较work，同时兼具解释性等特点。入门计算机视觉，或者其他任何一个学科/领域，脚踏实地比较好，切不可建空中楼阁。
推荐个人计算机视觉实战专栏：
https://blog.csdn.net/charmve/category_10595130.html

aiayuan · 发表于 2023-10-26 23:46:16|来自：中国

其实计算机视觉的学习，可以结合视频+paper+代码的方式学习。入门阶段，可以学习下传统的CV算法，这类资料很多，图书+视频，并能够敲一遍代码；进阶阶段，要开始学习一些paper（CVPR,ICCV,ECCV），并有自己的思考，实现一些功能，看懂大佬们开源的代码；下一阶段，就是融会贯通了，能够根据读的文章，提出自己的idea，并且可以实现。建议参考下总结的学习路线：计算机视觉学习路线总结。

xtigmh · 发表于 2023-10-26 23:46:40|来自：中国

先明确自己想学的是传统方向还是深度学习方向。深度学习方向现在很火，但是趋向饱和，而且神经网络是黑盒模型，学多了很容易变成调参侠，建议都考虑。
关于传统方向珠玉在前，简单说下深度学习方向怎么入门：

了解神经网络基础相关，比较好的课程是cs231n，如果看了吃力可以先看coursera上吴恩达的机器学习课程，这里一定要理解透，公式都推一遍，作业好好写
选择一个子领域，最经典的一两篇论文看一看。比如目标检测的faster rcnn/yolo/ssd，第一篇会看得比较慢，但是别怕花时间，好几天，甚至一个星期以上都行，一定要把所有细节吃透。光看论文是不够的，因为很多地方不清楚，要结合代码看，推荐pytorch，找一个相对简单点的github开源项目，跟着调试过程一步步走。
根据之前看的文章，看后续的改进，比如faster rcnn之后可以看rfcn、light rcnn和cascade rcnn等等。记得多做笔记，整理好。

其实，做完这些基本就入门了，接下来你可以了解同一个领域的其它解决方案（比如目标检测之前看了多阶段、现在可以看单阶段，比如关键点检测一开始看了自下而上、现在可以看自上而下）。做完了这些，你就对你这个领域有相对宏观一点的认识了。
最后提醒你，不管怎么样，所谓算法工程师实质上还是程序员，一定要多看优秀的源码、多写代码，coding是最基本的也是最重要的，数学也很重要，有机会去学学传统机器学习、学好概率论。不要沉迷调参，沉迷用别人的代码修修补补，这样只是浪费时间。
如果对cv今年工作行情有疑问，可以看看我这篇回答，一家之言仅供参考，祝好～https://www.zhihu.com/answer/921555709

软件小平 · 发表于 2023-10-26 23:47:34|来自：中国

入门必备，推荐关注我们公众号《有三AI》，一年原创将近百万字的技术文章，大部分是计算机视觉领域，2019年终总结如下：
【年终总结】2019年有三AI做了什么，2020年我们要做什么？还有我在阿里云开设的深度学习课程，链接为：
深度学习原理与实践 - AI学习 - 阿里云天池我写的4本书：
言有三新书预售，不贵，有料言有三新书来袭！业界首次深入全面讲解深度学习模型设计言有三新书来袭，业界首次深入全面讲解深度学习人脸图像算法言有三新书来袭，业界首本深度学习计算摄影书籍，科技与艺术的结合我们的学习小组：
【总结】2022年有三AI-CV夏季划出炉，超200个课时+10个方向+30个项目，从理论到实践全部系统掌握【CV秋季划】生成对抗网络GAN有哪些研究和应用，如何循序渐进地学习好？【CV秋季划】模型算法与落地很重要，如何循序渐进地学习好（2022年言有三一对一辅导）？【CV秋季划】人脸算法那么多，如何循序渐进地学习好？【CV秋季划】图像质量提升与编辑有哪些研究和应用，如何循序渐进地学习好？我们的课程内容汇总：
【视频课】有三AI所有免费与付费的视频课程内容汇总（2022年1月）
接下来从两个方向来回答这个问题，第一个是从零开始怎么系统性入门计算机视觉，这是一个路线问题。第二个是如何系统性学习，涉及到计算机视觉的各个方向。

第一个问题，如何系统性进阶，我斗胆将学习深度学习的同志分为5大境界，分别是白身，初识，不惑，有识，不可知，下面一个一个道来，以计算机视觉方向为例。

1 白身

所谓白身境界，就是基本上什么都不会，还没有进入角色。在这个境界需要修行的内容包括：
(1) 熟练掌握linux及其环境下的各类工具的使用
(2) 熟练掌握python及机器学习相关库的使用
(3) 掌握c++等高性能语言的基本使用
(4) 知道如何获取和整理，理解数据
(5) 掌握相关的数学基础
(6) 了解计算机视觉的各大研究方向
(7) 了解计算机视觉的各大应用场景
(8) 了解行业的优秀研究人员，知道如何获取最新的资讯，能够熟练阅读简单的技术资料
如果掌握了这些，那么就从白痴，不，是白身境界晋级了。怎么判断这个境界呢？可以参考以下的文章，看看掌握的如何。

AI白身境界系列完整链接：

第一期：【AI白身境】深度学习从弃用windows开始
第二期：【AI白身境】Linux干活三板斧，shell、vim和git
第三期：【AI白身境】学AI必备的python基础
第四期：【AI白身境】深度学习必备图像基础
第五期：【AI白身境】搞计算机视觉必备的OpenCV入门基础
第六期：【AI白身境】只会用Python？g++，CMake和Makefile了解一下
第七期：【AI白身境】学深度学习你不得不知的爬虫基础
第八期：【AI白身境】深度学习中的数据可视化
第九期：【AI白身境】入行AI需要什么数学基础：左手矩阵论，右手微积分
第十期：【AI白身境】一文览尽计算机视觉研究方向
第十一期：【AI白身境】AI+，都加在哪些应用领域了
第十二期：【AI白身境】究竟谁是paper之王，全球前10的计算机科学家
2 初识

所谓初识，就是对相关技术有基本了解，掌握了基本的使用方法。在这个阶段，需要修行以下内容。
(1) 熟练掌握神经网络
(2) 培养良好的数据敏感性，知道如何正确准备和使用数据
(3) 至少熟练掌握一个深度学习框架的使用
(4) 熟悉深度学习模型的基本训练和调参，网络设计
(5) 掌握归一化，激活机制，最优化等对模型性能的影响
(6) 能熟练评估自己的算法，使用合适的优化准则

AI初识境界系列完整链接：

第一期：【AI初识境】从3次人工智能潮起潮落说起
第二期：【AI初识境】从头理解神经网络-内行与外行的分水岭
第三期：【AI初识境】近20年深度学习在图像领域的重要进展节点
第四期：【AI初识境】激活函数：从人工设计到自动搜索
第五期：【AI初识境】什么是深度学习成功的开始？参数初始化
第六期：【AI初识境】深度学习模型中的Normalization，你懂了多少？
第七期：【AI初识境】为了围剿SGD大家这些年想过的那十几招
第八期：【AI初识境】被Hinton，DeepMind和斯坦福嫌弃的池化，到底是什么？
第九期：【AI初识境】如何增加深度学习模型的泛化能力
第十期：【AI初识境】深度学习模型评估，从图像分类到生成模型
第十一期：【AI初识境】深度学习中常用的损失函数有哪些？
第十二期：【AI初识境】给深度学习新手开始项目时的10条建议
3 不惑

进入到不惑境界，就是向高手迈进的开始了，在这个境界的重点就是进一步巩固知识，并且开始独立思考。如果说学习是一个从模仿，到追随，到创造的过程，那么到这个阶段，应该跳过了追随，进入了创造的阶段。
如果是在学校读研究生，就要能够发表水平不错的文章，如果是在公司做业务，就要能够提出正确且快速的解决方案，如果是写技术文章，就要能够信手拈来原创写作而不需要参考。
这个阶段需要修行以下内容：
(1) 熟练玩转数据和模型对一个任务的影响
(2) 能够准确的分析出模型的优劣，瓶颈
(3) 对于新的任务能够快速寻找和敲定方案
(4) 拥有各种各样的深刻理解深度学习模型的技能，从可视化到参数分析等等等
(5) 能够优化模型到满足业务的需求，实现工业级落地
(6) 了解行业的最新进展，并在某些领域有自己的独到理解

不惑境界的内容

第一期：【AI不惑境】数据压榨有多狠，人工智能就有多成功
第二期：【AI不惑境】网络深度对深度学习模型性能有什么影响？
第三期：【AI不惑境】网络的宽度如何影响深度学习模型的性能？
第四期：【AI不惑境】学习率和batchsize如何影响模型的性能？
第五期：【AI不惑境】残差网络的前世今生与原理
第六期：【AI不惑境】移动端高效网络，卷积拆分和分组的精髓
第七期：【AI不惑境】深度学习中的多尺度模型设计
第八期：【AI不惑境】计算机视觉中注意力机制原理及其模型发展和应用
第九期：【AI不惑境】模型剪枝技术原理及其发展现状和展望
第十期：【AI不惑境】模型量化技术原理及其发展现状和展望
第十一期：【AI不惑境】模型压缩中知识蒸馏技术原理及其发展现状和展望
第十二期：【AI不惑境】AutoML在深度学习模型设计和优化中有哪些用处？
4 有识

到这里，就步入高手境界了。可以大胆地说自己是一个非常合格的深度学习算法工程师甚至是研究员了，在自己研究的领域里处于绝对的行业前沿，对自己暂时不熟悉的领域也能快速地触类旁通。
无论是眼界，学习能力，还是学习态度都是一流水平，时而大智若愚，时而锋芒毕露，当之无愧的大师兄。
这个修行之路仍然在更新中，我们发布了超过360页的指导手册和GitHub项目，大家可以去自行获取。
【通知】有三AI更新420页14万字视觉算法工程师成长指导手册，可下载收藏打印【完结】给新手的12大深度学习开源框架快速入门项目

------------------------------------这是分隔线------------------------------------

第二个问题，如何系统性学习，大家就可以去我们公众号《有三AI》和知乎专栏《有三AI学院》看，覆盖CV/NLP两大领域，涵盖深度学习数据和模型、GAN、AutoML等基础技术，人脸图像，医学图像，图像分类分割等应用领域，学习资源、系统性的论文推荐、AI行业与产品等学习资料，将近30个专栏，500多篇原创文章，超过100万字，下图是其中的一个大目录。

下面是一些综述性质的总结文章举例和两个适合初学者的专栏内容。

【总结】深度学习小白不可错过！超过570页文档+40节视频+开源代码！
【杂谈】篇篇精华，有三AI不得不看的技术综述(超过100篇核心干货)
【杂谈】GAN对人脸图像算法产生了哪些影响？
【杂谈】那些底层的图像处理问题中，GAN能有什么作为？
【技术综述】人脸算法新热点，人脸编辑都有哪些方向，如何学习
【技术综述】基于3DMM的三维人脸重建技术总结
【技术综述】深度学习中的数据增强方法都有哪些？
【总结】最全1.5万字长文解读7大方向人脸数据集v2.0版，搞计算机视觉怎能不懂人脸
【年终总结】2019年有三AI NLP做了什么，明年要做什么？
【年终总结】有三AI至今在人脸图像算法领域都分享了哪些内容？
【年终总结】2019年有三AI知识星球做了什么，明年又会做什么
【小结】除了网络搜索(NAS)，AutoML对深度学习模型优化还有哪些贡献？
【完结】12篇GAN的优化文章大盘点，浓浓的数学味儿
【杂谈】有三AI不得不看的技术综述(超过100篇核心干货)
【总结】言有三&阿里天池深度学习模型设计直播汇总，附赠超过200页直播PPT课件
【完结】16篇图像分类干货文章总结，从理论到实践全流程大盘点！
【完结】12篇文章带你逛遍主流分割网络
【完结】优秀的深度学习从业者都有哪些优秀的习惯
【完结】给新手的12大深度学习开源框架快速入门项目

1 深度学习模型设计

第一期：【模型解读】从LeNet到VGG，看卷积+池化串联的网络结构
第二期：【模型解读】network in network中的1*1卷积，你懂了吗
第三期：【模型解读】GoogLeNet中的inception结构，你看懂了吗
第四期：【模型解读】说说移动端基准模型MobileNets
第五期：【模型解读】pooling去哪儿了？
第六期：【模型解读】resnet中的残差连接，你确定真的看懂了？
第七期：【模型解读】“不正经”的卷积神经网络
第八期：【模型解读】“全连接”的卷积网络，有什么好？
第九期：【模型解读】从“局部连接”回到“全连接”的神经网络
第十期：【模型解读】深度学习网络只能有一个输入吗
第十一期：【模型解读】从2D卷积到3D卷积，都有什么不一样
第十二期：【模型解读】浅析RNN到LSTM
第十三期：【模型解读】历数GAN的5大基本结构
2 开源框架速成（更新中）

第一篇：【caffe速成】caffe图像分类从模型自定义到测试
第二篇：【tensorflow速成】Tensorflow图像分类从模型自定义到测试
第三篇：【pytorch速成】Pytorch图像分类从模型自定义到测试
第四篇：【paddlepaddle速成】paddlepaddle图像分类从模型自定义到测试
第五篇：【Keras速成】Keras图像分类从模型自定义到测试
第六篇：【mxnet速成】mxnet图像分类从模型自定义到测试
第七篇：【cntk速成】cntk图像分类从模型自定义到测试
第八篇：【chainer速成】chainer图像分类从模型自定义到测试
第九篇：【DL4J速成】Deeplearning4j图像分类从模型自定义到测试
第十篇：【MatConvnet速成】MatConvnet图像分类从模型自定义到测试
第十一篇：【Lasagne速成】Lasagne/Theano图像分类从模型自定义到测试
第十二篇：【darknet速成】Darknet图像分类从模型自定义到测试

将近500篇成系统的文章，超过100万字原创，相信全网没有第二个这样的计算机视觉公众号，希望对你有用。

接下来是重点内容

计算机视觉中大大小小可以包括至少30个以上的方向，在基于深度学习的计算机视觉研究方向中，图像分类，图像分割，目标检测无疑是最基础最底层的任务，掌握好之后可以很快的迁移到其他方向，比如目标识别，目标跟踪，图像增强等。为了让大家能够掌握好相关技术，我们平台开设了若干门相关的视频课程，分别从理论和实践详细讲解了其中的核心技术。
这不是随便拼凑一些案例堆积而成的快消课程，而是真正希望大家可以借助课程完成整个领域的学习，而且课程内容一直都在持续保持更新，每次更新小鹅通都会有消息通知的，请大家及时关注。
另外，有三还录制了38个课时的免费深度学习基础课程供大家夯实自己的基础知识，下面请听详细介绍：

深度学习基础

2021年3月份有三AI与阿里天池联合推出了深度学习基础课程，课程内容包括人工智能与深度学习发展背景，深度学习典型应用，卷积神经网络，循环神经网络，生成对抗网络，深度学习开源框架等内容，目前已经完结。

本课程不仅讲述神经卷积，卷积神经网络，生成对抗网络等内容，还包括深度学习的典型应用，模型的设计，深度学习框架等内容，具有足够的深度和宽度，通用性强，下面是当前的课程内容。
第1课：人工智能简介
第2课：深度学习崛起背景
第3课：深度学习典型应用与研究方向之语音处理
第3课：深度学习典型应用与研究方向之计算机视觉
第3课：深度学习典型应用与研究方向之自然语言处理
第3课：深度学习典型应用与研究方向之推荐系统
第4课：神经网络（上）
第4课：神经网络（下）
第5课：卷积神经网络（上）
第5课：卷积神经网络（下）
第6课：深度学习优化之激活函数与参数初始化
第6课：深度学习优化之标准化与池化
第6课：深度学习优化之泛化与正则化
第6课：深度学习优化之最优化
第6课：深度学习优化之优化目标与评估指标
第6课：深度学习优化之数据增强
第7课：深度学习框架之Pytorch快速入门与实践
第7课：深度学习框架之Caffe快速入门与实践
第7课：深度学习框架之Tensorflow快速入门与实践
实践课1：从零完成人脸表情分类任务
第8课：循环神经网络之RNN及其改进
第9课：图神经网络基础
第10课：模型设计之网络宽度和深度设计
第10课：模型设计之残差网络
第10课：模型设计之分组网络
第10课：模型设计之卷积核设计
第10课：模型设计之注意力机制
第10课：模型设计之动态网络
第11课：深度生成模型基础
第11课：深度生成模型之自编码器与变分自编码器
第11课：深度生成模型之GAN基础
第11课：深度生成模型之GAN优化目标设计与改进
实践课2: 从零使用GAN进行图片生成
第11课：深度生成模型之数据生成GAN结构与应用
第11课：深度生成模型之图像翻译GAN结构与应用
第11课：深度生成模型之GAN的评估
实践课3：基于GAN的人脸图像超分辨
课程地址为：https://tianchi.aliyun.com/course/279推荐深度学习基础不好的朋友学习，千万不要再为一些基础内容课程去付费了，这些内容一开始我们平台就提供了海量的免费资料。

有了扎实的深度学习基础后，才能真正进入计算机视觉专业知识的学习。

深度学习之数据使用

数据是深度学习系统的输入，对深度学习算法的落地起着至关重要的作用！如果没有超越百万级图片数量的ImageNet数据集的整理提出，深度学习计算机视觉算法的落地进程肯定会被推迟！

随着各类基础CV算法的成熟，决定模型能否上线的关键，很大程度上取决于数据的质量以及数据是否被正确地使用！你和大厂差的往往并不是算法的先进性，而是数据的多少！然而这一点很容易被忽视，尤其是被缺少工业界实战经验的学习者忽视。
子欲学算法，必先搞数据！这就是我们这一门课期望帮大家搞定的问题！本课程内容包括数据的获取，数据的整理，数据的标注，数据增强，数据的分析等领域，覆盖了深度学习中数据使用的各个方向，大纲如下：

课程订阅地址如下：

完整的课程目录如下：

课程的完整介绍，请大家点击下图阅读：
【视频课】深度学习必备基础，如何使用好数据？

深度学习之图像分类

对于刚接触深度学习计算机视觉的初学者来说，图像分类问题是最常见的问题，如何做好图像分类任务，关系到大家能否正确顺利地入门、如何学习接下来更加高阶的内容。
图像分类课程当前包含的内容共约14个小时，大纲如下。

理论部分：涵盖了深度学习之图像分类的各个研究方向，如图像分类简介、多类别图像分类、细粒度图像分类，多标签图像分类，弱监督图像分类，零样本图像分类等，既有足够的宽度，也具备有足够的深度。
实践部分：一共已经包含了5个实践案例，分别为人脸表情分类基本模型与ResNet实战，动物细粒度分类实战，生活用品多标签图像分类实战，基于血红细胞的图像分类竞赛技巧，从4大方向基于Pytorch实战来详解图像分类任务实践。

课程订阅地址如下：

课程的完整目录如下：

课程的完整介绍，请大家点击下图阅读：
【视频课】深度学习CV算法必须掌握的内容，详解各种图像分类算法！

深度学习之图像分割

图像分割是在图像分类基础上更加细粒度的像素级分类问题，在视频直播，电商推荐，自动驾驶，医学图像等行业中有着广泛的应用，是深度学习计算机视觉领域中非常底层的问题，也是必须掌握的核心算法，包含的东西非常多。
图像分割课程当前包含的内容共约14个小时，大纲如下：

理论部分：涵盖了深度学习之图像分割的各个研究方向，如图像分割基础、语义分割、弱监督语义分割，Image Matting，实例分割等，既有足够的宽度，也具备有足够的深度。
实践部分。本次课程中一共已经包含了4个实践案例，分别为人脸嘴唇分割实战，缺陷分割实战，Image Matting人像抠图实战，Mask RCNN实例分割实战，后续可能还会增加其他方向的实战。

课程订阅地址如下：

课程的完整目录如下：

课程的完整介绍，请大家点击下图阅读：
【视频课】深度学习经典任务，详解各类图像分割算法理论与实践！

深度学习之目标检测

目标检测是计算机视觉和数字图像处理的一个热门方向，广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域，是图像处理和计算机视觉学科的重要分支，也是智能监控系统的核心部分，对后续的人脸识别、步态识别、人群计数、实例分割等任务起着至关重要的作用。
目标检测课程当前包含的内容共约28个小时。
理论部分内容包括：目标检测相关基础，包括流程与评价指标，two-stage算法-Faster RCNN系列详解、one-stage算法-YOLO系列详解，Anchor-free算法系列详解（包括Densebox，CenterNet，CornetNet等）；

实践部分共包含4个案例，分别是YOLOv3实战（工业缺陷检测）、Faster-RCNN实战（猫脸检测），CenterNet（电路板缺陷检测），MMdetection框架使用；

课程订阅地址如下：

完整的课程目录如下：

课程的完整介绍，请大家点击下图阅读：
【视频课】深度学习最有价值的CV领域，30小时掌握目标检测（附作者经历分享）！

合集专栏

如果大家想要同时订阅CV基础专栏，推荐用如下的合集：不仅更加优惠，而且合集中还附带有额外的视频《深度学习之Pytorch入门实战》与有三AI知识星球，扫码即可订阅，地址如下：

《深度学习之Pytorch入门实践篇》的内容包含PyTorch简介、PyTorch环境配置、张量简介、PyTorch中的层结构及初始化、PyTorch中的损失函数、PyTorch中的优化器、PyTorch中的数据读取、PyTorch中的模型加载与保存、基于PyTorch的人脸表情图像分类等内容，目前总课时超过5个小时。
课程采用理论加Pytorch实战的方式进行讲解，大纲如下：

完整目录可以扫码阅读详情：

本系列课程配套有专门的答疑群，订阅后在课程的订阅详情处可以找到小助手的联系方式入群，言有三本人每天都在群里进行答疑。

------------------------------------这是分隔线------------------------------------
另外我们还有一个知识星球社区，也是一年更新几百期原创内容，里面的内容相当的多。
【杂谈】有三AI知识星球指导手册出炉！和公众号相比又有哪些内容？1 知识星球是什么
有三AI知识星球依托于知识星球APP，2019年3月12日创建，目前由言有三全职独立运营。

如果说微信公众号是有三AI的第一免费生态，那么有三AI知识星球就是我们的第一付费生态，两者的共同特点是，只专注于做系统性的原创。下面我们来重点介绍一下知识星球社区的特点，有了微信公众号，为什么我们还一定需要知识星球？
2 可以自由提问
公众号和知乎最缺失的内容是什么？实时的自由交流，这就是知识星球最重要的功能之一了。在星球里可以向有三私信提问，也可以直接自己发状态提问和大家交流，还可以向嘉宾提问，有三会在每天睡觉之前清空问题(一些非常难以回答的提问除外)。

关于提问功能，有两点值得大家注意：
(1) 不只是可以向有三提问，也可以向所有人提问，其中我们星球里还有许多重量级的嘉宾，包括阿里达摩院，腾讯AILab，百度IDL，奇虎360AI研究院，海康威视研究院，陌陌深度学习实验室以及其他一线互联网公司AI部门的资深技术专家，主管，甚至是总监；包括计算机视觉，OpenCV，Java，Android等技术领域的行业专家，优秀专业自媒体，畅销书作家，相信在圈子里的大家肯定都认识的；包括CSDN，Gitchat等创始人，相信大家对于敢于当老板的大佬一定是有很多的问题想问的。
(2) 可以选择免费提问，也可以选择付费提问，当你想向大咖提问又不好意思的时候，不妨私信发个红包提问，当然跟有三提问是大家的权益，不需要选择付费私信。
3 存有重要资料
知识星球作为一个社区，还可以补足微信公众号的另外一个短板，存储资料，包括有三分享的也包括星友分享的，下图可以稍微感受一下大家的下载热情。

里面的重点包含两方面内容：
(1)公众号付费图文。公众号已经开启付费图文内容，其中作者同意发布到知识星球社区的，将在一周后进行同步。有三承诺，凡是价值不超过知识星球年费10%的，一律会同步到社区。

(2) 有三非公开分享内容。有很多的资料，比如直播PPT，项目代码，是没法在公众号实时分享的，这会放在星球。有一些以前在公众号分享过的，后续的更新都会及时在星球通知。
4 用户可以赚钱
这第四条想必大家很感兴趣，加入星球固然要交一两百块钱的年费，但是如果你愿意稍微努力一下，很快就能赚回来，甚至远超，因为在这里你确实可以赚钱。

(1) 推荐分享我们的星球给别人，如果别人加入，直接可以获得赏金，当前一个人加入赏金就是50元，这非常适合自己还有自媒体平台的朋友，一次赚几百完全不是问题，记得用自己分享的二维码。
(2) 参与小作业，分享干货内容，有三会直接进行打赏，有付出有回报，这才是一个良性的循环。
总之一句话，有心做事，与生态就可以共赢。毕竟不是所有的小伙伴都可以成为公众号的博主，这需要付出很多的时间，但是在社区里，你可以充分展示自己的才华，获得众人的关注，成为人气小偶像，甚至获得不少的付费收入，还有老大们的另眼青睐。
5 参加线下活动
原则上，我们每周都是有线下活动的，有三人在哪，活动就在哪，活动主要是组织当地的大家一起认识，结交人脉，共享资源，今年会增加更多的技术内容。

6 大量技术干货
说到这里，就是我们星球中最重要的一块了，那就是我们星球整个的技术内容板块，主要包括AI领域最核心的问题，比如模型设计优化和数据集等，大家可以点击标签快速进入所有内容。

下面对其中的重要板块进行介绍。
(1) 网络结构1000变。我们在公众号推送了很多的模型结构和优化的知识，但是公众号能发的内容是有限的，而模型结构优化的知识太多了，因此我们通常是将入门的，大致的学习路线放在了公众号，而更多的进阶内容放在了星球，形式差不多就是如下，会解读论文细节，提供文章下载，介绍开源项目，有一些会剖析代码，进行实验，本板块不是简短的信息摘要。

以最近三个月的内容为例，我们主要是关注模型优化(模型剪枝，模型量化，模型蒸馏)，生成对抗网络(GAN)，三维重建等方向。

目前网络结构1000变里面的内容太多了，有三在星球里有超过600条状态，其中一半以上都是网络结构相关的，因此大家可以感受一下，下面是一个目录，细节处大家可以移步星球详读。

(2) 数据集。模型解决了接下来就是数据问题，那么基于什么样的原则做分享呢？星球里不仅包括ImageNet，EffectNet等超过100G的大型数据集，不容易下载的数据集。也包括各个方向的有趣的数据集，一些案例如下：

如果你想要更多的数据集，直接在星球里求助即可，已经有一些小伙伴这样得到了帮助，瞧瞧没准能节省你不少时间。或许你会觉得，数据集有什么好说的呢？其实不然。一个新的数据集的诞生，往往意味着一个新的方向的开始，你的新idea，或者从此诞生。
(3) 其他。除了上述内容，还包括AI1000问，看图猜技术，GitHub项目，AI知识汇总，每周读论文等板块，篇幅和精力有限就不做详细介绍，大家可以看一些图感受一下，阅读本文的一些链接了解详细。

7 寄语
总之一句话，有三AI知识星球生态已经拥有非常庞大的原创内容，有三在这里花费的时间不比其他平台少，而且今年会更多，还要继续拓展技术板块，攻城略地。
如果你看好我们，那就扫码加入吧。
上述内容，只是有三AI生态的一小部分，如果不信，请移步公众号《有三AI》自行验证。

new_jam · 发表于 2023-10-26 23:47:39|来自：中国

随着这两年人工智能火起来，很多人都迫不及待的想入坑人工智能，之前也有不少同事朋友询问过我怎么进入这个行业，在这里我谈一下个人关于计算机视觉入门的拙见，如有异议，欢迎讨论，如果能帮到各位，非常荣幸。

<hr/>

我创建了一个知乎圈子：【平凡而诗意】，专注于分享前沿技术、编程开发、实用工具等方面内容，感兴趣的可以首页搜索【平凡而诗意】加入我的圈子，让我们一起玩耍吧！

掌握一些必备知识

人工智能是一个涉及多学科、多领域的的方向，数学、计算机、工程学等方面，下面分别谈一下：

数学知识

我想在大多数学校里，数学都是理工科学生的必修课，微积分、线性代数、概率论与数理统计，这些都比较基础实用，我觉得这个数学基础对入门人工智能足够了，人工智能应用数学最多的也就是求导、矩阵的运算和分解、概率的统计与分析。

编程能力

工欲善其事、必先利其器，人工智能方向编程语言使用最多的应该就是Python了，在很多学校理工科学生应该都会必修一门编程课，有的是C，有的是C++，就算这些都没用过，也应该对Matlab了解一些，我觉得有一些编程基础入门Python算是比较简单的，网上资源很多，社区支持也很强大。

机器学习

我这里所说的机器学习是广义上的机器学习，涵盖深度学习。无论是做传统的机器学习回归和分类，还是做深度学习，无论是做计算机视觉，还是做自然语言处理，都离不开机器学习，后面我会介绍一些我认为比较好的学习资源，对于机器学习，我划分为两个方面：(1) 框架层面；(2) 理论层面。
(1) 框架层面
机器学习框架有很多比如scipy、sklearn、tensorflow、pytorch、mxnet等，我觉得对于框架，不再多，而再精，每个框架都有自身的优势，也都有自己的缺点，可以根据自己的项目需求和自己的喜好选择一个框架，这里我比较推荐的是tensorflow和pytorch，tensorflow虽然繁琐，但是强大，pytorch比较简洁高效。

了解机器学习框架详细内容，请查看我的另一篇文章【干货！机器学习平台优质学习资源推荐】。

Jackpop：干货！机器学习平台优质学习资源推荐(2) 理论方面
理论方面主要包括传统的机器学习和深度学习里的一些网络框架，首先说一下传统的机器学习，我认为这是很有必要的，从事 AI工作中免不了用到传统的方法，比如回归、随即森林、SVM等，而且传统的机器学习理论性更强，更能让人了解机器学习中的内在内容。其次说一下深度学习网络模型，以计算机视觉为例，有很多成熟高效的网络模型，很多模型前后都有关联，需要了解不同网络模型，比如奠定基础的Alexnet，后面经常用于预训练的VGG，还有为深度网络提出解决方案的ResNet，还有近几年比较高效的SSD、YOLO系列，最后还有深度学习中的一些策略，比如怎么解决过拟合？BN是什么？Dropout是干什么的？激活函数有哪些和优缺点分别是什么？

专业知识

如果要成为一个AI从业者，需要结合不同方向的专业知识，比如要从事计算机视觉，仅仅拿到网络结构就开始搭，这是很难达到理想效果的，这就需要对图像底层有一些了解，例如图像的像素和通道结构，图像的边缘和灰度特征，图像的增广、去噪、分割，这能够让在相应的方向上走的更远，做出更好的东西，可能达到事半功倍的效果。
<hr/>学习资源

经常会看到很多人在朋友圈转发各种人工智能学习资源，的确，随着人工智能火热起来，现在网上有很多各种各样的学习资源，让人眼花缭乱，好的学习资源屈指可数，大多数不知道冲着什么目的推出的教学资料，内容不怎么样，收费却不低，很多初学者不了解行情而误入歧途，不仅浪费了钱，也耽误了不少时间、浪费了不少精力，其实网上有很多免费又非常好的资源，如果把这些利用起来，我觉得足可以成为一个AI从业者。在这里，我推荐一些我认为比较好的学习资源。

视频资源

(1) 吴恩达《机器学习》
吴恩达机器学习 - 网易云课堂(2) 吴恩达《深度学习工程师》
深度学习工程师微专业 - 一线人工智能大师吴恩达亲研-网易云课堂 - 网易云课堂(3) 莫烦Python：我觉得虽然讲的很浅，但是没有语言障碍，通俗易懂
莫烦Python(4) 李飞飞《斯坦福深度视觉识别课程》
2017CS231n 斯坦福李飞飞视觉识别 - 网易云课堂

推荐理由：吴恩达自然不必说，人工智能领域的大牛，无论是在学界还是在企业界都很有影响力，我觉得吴恩达的不仅有理论性，而且很实用，尤其《深度学习工程师》这门课程讲了很多深度学习策略、超参数调优、结构化机器学习、卷积神经网络和序列模型，都很实用，而且吴恩达的语速相对很多人例如Hinton的授课语速要慢一些，更有助于理解，能够跟得上节奏。而cs231n是李飞飞教授的经典计算机视觉入门课程从传统的图像分类到机器学习基础知识，再到卷积神经网络涵盖计算机视觉知识非常全面。莫烦Python有很多课程机器学习、强化学习、Python基础、深度学习框架，很全面，中文授课，内容不深，但是有助于入门。

书籍

(1) 数学方面
      《概率论与数理统计》盛骤
      《数值分析》李庆扬
      《线性代数》同济大学

推荐理由：这几本书都是用于大学生教材的，所以相对严谨一些，而且难度适中，对于做人工智能，我觉得这几本数学教材涵盖的知识差不多了。《数值分析》是我们本科数学系的教材，涵盖很多数值计算方法，很多可能在机器学习里用不到，但是我觉得想要做的更深，多了解一些数学是有价值的。

(2) 机器学习方面
      《深度学习》Goodfellow、Bengio
      《机器学习》周志华
      《机器学习实战》Peter Harrington

推荐理由：《深度学习》这本书仅仅看到这几位作者就会明白错不了，都是大牛，介绍了不同方向的机器学习技术，而且很大一部分在介绍深度学习的策略和模型优化方法。《机器学习》这本书主要讲的是传统机器学习算法，通俗易懂，没有过多的公式推导。《机器学习实战》这本书对每个机器算法都从头到尾实现了一遍，相对于前面这两本书，这本书更偏重于实践，结合很多实例直接编程，如果跟随这本书把各个算法实现一遍，对加深记忆有很大帮助。

(3) 图像处理方面
《图像工程》章毓晋
《计算机视觉特征提取与图像处理》(第3版) Nixon&Aguado
<a data-draft-node="block" data-draft-type="mcn-link-card" data-mcn-id="1168180737756401664">

推荐理由：对于入门计算机视觉这个方向，多了解一些图像底层的知识肯定是百利无一害，这两本书都是图像处理里不错的书籍，其中《图像工程》这本书，是合订版，也有单独成册的，分上中下三册，如果觉得这本书太厚也可以根据自己需求买其中一册。

备注：机器学习还有一些其他比较优秀的书籍，我把机器学习&深度学习中比较知名的8本书籍总结了一下，并把书籍电子版和源码进行共享，需要的可以看我的另一篇文章[Jackpop：值得收藏！机器学习“8大名著”中英文电子书+源码]：
Jackpop：值得收藏！机器学习“8大名著”中英文电子书+源码
<hr/>开源项目

DPM

传统目标识别算法中比较优秀的一个框架(Discriminatively trained deformable part models)，Pedro Felzenszwalb因为DPM一举获得VOC终身成就奖，特征提取、特征金字塔、SVM、正则化等待，对计算机视觉中涉及的知识点概括非常全面，虽然目前深度计算机视觉大行其道，但是很多思想与传统方法是相同的，学习DPM更有利于理解计算机视觉。

项目源码是用C++于MATLAB混编，目前更新至voc-release5，可以去Pedro Felzenszwalb下载，也可以私信我获取源码。

机器学习平台

课程学习了、书也看了，接下来该做一些什么？我认为应该进行一下实战，检验一下自己的理解深度、加深印象，同时锻炼一下自己的动手能力。
在这里，我推荐几个github上热门的学习项目，这几个项目利用主流的机器学习平台实现常用机器学习、深度学习算法和模型，内容涵盖tensorflow、pytorch、mxnet，感兴趣的可以看我的另一篇文章[Jackpop：干货！机器学习平台优质学习资源推荐：
Jackpop：干货！机器学习平台优质学习资源推荐awesome-computer-vision

一个优秀的计算机视觉资源的列表，截止2019年4月16日已经9.8k+star，包含书籍、课程、文章、软件、数据集等待，非常全面。

Piotr&#39;s Computer Vision Matlab Toolbox

这是一个MATLAB工具包，包含检测、绿波、图像处理，对于理解图像底层知识有很大帮助。

Darknet

YOLO的源码，目前表现比较优秀的one-stage目标检测算法。

OpenCV

Open Source Computer Vision Library，是一个跨平台的计算机视觉库,可用于开发实时的图像处理、计算机视觉以及模式识别程序,做计算机视觉或者图像处理的应该都不陌生，就算没用过，应该也听说过。

<hr/>福利

干货 | 2019年共享免费资源整理(上)：学习资源篇干货 | 2019年共享免费资源整理(下)：实用工具篇更多我的作品

Jackpop：【动手学计算机视觉】第一讲：图像预处理之图像去噪
Jackpop：【动手学计算机视觉】第二讲：图像预处理之图像增强
Jackpop：【动手学计算机视觉】第三讲：图像预处理之图像分割

[IT技术] 你们都是怎么学习计算机视觉的？

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家