作为一名入门炼丹师我来谈谈我的观点。
首先关于卷的这个问题,我觉得并不仅仅是因为或者所很大程度不是因为说cv入门门槛低,或者深度学习入门门槛低啥的,好歹它还需一块1080ti+是吧。看看隔壁的JAVA,那个真是有手就行(狗头),但是你看有人说开发岗卷吗?想必无数学长学姐都告诉过大家,遇事不决就学JAVA,或者再加点c++。而大家,至少我应该是几乎没听过说JAVA开发岗一片红海找不到工作啥的,至多就是入职的996,35岁的中年危机。甚至我认识的人很多是深度学习搞不下去了,找不到工作了,半年速成JAVA去找了开发的工作。同样都是那么多人入门,甚至转开发和JAVA的人更多,为啥就深度学习一片红海,问题出在哪呢?
问题的核心其实在于供需失衡。首先是供给方,注意深度学习的红利是真的曾经存在过的!!!,并不从一开始就是泡沫。在15-17年那会,前景看起来一片光明,学生们看到深度学习,计算机视觉带来的巨大福利,老师们看到这个东西好发文章,申项目,于是纷纷转向深度学习,计算机视觉。特别是随着深度学习框架的普及和硬件资源的不断升级, 深度学习的入门门槛越来越低, 两个月入门真的不是梦想。就连李飞飞,吴恩达,bengio,blabla等各路大神都纷纷离校创业或从业,所以大家没忍住诱惑走进了这个坑真怪不了什么,我也没忍住,毕竟那时候谁能想到会是现在这样,一切看起来都非常美好,智能时代仿佛近在眼前。但是现在在呢? 李飞飞又回到了斯坦福, 吴恩达开始去搞教育, bengio的公司或许将要贱卖(以低于融资成本的价格卖出),知乎上开始出现如何看待2019年算法岗一篇红海, 2020年算法岗灰飞烟灭, 而我前不久也还在吐槽如何看待深度学习复现难的问题。这中间发生了什么?
这就需要谈到需求方的问题。首先很明显的是目前公司对算法岗,深度学习需求并没有像大家所想象的那么大,不然也不至于出现现在大家所说的一片红海灰飞烟灭的问题。可是为什么呢?说好的工业4.0呢,说好的光明前景呢?这就要谈到另一个问题,什么决定了公司的需求?梦想?热爱?不,是利益,99.9%公司都是如此。剩下的0.1%也会慢慢变成如此。这里我想起了之前和师兄的聊天
我的一个博士师兄是工作之后才来读博的,他17年硕士毕业去了海信做图像算法,后来有一天我们一起回寝室,师兄突然说起还好辞职,不然现在海信大裁员指不定就裁到他了。我说你们不是做算法的吗,怎么会裁到你们。师兄说裁的就是研发部门…,也就是算法岗可能的来源。我当时心想,不应该啊,研发部门不应该都是像达摩院, FAIR这种,关乎一个公司能否把握未来机遇,抓住下一个风口的重要部门吗,怎么说裁就裁。师兄说,因为不挣钱啊,我们公司墙上挂满了各种专利,但是实际能用来产生效益的没几个。不是每一个公司都能有那么大的魄力和资金投入做自己的算法研发的。更多是用别人做好的接口开发产品。
而像阿里,旷视,商汤这种提供算法支持的不应该有很大的算法岗需求吗?为什么还是会卷。其实他们的需求也没那么大,原因还是一样的,计算机视觉,深度学习并没能带来大家所期望应用和盈利。说到这,其实大家眼里的眼里这些公司也不容易,也卷的不行,那么多公司就分人脸识别,智能安防等几个领域的蛋糕,而且技术壁垒也没有大到非某家不可的地步。而这归根到底就是现在深度学习,计算机视觉能落地的场景真的不多。
所以这就谈到第二点了,现在计算机视觉的瓶颈。以下观点更多是从算法落地角度考虑的,可能存在一些局限。
做过算法落地的人应该都深有体会,那些顶刊顶会上的sota算法,你用到实际场景里,如果不适用额外数据做微调,准确率掉一个30%到40%,再正常不过了。而且很多时候视任务的难易程度准确率从70%到85%甚至90%是可以靠数据堆出来的,但是再往上就没那么容易了。当然千万级别甚至更高数量级的数据那就另说了,毕竟人工智能人工智能,有多少人工就有多少智能。即使如此还会有极端情况存在你加数据可能都无法解决
研一那会跟着师兄参加过一个复杂环境下人脸检测识别挑战赛,做的就是监控视频下白天黑夜各种复杂场景下的人脸识别。大家一看人脸识别,这不是做烂了吗,还有什么好做的?我当时也这么想,师兄可能开始也这么想,然后师兄两年就花在了上面,后来表示非常后悔。当时的情况就是白天下还好,基本都能识别差不多,黑夜路灯下,准确率极剧降到了10%各种优化弄到20%就已经惨不忍睹了,就这还拿了第五名。前面的是一起参赛的还有大华,云从这些大厂,这里就说说大华,专业做安防的,他们最后黑夜环境下准确率大概是70%,而且这里还不确实他们是不是用了自己的数据,总之我们是没数据。
数据都不能解决,但还是要用,那怎么办,一般就只能限制场景,麻烦用户了。现在大家所能看到的落地应用多半是在一个尽量不影响用户体验的场景限制里,采集海量数据集,拟合一个模型然后使用。这个过程中真正起了大作用的,不是大家以为的那些sota模型,而是那些场景的约束和海量数据。以我做的活体检测为例,现在也有落地的应用了,阿里,小视科技,但是你们去用的时候它都会有请靠近远离摄像头让你距离摄像头的位置在指定距离,请保持静止blabla一些限制,甚至有时候我都已经在这个范围里还不给我检测,用的贼恶心。这些限制能不能不要?不行,因为不加这东西就解决不了。
紧接着上面就是关于计算机视觉的未来。我始终认为技术发展的终点就是产品,能够切实的落地影响或改变人们的生活,解决人们的实际需求。所以我一直觉得我今后会是一个工程师而不是科学家。而如果从这个角度看计算机视觉的未来那就是这样的。
我数据量不够的怎么办——小样本学习,迁移学习。
数据标注成本高怎么办——半监督,无监督。
我数据分布不均衡怎么办——长尾分布。
如何利用各种可能的数据来优化提高模型性能——多模态学习。
如何适应复杂场景(自然的,人为的)——深度学习的鲁棒性,泛化性研究,对抗学习。
算法出问题我怎么纠正和修改——深度学习可解释性问题。
我的模型怎么快速高效部署用于实际产品——机器学习系统,深度学习框架研究,模型压缩 |