GPT-4来了，计算机视觉科研，何去何从？

cn521 · 发表于 2023-10-4 20:03:16|来自：北京

最近上课被学生问，“GPT-4来了，计算机视觉何去何从？“
我有被惊到，因为这还只是本科生的课，不是研究生、博士生的课。有同学开玩笑说，CV不复存在了。虽然是玩笑，但明显大家感觉到了危机，尤其对于我们，计算机视觉科研人员。但危中有机，谁能摈弃旧的模式，迅速打开思路，勇敢创新，这就是个极好的机会。甚至这个机，还前所未有的大。毕竟ChatGPT没出来前，人人都在抱怨CV太卷，什么知乎人均CVPR投3中2。GPT-4的到来，或许是个机会，让咱换个卷法。
那何去何从呢？我下面斗胆，分享下我的2点思考。因为被GPT辐射到的，主要还是CV里的understanding任务，所以下面也主要是针对理解任务来讲的。当然，更多还是想抛砖引玉，想跟大家探讨，跟大家学习。
1/ 从做Paper，到做系统

GPT-4给CV，尤其是给多模态领域，带来的危机感从何而来？可能就是以前某些，大家习惯的发paper模式，比如对着几个benchmark刷点，可能不好用了。因为过不了多久，GPT-567可能就在这些benchmark上领先SOTA一大截，实现降维打击；甚至我们还在做paper，人家都已经有了ChatGPT插件，实现商用落地了。
这听起来很可怕，但是，如果我们看看计算机的其他领域，就会发现当下的NLP/CV，不过是在走CS其他领域，已经走过的路罢了。GPT对于NLP/CV来说，就像Google对于信息检索，就像Oracle、Azure对于数据库，语音识别各个大厂也早有自己的solution。我跟这些领域的前辈老师聊，他们分享说，他们对paper尤其是纯count paper数量的关注度会变小，反之，会看有没有做出一个系统，有technology-driven的real-world impact。
都说现在是AI的iPhone 时刻，GPT是AI时代的IOS操作系统，在其之上，会有各类app/插件，面向各个垂类的应用：教育，医疗，太空…… 这些深耕的垂类，是GPT很难全cover的；就像手机上有原装的日历、计算器等app，但更多的是第三方的app。研究怎么tune好基础大模型，研究怎么加入expert knowledge，跨学科进行合作，将是重中之重。然后需要开发一个working system，不断收集真实用户domain data，壁垒就越来越强了。
而这一条路，前期还是做基础研究，但最终会逐步地走向商业化，需要有这样的心理预期。当然在这种新模式下，我们对于一个科研人员，是否成功的评价模式，可能也会发生改变，变得更加多元。
2/ Research需要做难一点的问题

如果不太想做系统，还是想保持突突突发paper的传统模式，职业目标就是冲教职，其实也大有可为；只是需要focus在更难一些的问题，那种几年后才能解决，而不是当下就知道该怎么做的问题上。
那，什么是这样的难的问题？我是做视频的，视频理解里最难的问题，就是长视频理解。套用Jitendra Malik教授近期的评价，“Core vision problems like long range video understanding are no closer to a solution“。
过去一两年，我们在推AI Assistant这个新的方向，去年时候大家还觉得天方夜谭，现在看来技术上非常可行。这个方向是，给一段很长的instructional/tutorial视频，比如某个相机的讲解视频，某个洗衣机的讲解视频，让AI学会如何使用某个具体的相机、洗衣机，甚至能去教新用户使用。详见AssistQ，AssistSR。现在大家说GPT开始联网了，能看网页学习，我们的AI Assistant就是下一步，想让GPT不光看网页，还能看YouTube，看b站进行学习。
因为这些视频都很长，对当下GPU硬件条件很有挑战，需要有更高效的模型设计；以及视频是多模态的，讲解视频、其transcript、用户实际情况中的视频、用户跟AI的对话，这些数据相互之间的correspondence还很复杂。我们在CVPR 2023也继续在办LOVEU Workshop，聚焦长视频的理解和生成。
其他难的理解任务，还有哪些？我想还不少：比如3D的问题还很难 -- 当然有人会argue我说，这只是available的训练数据量不够；CV跟机器人的结合还很难，让AI不只是网上冲浪，而是真的在real world产生作用，比如让机器人照顾老人 -- 当然我也承认，这还depends on硬件的发展。此外，连续学习，模型攻击技术，等等我就不一一赘述了，欢迎大佬们在评论区集思广益。
结语

GPT-4的出现，有人兴奋，纷纷下场；有人悲观，打算退圈。因人而异，都能理解。我想，我属于兴奋多一些。对于被GPT赋能的未来世界，I look forward to it very much.

hhf203 · 发表于 2023-10-4 20:03:30|来自：北京

大模型预训练从业者，深表赞同[可怜]

diyaxu88 · 发表于 2023-10-4 20:03:50|来自：北京

抑制不住的是兴奋[大笑]

tornado598 · 发表于 2023-10-4 20:04:44|来自：北京

视频的这2个提到的方向（长视频理解+assistance）是Zisserman组近两年有在focus的。 [赞同][赞同][赞同]

sdwgw · 发表于 2023-10-4 20:05:39|来自：北京

Clearly accept，no need to Rbt[捂嘴]

东德 · 发表于 2023-10-4 20:05:55|来自：北京

老师，头像是你嘛，有点帅哎[赞同]

方式 · 发表于 2023-10-4 20:06:21|来自：北京

老师真人更帅[吃瓜]

gyeonwoo · 发表于 2023-10-4 20:07:18|来自：北京

有没有想过，语音识别和NLP做好了，这种讲解视频都不需要了，消失了[魔性笑]

轻舞任逍遥 · 发表于 2023-10-4 20:07:27|来自：北京

视觉和多模态联动还是需要的，就像我们人看的复杂些的讲解视频时候，光听可能不太够

ecg2005 · 发表于 2023-10-4 20:08:22|来自：北京

[大笑][大笑]

[IT技术] GPT-4来了，计算机视觉科研，何去何从？

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家