zhsw72 发表于 2023-10-12 12:05:45

gpt4出来之后,CV和NLP还存在吗?

研究人员该何去何从?

hhf203 发表于 2023-10-12 12:06:24

即使在 GPT-4 推出之后,计算机视觉(CV)和自然语言处理(NLP)仍然是非常重要的领域。尽管GPT模型在NLP方面取得了巨大的成功,但它仍然存在一些局限性和挑战。以下是关于研究人员在GPT-4时代应该如何进一步发展CV和NLP领域的一些建议:

[*]探索细粒度和多模态问题:GPT模型在NLP任务上表现出色,但其对于图像和视频等多模态数据的处理能力仍不如CV模型。研究人员可以继续探索将NLP和CV相结合的方法,以解决更复杂的多模态问题,并提高对细粒度的理解和推理能力。
[*]开发更高效和可解释的模型:GPT模型在训练和推理阶段都需要大量的计算资源,这对于一些实际应用来说可能是不可行的。研究人员可以专注于开发更高效、更轻量级的模型架构,并关注模型的可解释性,以便更好地理解和解释模型的决策过程。
[*]推动迁移学习和领域适应性:GPT模型在大规模数据集上进行预训练,然后通过微调来适应特定的任务。研究人员可以更深入地探索迁移学习和领域适应性的方法,使得模型能够在少量标注数据或在不同领域和任务上获得更好的泛化能力。
[*]处理更多复杂任务和场景:GPT模型在一些复杂任务和场景中可能面临挑战,例如长文本理解、多轮对话、情感分析等。研究人员可以专注于开发新的模型和算法,以解决这些具有挑战性的任务,并推动NLP向更深层次的语义理解发展。
http://pic1.zhimg.com/v2-e7b65e03945a335149d2b1f4a0d6aeeb_r.jpg?source=1940ef5c
有大佬在2月份就撰写了一个原创有所有权版‬认证以在及‬北国京‬信公证处进行公证的近8万字的实时在线文档《chatgpt无障碍使用珍藏手册》,目前国内有很多行业大佬就是靠这个手册启蒙的,所以它很适合刚接触chatgpt的朋友!

http://pic1.zhimg.com/v2-5e1528d723381d4fc0173ba898c3a529_r.jpg?source=1940ef5c
哪怕你是小白,你也可以不用注册、不用登录、不用科学上网、不限时长、纯免费无限制畅玩chatgpt,更有大量的精准搜索指令供你在短时间内学会让chatgpt来提升你的工作技能,让你一个人轻松干10个人的活!更有不少利用chatgpt创业和变现的小项目供你参考,具体的完整介绍,您可以直接查看下面这个链接:
chatgpt无障碍使用珍藏手册如果你已经是精通chatgpt使用的大佬,或者你更侧重于利用chatgpt来创业和变现,那么这个26万字的《玩赚:108种chatgpt创业变现和创业思维手册》更适合你!它包含了《chatgpt无障碍使用手册》的内容,有108种chatgpt变现和创业的项目,每个项目都包含了项目名称、项目概述、适合人群、项目变现方式、操作步骤提示、网络宣传渠道、网络宣传文案参考、扩展思路、注意事项、chatgpt指令参考(截图)等十个方面进行了阐述。
更有不用科学上网、不用注册、不用账号和密码,更不限时长就能纯免费畅玩chatgpt4.0的镜像站推荐,而且还是联网的!(稀缺资源)。具体的完整介绍可直接查看下面的内容:
《玩赚:108种ChatGPT变现和创业思维手册》—— 让“风口”带你去致富(智慧进阶版)

senholy 发表于 2023-10-12 12:06:59

目前继续做NLP纯理论方向研究的话,算力和效果肯定跟openai比不了。
但我个人觉得纯理论研究目前NLP方向还有一些问题需要去解决,例如:
1. GPT模型参数太大,能否设计一个稍微轻量级的呢,提高用户体验? 2. 目前GPT多模态的效果可能并没有达到理想的程度 3. 知识图谱方向。
此外,除了纯理论研究,也可以做一些交叉方向啊,比如:NLP在教育、医疗方面的交叉研究。如:在中文作文批改、用于评估学生的语言能力和阅读理解能力、提供个性化的语言学习建议和支持以及用于自然语言的病历记录和临床指南的分析,从而提取病人的关键信息、分析病情和预测治疗效果等。
主要还是看能否挖掘出目前NLP尚且还存在的一些问题。

sfers 发表于 2023-10-12 12:07:41

ChatGPT和GPT-4消灭了大部分nlp工作,刚刚Meta放出了大招-SAM模型,知乎网友评价“这下cv真的不存在了,<快跑>”,这篇论文只做了一件事情:(零样本)分割一切。类似 GPT-4 已经做到的「回答一切」。
看看Twitter上的评论

http://picx.zhimg.com/v2-1f3245201ebc58d8959b1a8ee4ce29a1_r.jpg?source=1940ef5c

http://pica.zhimg.com/v2-0b13cb6ab8481c104386eb7f63d7ef70_r.jpg?source=1940ef5c

http://pic1.zhimg.com/v2-9f30f8f168cb5ed8a7f14cea5badb1bf_r.jpg?source=1940ef5c
这个模型是Meta元宇宙的研究成果,将会给图像分割领域带来巨大的变革,同时对于自动驾驶以及AR现实领域也有想象空间。meta自己的博客里面展望未来,在SAM 可用于通过 AR 眼镜识别日常物品,该眼镜可以向用户提示提醒和说明;SAM也许有一天会帮助农业部门的农民或协助生物学家进行研究。
Meta在博客中介绍说,「SAM 已经学会了关于物体的一般概念,并且它可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像『领域』上即开即用,无需额外的训练。」在深度学习领域,这种能力通常被称为零样本迁移,这也是 GPT-4 震惊世人的一大原因。
论文地址:https://arxiv.org/abs/2304.02643
项目地址:https://github.com/facebookresearch/segment-anything
Demo 地址:Segment Anything

方法介绍

此前解决分割问题大致有两种方法。第一种是交互式分割,该方法允许分割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法。第二种,自动分割,允许分割提前定义的特定对象类别(例如,猫或椅子),但需要大量的手动注释对象来训练(例如,数千甚至数万个分割猫的例子)。这两种方法都没有提供通用的、全自动的分割方法。
SAM 很好的概括了这两种方法。它是一个单一的模型,可以轻松地执行交互式分割和自动分割。该模型的可提示界面允许用户以灵活的方式使用它,只需为模型设计正确的提示(点击、boxes、文本等),就可以完成范围广泛的分割任务。
总而言之,这些功能使 SAM 能够泛化到新任务和新领域。这种灵活性在图像分割领域尚属首创。
模型结构

http://picx.zhimg.com/v2-ea1038f083fcfc1ab59e1ea3c8a5a7a0_r.jpg?source=1940ef5c

图1 SAM模型架构

图像编码器:采用MAE预训练的ViT模型,将图片提取为embedding
提示词编码器:考虑两种不同的提示编码器,稀疏编码和稠密编码,其中point和box和采用中的Coordinate-based MLP来编码,每个prompt类型一个编码,然后加上CLIP提取text编码。
mask解码器:mask解码器有效地将图像嵌入、提示嵌入和输出标记映射到一个mask。 该设计受 的启发,采用了 Transformer 解码器块的修改,后跟动态掩码预测头。Meta修改后的解码器块在两个方向(提示-图像嵌入和反之亦然)使用提示自注意力和交叉注意力来更新所有嵌入。 运行两个块后,我们对图像嵌入进行上采样,MLP 将输出标记映射到动态线性分类器,然后计算每个图像位置的蒙版前景概率。

http://picx.zhimg.com/50/v2-184e5c9937d11b4df3c9a6b8f21b730b_720w.jpg?source=1940ef5c

图2 Coordinate-based MLP

解决歧义:对于一个输出,如果给出的提示不明确,模型将平均多个有效掩码。 为了解决这个问题,我们修改模型以预测单个提示的多个输出掩码(见图 1)。 我们发现 3 个掩码输出足以解决大多数常见情况(嵌套掩码通常最多三个深度:整体、部分和子部分)。 在训练期间,我们仅通过掩码反向传播最小损失, 为了对掩模进行排名,该模型预测每个掩模的置信度分数(即估计的 IoU)。
训练细节:使用中使用的focal loss 和dice loss的线性组合来监督学习mask预测。 作者通过在每个mask 11 轮中随机抽样几何提示和text提示来模拟交互式设置,从而允许 SAM 无缝集成到数据引擎中。
SA-1B数据集:1100 万张图片,1B+ 掩码
为了训练他们的模型,需要大量多样的数据源,这在工作开始时并不存在。 meta今天发布的分割数据集是迄今为止(迄今为止)最大的。 使用 SAM 收集数据,特别是,标注者使用 SAM 交互式地标注图像,然后使用新标注的数据依次更新 SAM。 多次重复此循环以迭代改进模型和数据集。

http://pic1.zhimg.com/v2-1b5c187cfe7e886e13677c248ef06f13_r.jpg?source=1940ef5c

图3 数据集中图片的大小

http://pic1.zhimg.com/v2-12f4e5c39376646c9a1bcb1d7e5cbf83_r.jpg?source=1940ef5c

图4 图片中mask的大小

跟gpt一样,SAM模型惊艳的效果也是大力出奇迹的效果,海量的数据是模型效果的保证。

参考文献:

Matthew Tancik, Pratul Srinivasan, Ben Mildenhall, Sara Fridovich-Keil, Nithin Raghavan, Utkarsh Singhal, Ravi Ramamoorthi, Jonathan Barron, and Ren Ng. Fourier features let networks learn high frequency functions in low dimensional domains. NeurIPS, 2020. 5, 16
Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with Transformers. ECCV, 2020. 5, 16, 17
Bowen Cheng, Alex Schwing, and Alexander Kirillov. Perpixel classification is not all you need for semantic segmentation. NeurIPS, 2021. 5, 16, 17

dos700 发表于 2023-10-12 12:08:14

以后叫 CP:CV_NLP

zeroera 发表于 2023-10-12 12:09:01

那么我们深入讨论下,究竟是什么新突破,令现在所有人一夜之间都对它充满了期待?
家兴博士,您谈一下主要的技术突破在哪里?
张家兴博士:好的,我主要从NLP来谈。NLP在过去这些年,随着深度学习有很大进步,比如当年GPT3就有重大进步,但影响力还主要在学术和行业,普通大众没有感知。
那为什么ChatGPT一来,大家就街头巷尾人人必谈?我觉得深层次看的话,这涉及一个重大变化,就是AI能力触达最终用户方式的方式变了。
过去的自然语言专家,擅长于自己的领域,有人专门做文本分类、有人专门做信息抽取、有人做问答、有人做阅读理解。
大家会定义自然语言领域的各种各样的任务,这些任务可能有上百个,非常多。
每个任务都有专门的模型和框架,然后还有专门的专家,根据专门数据训练出来,然后摆在那儿供大家调用,所有这些NLP能力,就像一个工具集,成百上千个工具摆在架子上。
那么这个对于想触达这些能力的人来说,就存在挑战,就是我怎么知道成千上百个工具,哪个是适合我的。
所以还需要算法专家进一步解释,你面临的这个问题是文本分类问题,那个问题是阅读理解问题,再把工具给你。
所以大家可以看到,制造AI能力的人,跟最终使用这个能力的人中间,是巨大的Gap,如何去弥补?
其实我们之前一直没有想到很好的方法,大家做了各种各样的平台,都试图去弥补Gap,但现在看起来都不成功。
最终ChatGPT告诉我们一件事情,弥补AI自然语言能力跟用户之间Gap的方法,就是自然语言本身,让用户他用自然语言去描述,让大模型去理解用户想干什么,然后把这个能力给到它。
举个例子,请描述一下中国足球的未来。
这个容易,如果加一个约束,请简短的用三条来描述,这个在过去的问答系统里边,你就很难让实现,需要算法专家把它专门变成一个有约束的问题。
现在ChatGPT不用了,你能用自然语言去描述你想做什么就可以了,ChatGPT都能理解。
所以大模型实际上缩短了AI能力跟用户之间的距离,所有人都可以用了,一下子就火了。
王宝元博士:那可不可以这么理解,原来很多传统NLP的任务已经不存在了?
张家兴博士:如果我们套用《三体》里面非常著名的一句话,“物理学不存在了”,那么我们今天从某种意义上也可以说,NLP技术不存在了。
王宝元博士:这个讲法非常大胆。
张家兴博士:对,NLP技术不存在了。但还是要加一句解释,只是传统的那种。不再需要单纯的算法专家去设计单个的NLP能力。
那新的NLP方式是什么,就是努力去做一个通用的ChatGPT,把所有提供给用户的能力,都注入到一个模型里,让这个模型可以通过自然语言的方式,给用户提供所有的能力。
王宝元博士:谢谢家兴博士。
"ChatGPT爆火后,NLP技术不存在了" | 量子位
页: [1]
查看完整版本: gpt4出来之后,CV和NLP还存在吗?