ChatGPT 更新多模态，支持图片和语音输入，会带来哪些新体验和影响？

天涯海閣 · 发表于 2023-9-27 07:53:44|来自：北京

近日 OpenAI 宣布推出新版 ChatGPT，增加了两项新功能：语音输入和图像输入。据 OpenAI 称，新功能将在未来两周内向 ChatGPT Plus 订阅用户推出，其他人也将“很快”能够使用这些功能。

语音输入功能类似于手机上的语音助手，用户只需按下一个按钮，说出自己的问题，ChatGPT 就会将其转换为文本，然后生成答案，再将答案转换为语音，播放给用户。OpenAI 表示，这样的交互方式更加自然和便捷，而且由于 LLM 的技术优势，答案的质量也会更高。OpenAI 还开发了一种新的文本转语音模型，可以根据几秒钟的样本语音，生成与之相似的人声。用户可以从五种选项中选择 ChatGPT 的声音，而且这种模型还有更多的潜在用途。例如，OpenAI 正在与 Spotify 合作，将播客翻译成其他语言，同时保留播客主持人的声音。不过，这种模型也存在一些风险，比如可能被恶意利用来冒充公众人物或进行诈骗。因此，OpenAI 表示，这种模型不会被广泛开放，而是会受到严格的控制和限制。
图像输入功能则类似于 Google Lens，用户可以拍摄自己感兴趣的事物，并上传到 ChatGPT 中。ChatGPT 会尝试识别用户想要询问的内容，并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题，或者配合语音或文本输入来进行交流。ChatGPT 的优势在于它可以进行多轮对话，而不是一次性搜索。如果用户对答案不满意或想要更多信息，可以继续向 ChatGPT 提问，从而得到更准确和全面的答案。当然，图像搜索也有一些潜在问题。例如，在处理人物图片时，OpenAI 表示他们限制了 ChatGPT 对人物进行分析和直接评价的能力，既为了保证准确性，也为了保护隐私，这意味着上传一个人的照片就能知道他 / 她是谁还无法实现。
IT之家注意到，自从 2022 年初推出 ChatGPT 以来，OpenAI 一直在努力为其机器人增加更多功能和能力，同时避免造成新的问题出现。通过这次更新，该公司试图在这条界线上寻找平衡点，通过有意识地限制其新模型能做什么来实现这一目标。但是这种方法并不是长久之计，随着越来越多的人使用语音控制和图像搜索，以及 ChatGPT 逐渐成为一个真正的多模态、有用的虚拟助手，要保持安全和合理的边界会变得越来越困难。

第一浪 · 发表于 2023-9-27 07:54:19|来自：北京

向着「贾维斯」坚定前行。

作者 | 连冉
编辑 | 靖宇
OpenAI，又悄咪咪地放大招了。
当地时间 9 月 25 日，OpenAI 在官网更新博客，宣布 ChatGPT 已经具备看、听、说的能力。这是 GPT-4 大型语言模型推出以来最大的一次功能更新。
从官方放出的应用案例来看，通过手机摄像头和麦克风，ChatGPT 现在已经能帮助人们解决实际问题。例如用手机拍一下共享单车的照片，并且询问人工智能助手如何调节座椅，ChatGPT 就可以看懂图片，并且给出相应步骤。
随着技术的快速迭代，生成式 AI 竞赛正在进入了一个全新的阶段——多模态之争。在这个阶段，各大科技公司纷纷推出了一系列新产品和功能，通过人工智能技术打破传统搜索引擎和聊天机器人的局限性的同时，也为用户带来更加丰富和精准的交互体验。
那么，「升级」了的 ChatGPT，是否能成为「贾维斯」一样的 AI 助理，帮助人们打点生活了？而 OpenAI 又是怎么做到的？
01
ChatGPT
长了眼睛和嘴巴
生成式 AI 竞赛的下一个阶段正在来临——多模态之争。
最近，Meta 推出了 AudioCraft，用于通过 AI 生成音乐；谷歌 Bard 和微软 Bing 的聊天体验也已部署了多模态功能；亚马逊也在借助 LLM 的力量来增强其 Alexa 数字助理（为 Echo 系列智能设备提供支持）的功能，9 月 25 日刚刚宣布斥资 40 亿美元投资 OpenAI 的竞争对手 Anthropic，后者是 Claude 2 聊天机器人的制造商；苹果也在试验通过 AI 生成语音，即 Personal Voice。
而在上周发布支持文本和排版生成的最新图像生成模型 DALL-E 3 之后，当地时间周一晚，OpenAI 发布了《ChatGPT 现在能看、能听、能说了》的公告，宣布对 ChatGPT 进行重大更新，使其 GPT-3.5 和 GPT-4 人工智能模型能够分析图像，并作为文本对话的一部分对图像做出反应。
此外，ChatGPT 移动应用程序还将增加语音合成选项，与现有的语音识别功能搭配使用时，将实现与人工智能助手的完全语言对话。
根据官网，ChatGPT 现在已经具备了如下功能：
语音功能

OpenAI 在公告中称语音功能由一个新的文本转语音模型（text to speech）驱动，只需要文本和几秒的语音样本就可以生成类似人声的音频。一方面，OpenAI 与专业配音演员合作创建了语音条，另一方面，OpenAI 还使用了自己开源的语音识别系统 Whisper，可以将用户的语音转录为文字。

ChatGPT 已经有了语音交互能力｜OpenAI

该功能推出后，用户可以在应用的设置中选择语音对话，然后从「Juniper」、「Sky」、「Cove」、「Ember」和「Breeze」等五种不同的合成声音中选择一个，说出他们想要的内容，机器人就会使用所选的语音提供答案。例如，人们可以询问睡前故事，或者就餐桌上正在进行的谈话提出问题。
不过，语音对话功能的使用可能面临有一些限制。OpenAI 表示，该模型在转录英文文本方面表现出色，但在一些其他语言，特别是使用非罗马字母的语言中表现不佳。因此，建议非英语用户使用 ChatGPT 来进行此类用途时要慎重。
图像理解

OpenAI 表示，ChatGPT 中的新图像识别功能允许用户上传一张或多张图像，使用 GPT-3.5 或 GPT-4 模型进行对话。
这些模型将其语言推理技能应用于各种图像，如照片、截图和同时包含文本和图像的文档，人们只需点击一张图片，将其添加到聊天中，并提出潜在的问题，ChatGPT 就会根据所附文本分析图片，并给出答案。
它甚至可以围绕该主题进行前后对话。按照 OpenAI 的说法，用户可以上传某物的图片并询问 ChatGPT 相关问题——比如在旅行时拍一张地标的照片，让 ChatGPT 来讲述景点的有趣之处；拍下冰箱和食品储藏室的照片，找出晚餐要吃什么 (还可以问一些后续问题，以获得进一步的食谱)。
在官方提供的示例中，一张自行车的照片上传到 ChatGPT 界面，之后询问后者如何将座位调低。ChatGPT 首先询问了自行车的型号，因为座位的调整方式因车型而异。它详细解释了不同车型可能采用的快拆杆或螺栓的区别，并提供了相应的步骤。
然后，官方制造了一点混淆，拍摄了一张螺栓的照片，并在图中用官方的画图工具突出显示，试图让 ChatGPT 分辨是螺栓还是快拆杆。ChatGPT 很快指出图中所示的是螺栓，并建议用户寻找内六角扳手来解决问题。
接着，官方拍摄了一张工具箱的照片，向 ChatGPT 询问到底是哪一个扳手。ChatGPT 再次表现准确识别出所需的扳手，并清晰地指导用户选择正确的尺寸。这个示例清楚地展示了 ChatGPT 在解决实际问题时的实用性和智能响应。
在去年 3 月 GPT-4 发布时，OpenAI 就已展示了该模型解析文本和图像的初步能力，很快，这些能力将成为 ChatGPT 使用中更常见的存在。
OpenAI 将在未来两周时间里向为 Plus 和企业用户推出上述功能。用户可以在 iOS 和 Android 使用 ChatGPT 的语音合成功能，图像识别功能则在网页和 App 端均可用。
02
能力越大，责任越大
在 ChatGPT 发布近一年来，OpenAI 对其底层模型和界面进行了多次更新。而任何生成式 AI 的进步都需要考虑严肃的伦理和隐私问题。
OpenAI 在公告中声称其目标是开发安全且有益的通用人工智能，「我们相信，逐步提供我们的工具，可以让我们随着时间的推移不断改进和完善风险缓解措施，同时也让大家为未来更强大的系统做好准备。对于涉及语音和视觉的高级模型来说，这一策略越来越更加重要。」
毕竟，新语音技术能够仅从几秒的真实语音中创造逼真的合成语音，这为创造性应用打开大门的同时，也带来了新的风险，比如恶意冒充公众人物或进行诈骗等。
为降低音频深度伪造的风险，OpenAI 表示它已将语音合成功能的使用范围限制在语音聊天，和某些已获批准的合作伙伴关系中。其中包括与流媒体公司 Spotify 的合作——Spotify 正在使用其背后的技术为平台上的播客翻译不同语言的内容。Spotify 个性化副总裁齐亚德-苏丹（Ziad Sultan）在一份新闻稿中说：「通过与创作者本人的声音相匹配，语音翻译让世界各地的听众能够以前所未有的真实方式发现新的播客，并从中获得灵感。」
同样，为了避免图像识别带来的隐私和准确性问题，OpenAI 还限制了机器人对输入图像中出现的人进行分析和直接陈述的能力，其表示已经「采取了技术措施，以限制 ChatGPT 分析和直接陈述个人信息的能力，系统还是应当尊重个人隐私」，但是真正的恶意利用情况还是要在它面向公众推出后才能知道。
这次 ChatGPT 推出的语音交互和图像识别功能，为聊天机器人带来了更强的实用性，让它们从简单的文本处理工具更贴近真实生活。
同时，这似乎也预示着未来 AI 系统的发展方向——不仅要理解抽象的文字世界，还要能感知复杂的语音和图像信息，甚至是物理世界，从而真正进阶达到人机交互的境界。

g1410739w · 发表于 2023-9-27 07:55:10|来自：北京

之前就demo过多模态了，放出来只是迟早问题，过了这么久才放出来，肯定是在对齐，保证安全。所以技术报告也是着重强调安全问题。
又到了马后炮时间，终于可以说话了，其实两个月前在西西里Karpathy就透露了，GPT-V很厉害，其视觉能力在很多任务上都达到了sota。而实现方法也是简单到令人发指，就是把图像tokenize一下当成文字token一起训练预测下一个token就完事了。。。
我仍然比较期待模型的解释能力，就是感知视觉内容时，有没有逻辑推理，能不能对识别结果进行解释。
比较失望的是没有加入新数据训练，因为叫GPT4-V…说明没有新数据…但他们到底是从一开始就有一个GPT4-V的版本还是基于GPT4继续训练的就不得而知了。如果是基于GPT4继续训练，加进去的大量图像token对模型的语言能力是增强还是减弱？如果语言能力变强了那就厉害了，说明“图文并茂”的数据比单独的语言数据更有利于智能的产生。
如果语言和图像真的能在紧耦合式的训练中涌现出智能，我觉得想象空间会很大。
比如给他带有文字的图片，他能不能识别图片中的文字并直接翻译？我估计多半可以。
比如他能不能告诉我图片中某个物体在图片中的三维位置？这涉及到三维感知能力，在不精确的文字指导下，如果也能涌现出三维感知，那就太炸裂了…我觉得多半不行。
比如给他一个网页或ppt的设计图，或是我的绘画或摄影作品，他能不能给我评判一下并教我改进？我估计是可以的。
把一个车载相机拍摄的十幅图片叠在一起给他，他能直接给出驾驶指令吗？
理解的精细度有多高？比如给他两幅图片找不同，他能找出多细微的不同？
对艺术类图片的理解能到达什么深度？对艺术作品中的宗教符号和故事能理解吗？
总之，太多值得期待的东西了，苍蝇搓手中～

huanhuanlala · 发表于 2023-9-27 07:55:25|来自：北京

省流：OpenAI 预告了语音和图像的多模态功能，明确说了两周内就会开放给 Plus 用户，语音功能在移动端 App 支持，图像功能则支持全平台。

昨天晚上就看到消息了，今天忙了一天没顾上写，不过影响不大，毕竟正式推出还要两周时间。
正式推出多模态可以说是 3 月份推出 GPT-4 以来最重要的更新了。语音的话还好，毕竟之前推出移动端 App 的时候就已经支持语音输入了，语音输出也是基于文本内容的，并没有太意外。
如果你是 Plus 用户，语音功能已经可以在移动端使用了，官方提供了五种不同的声音。其实之前就有很多人用插件实现语音输入输出，用作口语学习的助手。应该说 OpenAI 的这项功能，再一次在无意中无形间绝杀了口语助教类的 App。

官方提供了一段关于语音用法的演示视频：

https://www.zhihu.com/video/1690146347452411905
<hr/>更值得关注的自然是图像的识别，正如我前面所说，语音输入输出依然是基于文本的，只是改变了交互方式，本质上并没有改变文本信息的形态。
但图像就不一样了，我们每天有大量的视觉信息，这些信息经过大脑复杂的处理才抽象成文本描述。如果可以直接识别图像，意义是大于语音的。同时，OpenAI 之前也宣布了 DALLE-3，意味着在不久的将来，ChatGPT 将真正成为支持语音输入输出、图像识别、图像生成的完全体。
段小草：狂飙 2023 —— AIGC 的 Big Bang 时刻

之前一直等不到多模态，甚至以为会推到明年了：
GPT-4多模态功能何时上线?官方视频演示了一个非常具体的场景，通过多轮对话、反复提交图片甚至标注主要信息，向 ChatGPT 寻求帮助。

https://www.zhihu.com/video/1690146956838547457
<hr/>除了推出多模态的功能预告，OpenAI 今天也放出了 GPT-4V(isual) 模型的 system card[1]，可以去看一下论文，里面对 GPT-4V 的能力和 OpenAI 进行的安全规范做了了比较详细的描述。
从论文中来看，GPT-4V 在 2022 年就已经完成训练，之后，OpenAI 和 Be My Eyes 共同开发了一个服务于视力障碍人群的应用，以提供给盲人用户智能手机拍摄的照片的描述。

Be My Eyes在2023年3月至8月初期间对Be My AI进行了试点测试，共有近200名盲人和视力低下的测试用户，以提高产品的安全性和用户体验。到9月，测试用户组已经增长到16,000名盲人和视力低下的用户，每天平均请求25,000个描述。这次测试确定了Be My AI可以为其50万盲人和视力低下的用户提供前所未有的工具，满足信息、文化和就业需求。

题外话：之前 Be My Eyes 就出现在了 OpenAI 的客户故事里：

可以详细了解他们对 GPT-4V 的用法：https://openai.com/customer-stories/be-my-eyes
<hr/>同时，OpenAI 通过 Alpha 测试，让 1000 多名用户进行了实际测试。然后他们分析了用户的不同用例。Be My Eyes同时，OpenAI 通过 Alpha 测试，让 1000 多名用户进行了实际测试。然后他们分析了用户的不同用例。

在采样到的提示中，有20%的查询是用户请求对图像进行一般解释和描述的：例如，用户向模型提出了“这是什么”、“在哪里”或“这是谁？”等问题。更详细的分析揭示了各种风险，例如医疗状况诊断、治疗建议、药物摄入以及几个与隐私相关的问题。特别关注潜在的偏见输出、儿童的图像和与之相关的提示、情感分析以及上传的人物图像中的健康状况推断。我们还研究了类似于“解决这个谜题”的提示，以了解CAPTCHA请求的普遍性和性质。

<hr/>现在 OpenAI 把多模态端上来，对用户自然是好的，我们能用到更强的模型、更好的功能，同时其实也以为着，OpenAI 觉得自己已经在某种程度上解决了多模态模型的安全性问题，可以推出使用了。
更重要的是算力问题，要知道即便是只开放给 Plus 用户使用，多模态消耗的算力也是远超纯文本信息的。之前一直说 OpenAI 算力紧张，不知道现在拿出多模态是否也是算力充足，不会影响 GPT-5 和 toB 企业用户的一种表现。（也要结合 DALLE-3 的新闻看，同时支持图像生成和图像识别，加量不加价，Plus 这下香爆了啊）
不过话说回来，之前很早微软的 NewBing 就支持了图像的生成和识别，之后应该也会继续支持，只是不知道背后的模型会不会是 GPT-4V。
<hr/>至于多模态的用途，要随着大家的探索和想象，进一步挖掘了，已经看到了很多想象力和 idea，就等着正式上线进行测试了。
另外，根据 Logan 的回复，GPT-4V 有可能会提供 API 调用，那样的话甚至能为开发者提供多模态的开发能力，可玩性就更多更强了…可以瞬间包装出很多 App…

marg · 发表于 2023-9-27 07:56:25|来自：北京

很强，跟GPT4.0一样，会陆续开放给ChatGPT Plus用户，时间在两周内。

Plus and Enterprise users will get to experience voice and images in the next two weeks. We’re excited to roll out these capabilities to other groups of users, including developers, soon after.

这就是所谓的多模态吧，因为早在几个月前OpenAI就宣称自己的模型可以接收图片并且进行图像理解。
比如说这个他们之前放出的demo，ChatGPT会觉得这个接口跟手机连接在一起会很搞笑。

但是直到今天，OpenAI才终于放话出来要开放给用户了。
其实这次的更新就两点：增加了多模态的两个维度：语音voice和图像image 输入。
这意味着ChatGPT不再仅仅是一个文本驱动的工具，它可以看、听、和说话。这对于用户来说将开启全新的可能性，从实时图像分析到语音交流，这对特定用户群体，如视觉障碍者，也是一个福音。

两个主要更新的内容：

1 可以跟ChatGPT进行语音交互

这个对于不方便打字或者打字比较不熟练的人，你可以直接跟它语音交流。
因为之前ChatGPT的手机APP其实也可以做语音输入，但是只能是文字输出，而现在，可以直接语音交流了，这样可能在很多情况下效率会更高，也更有趣，比如你可以让它讲一个睡前故事等。

https://www.zhihu.com/video/1690009760391421952
还有各种音色供你选择。

开启方法（在开放之后）

进入ChatGPT移动应用的设置。
在设置中选择加入语音对话。
在主屏幕右上角找到耳机按钮，选择您喜欢的声音，共有五个选择。
语音功能使用新的文本到语音技术，可以从文本和示范语音中生成逼真的声音。
OpenAI与专业声音演员合作，为每个声音创建了独特的特点。
ChatGPT还使用开源语音识别系统Whisper来将您的口头输入转录成文本。

2 图像输入与理解

现在，你可以向ChatGPT发送多张图像，进行基于图像的对话。这项技术有着广泛的应用，从解决问题到分析工作数据，甚至是计划晚餐，都可以轻松实现。要专注于图像的特定部分，还可以使用移动应用中的绘图工具。这个更新将为我们的数字生活带来更多的便利和创新。
下面是OpenAI的一个案例，你可以看到这种交互是非常有用同时也非常的新颖。

https://www.zhihu.com/video/1690009720952500224
其实看到这里，你就会发现ChatGPT这类的大模型，做的就是一个人造大脑的工作，基本上就是要把人的五官可以感受到并可以做出分析的能力，赋予给大模型，而最终版的大模型一定是可以听，可以看，可以说，可以感知的一个多模态状态，对于ChatGPT等大模型的使用，其实对于每个人都很重要，因为它集合了及其庞大的知识和强大的逻辑，可以帮人解决很多实际的问题，对于它的使用，我建议大家可以看看知乎知学堂开设的「大模型与人工智能课程」⬇️ ⬇️ ⬇️

这次的更新有两个很明显的好处：
用户友好性： 这一更新注重用户友好性。拍照、录制声音，这些都是用户通常已经习惯的操作。这种直观性使得ChatGPT更容易融入我们的日常生活，比如解决家庭问题、辅助学习或者进行创造性的语音交流。
声音合成技术： OpenAI采用了新的文本到语音技术，可以从少量文本和示范语音中生成人类般逼真的声音。这不仅提高了交互的沉浸感，还为有声讲述、音频制作等领域带来了新的创造性可能性。
不过在最后，也有一些顾虑，那就是随着图像的输入，安全和道德问题变得更加重要，如何判断哪些图像有潜在的风险，其实是一个不小的挑战。

nygaozhan · 发表于 2023-9-27 07:56:51|来自：北京

ChatGPT的又一次重大更新，炸裂程度堪比当初推出的插件功能。
更新的功能并不复杂，就两点：

能听能说（语音支持）。仅支持移动端（iOS和安卓）。
能看（图像支持）。支持全平台。

两个功能预计未来两周内推出，仅向ChatGPT Plus用户开放。（预计又要迎来一波订阅量高峰了）
语音支持

严格来说，此前的 ChatGPT 在移动端也是支持语音的，用过的知友应该都体验过APP上的语音输入功能。
但是之前的ChatGPT是只能“听”（语音转文本），不能“说”（文本转语音，TTS），只有耳朵没有嘴。
而这次更新让ChatGPT既能听又能说，官方的叫法是“back-and-forth conversation”（来回对话），让用户能跟ChatGPT进行语音交谈。
由“一去”变成“一去一回”，这差别可大了。应用场景会多很多，比如，
1、口语老师。把ChatGPT当英语口语老师，跟它进行对话练习，简直是想锻炼口语的同学的福音。
其实之前ChatGPT刚出来的时候，就有人这么干过，但需要安装浏览器插件，进行语音-文字和文字-语音的转换，由于不是官方支持的，所以像识别质量和发音效果这些是没法保证的。
而根据OpenAI的介绍，ChatGPT更新后，将由一个全新的文本转语音（TTS）模型提供语音功能支持，它能够仅从文本和几秒钟的样本语音中生成类似人类的音频，结合Whisper模型的语音转文本，一同保证用户与ChatGPT进行语音交流的质量和流畅度。

The new voice capability is powered by a new text-to-speech model, capable of generating human-like audio from just text and a few seconds of sample speech. We collaborated with professional voice actors to create each of the voices. We also use Whisper, our open-source speech recognition system, to transcribe your spoken words into text.
新的语音功能由新的文本转语音模型提供支持，能够仅从文本和几秒钟的样本语音中生成类似人类的音频。我们与专业配音演员合作创作了每一个声音。我们还使用我们的开源语音识别系统 Whisper 将您的口语转录为文本。

关于这个TTS模型，OpenAI没有介绍更多细节，但我认为这将是他们未来重点研发和运营的一个新模型，以后可能还会像Whisper一样通过API提供给用户使用。
以及可能很快又有一批第三方插件没有活路了。
2、语音客服/智能机器人。
以ChatGPT对自然语言的理解能力，当一个客服绰绰有余，现在有了语音支持，文本-语音、语音-文本随意转换，还能可以变换、模仿更多人声，充当个语音客服或者导购机器人之类的将是绝杀。
当初的“人工”智能可以变成真正的“人工智能”了。

“人工”智能

图像支持

OpenAI 在技术报告中透露 GPT-4V 模型在2022年就已经完成训练了[1]。

而支持多模态的GPT-4也早在今年3月就发布了，只是图像功能一直没有开放给ChatGPT用户使用，到底是因为算力不足，还是总体效果不理想，亦或是其他什么原因就不得而知了。
但是现在“图像输入”终于来了。
在这几个月的时间里，已经有不少公司率先把图像功能加入到自家的Chatbot产品中了，比如谷歌的Bard，百度的文心等。
所以现在这个时间点来看，功能本身已经并不新鲜，重要的是实际效果，以及到底能不能覆盖更多的应用场景。
看了OpenAI的演示之后，还是被惊艳了一下。
ChatGPT手把手教你修自行车

先拍一张山地车的照片；

问ChatGPT如何把车座调低。

ChatGPT根据输入的图像和问题给出解决步骤。

不太确定操作步骤，给一张特写图。

内六角螺栓也能识别并理解其功能。
接下来再把说明书和工具箱拍给ChatGPT，询问它是否有合适的工具。

ChatGPT的回答。

最后，在ChatGPT的指导下，“手残党”成功调低自行车车座。

说实话，这个演示给中ChatGPT的图片理解能力着实有些夸张了。也难怪网友们都表示很惊叹。

ChatGPT 完全体还有多远？

ChatGPT自从被推出就被当作人工智能（至少在LLM领域）产品的天花板，所以每一次更新都能引起很多人的关注。
今年伴随着类ChatGPT等AIGC产品的诞生，让人们看到了大模型的能力。
大模型因此也被认为是最有可能实现通用人工智能（AGI）的途径。
而大模型的佼佼者OpenAI/ChatGPT自然也被寄予厚望和最多的关注。
之前发布ChatGPT的插件功能，被认为是ChatGPT通向人工智能的重要一步。
OpenAI给ChatGPT的发展路线就像照着AGI这样的完全体不断拼凑，每次重大更新就是在拼图上增加一块。
如果把通用人工智能比作现实世界中的“三维生物”，那么只能处理文本这单一模态信息ChatGPT可算作“一维生物”，而此次更新后的ChatGPT则进化到能处理文本、语音、图像的“二维生物”。
距离AGI还差环境感知、自主决策等具身智能的属性和功能。
这个距离到底有多远还未可知，但是每一次进化，都让我们离AGI更近一步。
我很好奇在说、听、看之后，接下来 OpenAI 还会赋予 ChatGPT 什么能力。

ChatGPT 更新多模态，支持图片和语音输入，会带来哪些新体验和影响？

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家