OpenAI 宣布最大更新：ChatGPT 现在可以「看、听、说」了

OpenAI 最近宣布了其聊天机器人 ChatGPT 的一次重大更新，这也是自引入 GPT-4 以来最大的一次改进。新的 ChatGPT 现在不仅可以理解文本，还能“看、听、说”。具体来说，它能理解口语，用合成的声音回应，并处理图像。

这次更新是自引入 GPT-4 以来 OpenAI 最大的一次改进。用户可以选择使用五种不同的合成声音与 ChatGPT 进行语音对话，并向其分享图片并突出显示重点或分析区域（例如：「这些是什么类型的云？」）。

这些变化将在未来两周内推出给付费用户。虽然语音功能将仅限于 iOS 和 Android 应用程序，但图像处理功能将适用于所有平台。

OpenAI 在其网站上提供了一个宣传视频，展示了与 ChatGPT 的交流演示：用户询问如何升起自行车座椅，并提供了照片、使用手册和用户工具箱的图片。ChatGPT 会做出反应并建议用户如何完成这一过程。

那么它是如何工作的呢？OpenAI 并未公布 GPT-4 或其多模态功能如何在后台运行的技术细节，但根据其他公司（包括 OpenAI 合作伙伴微软）的已知人工智能研究，多模态人工智能模型通常会将文本和图像转换到一个共享的编码空间，从而使它们能够通过相同的神经网络处理各种类型的数据。OpenAI 可以使用 CLIP 在视觉数据和文本数据之间架起一座桥梁，将图像和文本表征整合到同一个潜在空间（一种矢量化的数据关系网）中。这种技术可以让 ChatGPT 跨文本和图像进行上下文推理，不过这只是一种推测。

此次大规模推广新功能正值聊天机器人领导者之间人工智能竞赛日益升级之际，如 OpenAI、微软、谷歌和 Anthropic 等公司都在努力鼓励消费者采纳生成式人工智能技术，并竞相发布新的聊天机器人应用程序和特性。谷歌已经宣布了 Bard 聊天机器人的一系列更新，微软则为必应添加了视觉搜索功能。

据 PitchBook 报道，今年早些时候，微软扩大了对 OpenAI 的投资——追加 100 亿美元——使其成为本年度最大的人工智能投资。据报道，今年 4 月，这家初创公司完成了 3 亿美元的股票出售，估值在 270 亿至 290 亿美元之间，投资方包括红杉资本（Sequoia Capital）和 Andreessen Horowitz 等公司。

专家们对人工智能生成的合成声音提出了关注，这种技术可以让用户获得更自然的体验，但也可能会产生更令人信服的深度伪造。网络威胁行为者和研究人员已经开始探索如何利用深度伪造来渗透网络安全系统。

OpenAI 在周一发布公告时承认了这些问题，并表示合成声音是「与我们直接合作过的配音演员创作」的，而不是从陌生人那里收集来的。

该公司还未提供有关 OpenAI 将如何使用消费者语音输入或如何保护数据（如果使用的话）的信息。该公司服务条款规定，「在适用法律允许范围内」，消费者拥有其输入内容所有权。

OpenAI 引述了其有关语音交互指南中所述内容，其中指出 OpenAI 不会保留音频剪辑，并且这些剪辑本身并不用于改进模型。但该公司还指出，在此过程中转录被视为输入，并可能用于改进大型语言模型。