OpenAI 正式发布了 GPT-4o – 「火星集市」

OpenAIOpenA今天凌晨，一场 26 分钟的发布会，将又一次大大改变 AI 行业和我们未来的生活，也会让无数 AI 初创公司焦头烂额。

这真不是标题党，因为这是 OpenAI 的发布会。

刚刚，OpenAI 正式发布了 GPT-4o，其中的「o」代表「omni」（即全面、全能的意思），这个模型同时具备文本、图片、视频和语音方面的能力，这甚至就是 GPT-5 的一个未完成版。

更重要的是，这个 GPT-4 级别的模型，将向所有用户免费提供，并将在未来几周内向 ChatGPT Plus 推出。

我们先给大家一次性总结这场发布会的亮点，更多功能解析请接着往下看。

发布会要点

这些功能早在预热阶段就被 Altman 形容为「感觉像魔法」。既然全世界 AI 模型都在「赶超 GPT-4」，那 OpenAI 也要从武器库掏出点真家伙。

其实在发布会前一天，我们发现 OpenAI 已经悄悄将 GPT-4 的描述从「最先进的模型」，修改为「先进的」。

这就是为了迎接 GPT-4o 的到来。GPT-4o 的强大在于，可以接受任何文本、音频和图像的组合作为输入，并直接生成上述这几种媒介输出。

这意味着人机交互将更接近人与人的自然交流。

GPT-4o 可以在 232 毫秒内回应音频输入，平均为 320 毫秒，这接近于人类对话的反应时间。此前使用语音模式与 ChatGPT 进行交流，平均延迟为 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。

它在英文和代码文本上与 GPT-4 Turbo 的性能相匹敌，在非英语语言文本上有显著改进，同时在 API 上更快速且价格便宜 50%。

而与现有模型相比，GPT-4o 在视觉和音频理解方面表现尤为出色。

从测试参数来看，GPT-4o 主要能力上基本和目前最强 OpenAI 的 GPT-4 Turbo 处于一个水平。

过去我们和 Siri 或其他语音助手的使用体验都不够理想，本质上是因为语音助手对话要经历三个阶段：

然而我们日常的自然对话基本上却是这样的

此前的 AI 语言助手无法很好处理这些问题，在对话的三个阶段每一步都有较大延迟，因此体验不佳。同时会在过程中丢失很多信息，比如无法直接观察语调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

当音频能直接生成音频、图像、文字、视频，整个体验将是跨越式的。

GPT-4o 就是 OpenAI 为此而训练的一个全新的模型，而要时间跨越文本、视频和音频的直接转换，这要求所有的输入和输出都由同一个神经网络处理。

而更令人惊喜的是，ChatGPT 免费用户就能使用 GPT-4o 可以体验以下功能：