OpenAIOpenA今天凌晨,一场 26 分钟的发布会,将又一次大大改变 AI 行业和我们未来的生活,也会让无数 AI 初创公司焦头烂额。
这真不是标题党,因为这是 OpenAI 的发布会。
刚刚,OpenAI 正式发布了 GPT-4o,其中的「o」代表「omni」(即全面、全能的意思),这个模型同时具备文本、图片、视频和语音方面的能力,这甚至就是 GPT-5 的一个未完成版。
更重要的是,这个 GPT-4 级别的模型,将向所有用户免费提供,并将在未来几周内向 ChatGPT Plus 推出。
我们先给大家一次性总结这场发布会的亮点,更多功能解析请接着往下看。
发布会要点
- 新的 GPT-4o 模型:打通任何文本、音频和图像的输入,相互之间可以直接生成,无需中间转换
- GPT-4o 语音延迟大幅降低,能在 232 毫秒内回应音频输入,平均为 320 毫秒,这与对话中人类的响应时间相似。
- GPT-4 向所有用户免费开放
- GPT-4o API,比 GPT4-turbo 快 2 倍,价格便宜 50%
- 惊艳的实时语音助手演示:对话更像人、能实时翻译,识别表情,可以通过摄像头识别画面写代码分析图表
- ChatGPT 新 UI,更简洁
- 一个新的 ChatGPT 桌面应用程序,适用于 macOS,Windows 版本今年晚些时候推出
这些功能早在预热阶段就被 Altman 形容为「感觉像魔法」。既然全世界 AI 模型都在「赶超 GPT-4」,那 OpenAI 也要从武器库掏出点真家伙。
免费可用的 GPT-4o 来了,但这不是它最大的亮点
其实在发布会前一天,我们发现 OpenAI 已经悄悄将 GPT-4 的描述从「最先进的模型」,修改为「先进的」。
这就是为了迎接 GPT-4o 的到来。GPT-4o 的强大在于,可以接受任何文本、音频和图像的组合作为输入,并直接生成上述这几种媒介输出。
这意味着人机交互将更接近人与人的自然交流。
GPT-4o 可以在 232 毫秒内回应音频输入,平均为 320 毫秒,这接近于人类对话的反应时间。此前使用语音模式与 ChatGPT 进行交流,平均延迟为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。
它在英文和代码文本上与 GPT-4 Turbo 的性能相匹敌,在非英语语言文本上有显著改进,同时在 API 上更快速且价格便宜 50%。
而与现有模型相比,GPT-4o 在视觉和音频理解方面表现尤为出色。
- 你在对话时可以随时打断
- 可以根据场景生成多种音调,带有人类般的情绪和情感
- 直接通过和 AI 视频通话让它在线解答各种问题
从测试参数来看,GPT-4o 主要能力上基本和目前最强 OpenAI 的 GPT-4 Turbo 处于一个水平。
过去我们和 Siri 或其他语音助手的使用体验都不够理想,本质上是因为语音助手对话要经历三个阶段:
- 语音识别或「ASR」:音频 -> 文本,类似 Whisper;
- LLM 计划下一步要说什么:文本 1 -> 文本 2;
- 语音合成或「TTS」:文本 2 -> 音频,想象 ElevenLabs 或 VALL-E。
然而我们日常的自然对话基本上却是这样的
- 在听和说的同时考虑下一步要说什么;
- 在适当的时刻插入「是的,嗯,嗯」;
- 预测对方讲话结束的时间,并立即接管;
- 自然地决定打断对方的谈话,而不会引起反感;
- 在听和说的同时考虑下一步要说什么;
- 在适当的时刻插入「是的,嗯,嗯」;
- 优雅地处理并打断。
此前的 AI 语言助手无法很好处理这些问题,在对话的三个阶段每一步都有较大延迟,因此体验不佳。同时会在过程中丢失很多信息,比如无法直接观察语调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
当音频能直接生成音频、图像、文字、视频,整个体验将是跨越式的。
GPT-4o 就是 OpenAI 为此而训练的一个全新的模型,而要时间跨越文本、视频和音频的直接转换,这要求所有的输入和输出都由同一个神经网络处理。
而更令人惊喜的是,ChatGPT 免费用户就能使用 GPT-4o 可以体验以下功能:
- 体验 GPT-4 级别的智能
- 从模型和网络获取响应
- 分析数据并创建图表
- 聊一聊你拍的照片
- 上传文件以获取摘要、写作或分析帮助
- 使用 GPTs 和 GPT Store
- 通过 Memory 构建更加有帮助的体验