2024年05月14日快讯 OpenAI再炸场人类全能AI助手梦幻成真

摘要 2024年05月14日转载：同花顺　　记者孔海丽、实习生邓熙涵北京报道　　北京时间5月14日凌晨，OpenAI再放大招，新推出的GPT-4o改写了大...

2024年05月14日转载：同花顺

　　记者孔海丽、实习生邓熙涵北京报道

　　北京时间5月14日凌晨，OpenAI再放大招，新推出的GPT-4o改写了大模型交互定义，可以实时对音频、视觉和文本进行推理，语音响应时间短至232毫秒，与人类反应速度一致，在无延迟语音对话中，GPT-4o的节奏、语气甚至接梗，与真人无异，视频实时交互也不在话下。

　　GPT-4o的惊艳面世，不负此前Sam Altman铺垫过的“魔法般体验”，而人类拥有全能AI助手的梦想，也被OpenAI大幅推进。有业内人士惊呼：科幻《她》真的到来了。

　　先进智能体：多模态交互与情感识别

　　GPT-4o的“o”代表“omni”，象征着全能。该模型多模态交互能力突出，能够接受文本、音频和图像的“混搭”输入，快速响应完成推理，生成文本、音频和图像的组合输出。

　　音频输入层面，GPT-4o击穿了此前Siri等智能语音助手的延迟弊端，取得突破性进展。其响应速度之快，达到了人类级别，至短232毫秒，平均320毫秒。

　　此外，新模型展现出对人类交流习惯的高度理解力和适应性。它能够接受人类交谈中的打断习惯，及时停顿并给出无缝回复，并且保持对上下文的记忆。这种自然的交互体验，让人几乎感觉不到与机器的界限。

　　视频输入方面，GPT-4o可以及时响应高管开启摄像头的视频需求指令，实时解决一元方程的数学计算，整个过程同样丝滑迅速。

　　GPT4-o还展示出对图片信息的快速解读能力，用AI读复杂图片正在变为现实。发布会现场，桌面版ChatGPT对一张包含气温数据的图表进行了详细的分析。

　　市面上已有一部分情感型人工智能机器人，比普通人工智能助手更能准确识别人类情绪。然而，上述功能多停留在文本中，GPT-4o的情绪检测功能则扩展至视频领域。

　　发布会现场，研究人员将手机摄像头对准自己的脸，向GPT-4o发起了颇具挑战性的问题：“我看起来怎么样？”。GPT-4o初次回答将提问者的脸界定为“木质表面”。随后，GPT-4o在引导性提问下修正结果，准确分析出提问者的情绪状态是愉悦的、笑容满面的。

　　从底层技术分析，GPT-4o的先进之处在于，它革新了传统的多模型串联处理方式，能够通过单一的神经网络统一处理所有的输入和输出，无论是文本、视觉图像还是音频信息，都能得到精准高效的解析和回应。

　　Open AI颠覆了对传统AI助手的想象，与人类形成多模态的深度配合和自然交互。Open AI官方称，OpenAI将在未来1个月左右向Plus用户推出基于GPT-4o改进的语音体验，新模型在提供个性化服务和提升用户体验方面的潜力将不可限量。

　　而过去的AI助手迅速变得“传统”，其工作极有可能被GPT-4o替代。

　　新技术普惠：免费开放与端侧调用

　　发布会为免费用户带来了好消息。

　　OpenAI 的首席技术官穆里穆拉蒂 (Muri Murati) 在发布会上表示，以后 OpenAI 做产品就是要免费优先，为的就是让更多的人能使用。

　　不同于此前OpenAI在推出模型新版本都会对特定付费用户开放，本次GPT-4o的新功能将向所有用户敞开大门，可以免费运用模型进行更为复杂的数据分析，对图像进行深入的解析，访问GPT Store应用商店。

　　另外，此前仅对ChatGPT Plus会员开放的视觉、联网、记忆、执行代码等高级功能也将开放免费使用。一系列普惠举措，无疑将吸引大批用户涌入OpenAI平台，尝试丰富的AI体验。

　　技术研发者也将享受更多利好。发布会表示，GPT-4o模型的应用程序接口（API）将与模型同步向公众开放。API不仅升级了性能，还为开发者把价格打了下来。OpenAI给出了一系列令人惊喜的数据：推理速度较之前提升了2倍之多，消息限制则扩增为原来的五倍，使用成本则大幅下降了50%。

　　除了新模型的普惠举措，OpenAI发布了ChatGPT的桌面版本。穆里穆拉蒂强调了桌面端以用户为中心的设计理念，模型变得复杂高级，但OpenAI力求消除用户与AI模型之间的隔阂，使用户能够更加自如地利用这些先进的技术工具。

　　OpenAI的这一决策，似乎在破除此前舆论场对OpenAI的闭源偏见。开放接口、免费试用、桌面落地体现了这家技术领头羊对于AI普及化的承诺，有望进一步丰富AI应用的技术生态。

文章转载自：同花顺非本站原创如有问题可与站长联系！！！

标签：

2024年05月14日快讯 OpenAI再炸场 人类全能AI助手梦幻成真