热闻|OpenAI新版GPT-4o登场！对所有用户免费，听说读写如真人

2024-05-15
小编: 网络
正體

分享到：

导读: 而-4的语音对话是跨文本、视觉和音频端到端训练一个新模型的产物，这意味着所有输入和输出都由同一神经网络处理

齐齐哈尔时尚网小编提示，记得把"热闻|OpenAI新版GPT-4o登场！对所有用户免费，听说读写如真人"分享给大家！

不开玩笑，电影《她》真的来了。

5月14日凌晨，美国人工智能研究公司OpenAI在线上举办了“春季更新”活动，整体来看，活动主要分为两大部分：推出新旗舰模型“GPT-4o”，以及在ChatGPT中免费提供更多功能。OpenAI最新旗舰大模型GPT-4o，不仅免费可用，能力更是横跨听、看、说，丝滑流畅毫无延迟，就像在打一个视频电话。

将对所有用户免费开放！

（新语音模式几周内先对Plus用户开放）

在直播现场，CTO Murati穆姐说：这是把GPT-4级别的模型开放出去，其实她还谦虚了。

在场外，研究员William Fedus揭秘，GPT-4o就是之前在大模型竞技场搞A/B测试的模型之一，im-also-a-good-gpt2-chatbot。

无论从网友上手体验还是竞技场排位来看，都是高于GPT-4-Turbo级别的模型了，ELO分数一骑绝尘。

而这样的超强模型也将提供API，价格打5折，速度提高一倍，单位时间调用次数足足是原来的5倍！

追直播的网友已经在设想可能的应用，可以替代盲人看世界了。以及确实感觉比之前的语音模式体验上强上不少。

鉴于之前不少人就已经和ChatGPT语音模式“谈恋爱”了，有大胆想法的朋友，可以把你们的想法发在评论区了。

实时口译、读取用户情绪等

米拉·穆拉蒂强调了GPT-4o在实时语音和音频功能方面必要的安全性，称OpenAI将继续部署迭代，带来所有的功能。

在演示中，OpenAI研究主管Mark Chen掏出手机打开ChatGPT，用语音模式Voice Mode现场演示，向GPT-4o支持的ChatGPT征询建议。GPT的声音听起来像一位美国女性，当它听到Chen过度呼气时，它似乎从中察觉到了他的紧张。然后说“Mark，你不是吸尘器”，告诉Chen要放松呼吸。如果有些大变化，用户可以中断GPT，GPT-4o的延迟通常应该不会超过两三秒。

另一项演示中，OpenAI的后训练团队负责人Barret Zoph在白板上写了一个方程式3x 1=4，ChatGPT给他提示，引导他完成每一步解答，识别他的书写结果，帮助他解出了X的值。这个过程中，GPT充当了实时的数学老师。GPT能够识别数学符号，甚至是一个心形。

应社交媒体X的用户请求，米拉·穆拉蒂现场对ChatGPT说起了意大利语。GPT则将她的话翻译成英语，转告Zoph和Chen。听完米拉·穆拉蒂说的意大利语，GPT翻译为英文告诉Chen：“Mark，她（米拉·穆拉蒂）想知道鲸鱼会不会说话，它们会告诉我们什么？”

OpenAI称，GPT-4o还可以检测人的情绪。在演示中，Zoph将手机举到自己面前正对着脸，要求ChatGPT告诉他自己长什么样子。最初，GPT参考了他之前分享的一张照片，将他识别为“木质表面”。经过第二次尝试，GPT给出了更好的答案。

GPT注意到了Zoph脸上的微笑，对他说：“看起来你感觉非常快乐，喜笑颜开。”有评论称，这个演示显示，ChatGPT可以读取人类的情绪，但读取还有一点困难。

最快232毫秒响应音频输入

OpenAI官网介绍，GPT-4o中的o代表意为全能的前缀omni，称它向更自然的人机交互迈进了一步，因为它接受文本、音频和图像的任意组合作为输入内容，并生成文本、音频和图像的任意组合输出内容。

除了API的速度更快、成本大幅下降，OpenAI还提到，GPT-4o可以在最快232毫秒的时间内响应音频输入，平均响应时间为320毫秒，这与人类在对话中的响应时间相似。它在英语文本和代码方面的性能与GPT-4 Turbo的性能一致，并且在非英语文本方面的性能有了显著提高。

OpenAI介绍，与现有模型相比，GPT-4o在视觉和音频理解方面尤其出色。以前GPT-3.5和GPT-4用户以语音模式Voice Mode与ChatGPT对话的平均延迟时间为2.8秒和5.4秒，因为OpenAI用了三个独立的模型实现这类对话：一个模型将音频转录为文本，一个模型接收并输出文本，再有一个模型将该文本转换回音频。这个过程意味着，GPT丢失了大量信息，它无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

而GPT-4o的语音对话是OpenAI跨文本、视觉和音频端到端训练一个新模型的产物，这意味着所有输入和输出都由同一神经网络处理。OpenAI称，GPT-4o是其第一个结合所有这些模式的模型，因此仍然只是浅尝辄止地探索该模型的功能及其局限性。

上周曾有消息称，OpenAI将发布基于AI的搜索产品，但上周五OpenAI的CEO Sam Altman否认了该消息，称本周一演示的既不是GPT-5，也不是搜索引擎。这意味着OpenAI再一次没有像市场爆料的时间线那样推出AI搜索。此后有媒体称，OpenAI的新产品可能是一个具备视觉和听觉功能的全新多模态AI模型，且具有比目前聊天机器人更好的逻辑推理能力。

网友：又一次突破了认知

对此，网友表示，“未来世界，人类可以躺平了”；也有网友认为，“无敌真正的AI助手出现了”；还有网友称，“还有什么AI做不到的，世界变化太快了，但感觉已经赶不上AI的进步。”

消息一出，不少国外网友们也炸开了锅，危机感这不又来了！

但也有部分网友保持冷静态度，表示：“这个影响肯定不小，但也不见得都是坏事。关键是，咱们得提前做好准备，自动化会越来越普遍，而对传统工作的需求会大大减少，肯定会带来社会规则的大变动。”

还有部分网友对此十分乐观，认为自己不会被AI所替代，说：“我对这事儿并不太担心，毕竟我自认为能力还算不错！而且尽管人工智能发展迅速，但它实际上也还只是个刚学会走路的小孩。”

OpenAI之父：AI影响力，可不容小觑

5月7日，有“OpenAI之父”之称的OpenAI首席执行官萨姆·阿尔特曼（Sam Altman）在布鲁金斯学会关于人工智能和地缘政治的专题讨论会上发出警告，称人工智能对经济的影响力可能被大大低估了。

阿尔特曼说道，“GPT- 4并没有对经济产生巨大的、可察觉的影响，所以人们就觉得说：‘哦，好吧，是我们之前焦虑过度了，这完全不是个事’，而我担心的是，人们对这个问题的重视程度不够，AI的经济影响力，其实一个非常非常巨大的问题。”但当被问及为何他认为AI会成为一个巨大的问题时，阿尔特曼并未立即作出回应。

但并非所有职场人士都将人工智能视作威胁。一些对此持乐观态度的人认为，掌握人工智能技术的应用，能够让员工高效地节省时间，提升工作效率，从而提供个人晋升机会，有助于增加收入。

尽管如此，阿尔特曼表示，他仍对人工智能在劳动力市场上的潜在影响感到担忧。去年，在接受CNBC采访时，他曾表示自己对ChatGPT“略感惶恐”，警告称，这一技术可能会“淘汰”许多工作岗位。

AI带来的岗位重构：替代与补充

最新研究结果表明，AI可能会对经济产生颠覆性的影响。国际货币基金组织（IMF）在今年1月发布的一项研究表明，AI可能对发达经济体中约60%的工作岗位产生威胁。据IMF分析，近乎半数的工作可以实现自动化，这可能会导致招聘人数减少和工资下降。与此同时，麦肯锡（McKinsey）在其2023年7月发布的报告显示，到2030年，美国或将有近1200万劳动者面临职业转型的挑战。

知名投行高盛的JanHatzius分析师团队也在其2023年3月发布的研报中指出，若生成式AI能够实现其所承诺的能力，劳动力市场可能将面临巨大的冲击。美国目前近三分之二的职业岗位面临着自动化的威胁，其中，生成式AI的快速发展或将导致四分之一的工作岗位迎来根本性变革。高盛估计，大约7%的劳动力面临完全失业的风险，但他们中的大多数能够在稍微低产出的岗位上找到新工作。此趋势跨越国界，预示全球范围内，或将有高达3亿全职岗位步入“智能化转型”的新时代。