在人工智能领域,每一次技术的突破都牵动着无数人的心。

就在昨天凌晨,OpenAI公司在美国加州举办新品发布会,推出了一款新的人工智能模型 —— GPT-4o,其中的“o”代表“omni”,意为全能的。这是一款集成了文本、音频和视觉的跨模态大型语言模型。#OpenAI发布全新模型GPT4o#
OpenAI发布新模型GPT-4o,被称为“全能”的语言模型有多强大?

与OpenAI旗下的GPT-4和GPT-3.5相比,GPT-4o具有更快的反应速度和更好的互动体验。

在此前的模型中,用户使用语音模式与ChatGPT对话需要通过由三个独立模型组成的通道进行,一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收并输出文本,第三个简单模型再将文本转换回音频。在这些环节中会丢失大量信息,并且无法识别说话者的情绪。

而GPT-4o的出现,改变了这一现状。它采用了一个全新的训练方式,通过端到端的地训练,支持文本、音频和图像的任意组合输入,并能够生成文本、音频和图像的任意组合输出,并且所有输入和输出都在该模型中交由同一神经网络进行处理,实现更短的延时。同时,GPT-4o结合视频和音频感受对话者的情绪,并给出充满人类情感的反馈,实现更好的互动效果

在发布会的演示环节,GPT-4o能以类似人类的语调与用户交谈,工作人员甚至随时插话打断并提出新要求,GPT-4o也能近乎无停顿地接上话题并按照要求变化音色、语调、情感等。

OpenAI发布新模型GPT-4o,被称为“全能”的语言模型有多强大?

就像OpenAI首席执行官山姆 奥特曼(Sam Altman)在X平台(原推特)上预告的那样,新发布的GPT-4o“像魔法一样”。

OpenAI发布新模型GPT-4o,被称为“全能”的语言模型有多强大?

图片来源:X平台

GPT-4o的出现标志着人工智能领域的又一次重大突破,虽然可支持语音对话的聊天机器人很久之前有了,比如小爱同学、Siri等,但是GPT-4o所提供的近乎与真实人类交流的体验是前所未有的。

人工智能技术高速发展,算力作为支持人工智能进步的关键要素正在加快发展。其中算力云(suanlix)平台提供高性能显卡租赁服务,比如RTX2080Ti、RTX3080、RTX3090、RTX4090、Tesla T4、和Tesla V100S,帮助有需求的用户提供高性能的算力,助力AI训练、AI推理等工作。

OpenAI发布新模型GPT-4o,被称为“全能”的语言模型有多强大?

除了对使用者音频的高效处理,GPT-4o还具有超绝的视觉处理能力。在新品演示过程中,研究人员启动摄像头,要求GPT-4o实时完成一道方程题,模型轻松完成了任务;研究人员还要求GPT-4o用简短的话描述一张气温图,GPT-4o精确地描述了这张图表显示了2018年全年的平均、最低和最高温度。

OpenAI发布新模型GPT-4o,被称为“全能”的语言模型有多强大?

在未来,我们期待看到更多的GPT-4o,下一个敢于对标人工智能模型GPT-4o的首家企业将会谁家?让我们拭目以待!

今日算力云(suanlix)的人工智能资讯分享到此结束,感兴趣的朋友可以在评论区参与互动!

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。