在人工智能领域,每一次技术的突破都牵动着无数人的心。
与OpenAI旗下的GPT-4和GPT-3.5相比,GPT-4o具有更快的反应速度和更好的互动体验。
在此前的模型中,用户使用语音模式与ChatGPT对话需要通过由三个独立模型组成的通道进行,一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收并输出文本,第三个简单模型再将文本转换回音频。在这些环节中会丢失大量信息,并且无法识别说话者的情绪。
而GPT-4o的出现,改变了这一现状。它采用了一个全新的训练方式,通过端到端的地训练,支持文本、音频和图像的任意组合输入,并能够生成文本、音频和图像的任意组合输出,并且所有输入和输出都在该模型中交由同一神经网络进行处理,实现更短的延时。同时,GPT-4o结合视频和音频感受对话者的情绪,并给出充满人类情感的反馈,实现更好的互动效果。
在发布会的演示环节,GPT-4o能以类似人类的语调与用户交谈,工作人员甚至随时插话打断并提出新要求,GPT-4o也能近乎无停顿地接上话题并按照要求变化音色、语调、情感等。
就像OpenAI首席执行官山姆 奥特曼(Sam Altman)在X平台(原推特)上预告的那样,新发布的GPT-4o“像魔法一样”。
GPT-4o的出现标志着人工智能领域的又一次重大突破,虽然可支持语音对话的聊天机器人很久之前有了,比如小爱同学、Siri等,但是GPT-4o所提供的近乎与真实人类交流的体验是前所未有的。
人工智能技术高速发展,算力作为支持人工智能进步的关键要素正在加快发展。其中算力云(suanlix)平台提供高性能显卡租赁服务,比如RTX2080Ti、RTX3080、RTX3090、RTX4090、Tesla T4、和Tesla V100S,帮助有需求的用户提供高性能的算力,助力AI训练、AI推理等工作。
除了对使用者音频的高效处理,GPT-4o还具有超绝的视觉处理能力。在新品演示过程中,研究人员启动摄像头,要求GPT-4o实时完成一道方程题,模型轻松完成了任务;研究人员还要求GPT-4o用简短的话描述一张气温图,GPT-4o精确地描述了这张图表显示了2018年全年的平均、最低和最高温度。
在未来,我们期待看到更多的GPT-4o,下一个敢于对标人工智能模型GPT-4o的首家企业将会谁家?让我们拭目以待!
今日算力云(suanlix)的人工智能资讯分享到此结束,感兴趣的朋友可以在评论区参与互动!