那这次更新究竟有何亮点,值得豆包在2025年开年发布?
在这之前,豆包的语音功能是通过ASR(自动语音识别),将用户输入语音转写成文本,再送入LLM(大语言模型)生成对话文本,最后依靠TTS(文生音频)转成语音输出。
而现在豆包发布的实时语音大模型,采用了“端到端”的技术框架。通过深度融合语音与文本模态,将语音识别、理解和生成都放在同一个模型中解决,实现了从多模态输入直接到多模态输出,为更自然、流畅的语音交互奠定了基础。
功能亮点
语音真实感与情绪表现:豆包在中文场景的对话中,语音真实感和情绪表现近乎达到 “人机难辨” 的效果。无论是日常交流中的喜悦、悲伤,还是特定情境下的兴奋、紧张等情绪,都能精准地通过语音传达出来。
多声线与多角色模仿:新功能支持模仿不同的声线,还能模仿明星、书中和影视中的角色。比如模仿虞书欣的声音说新年祝福,能把 “小作精” 的劲儿还原得淋漓尽致。
逻辑思考与情绪感知:豆包在逻辑思考和情绪感知方面有明显提升。它能够理解用户话语背后的意图和情绪,根据用户的情绪状态给予贴心、智能的回应,提供更加个性化的交互体验。
低时延与可打断:具备低时延特性,用户在语音通话时几乎感受不到延迟。同时,用户可以随时打断对话,像与真人交流一样自由切换话题或表达想法。
方言与英语对话:除了普通话外,豆包还支持方言和英语对话,满足了不同语言背景用户的需求,扩大了使用场景。
歌曲演唱与创作:豆包上线的 “灵魂歌手” 模式,能在聊天中随口唱歌,还具备一定的歌曲创作能力。比如根据用户要求创作包含特定歌词的歌曲,展现了强大的娱乐功能。
人工智能浪潮下,国内AI模型市场兴兴向荣。许多科技企业和实验室正在推进人工智能模型训练、推理的任务,小编建议可以选择租用GPU云服务器的形式跑训练,算力云平台目前有 RTX 4090/3090/3080/2080Ti/Tesla T4/V100S 充足的显卡在多地域可租用,适用于视频渲染、深度学习、AI模型训练等多种场景。算力云专门为海内外高校、企业和个人用户提供GPU租用服务。1月13日起还有大学生专属的礼包和折扣,为大学生写论文做实验保驾护航!
外部测评反馈
据豆包官网介绍,团队招募了10名外部测试者,面向270个话题组,共收集超过800通中文数据,对豆包和GPT-4o在拟人度、有用性、情商、通话稳定性、对话流畅度等多个维度的表现进行了测评。
测试结果中,豆包实时语音大模型总分评分为4.36,GPT-4o只有3.18。另外,在拟人度方面豆包表现尤为突出,超过 30% 的反馈表示GPT-4o“过于AI”,而豆包相应比例仅为 2% 以内。
虽然豆包号称情商智商双在线,但在一位网友分享的豆包和GPT-4o打辩论的视频中,豆包的表现却不敌GPT。视频中两个应用就“豆包和GPT,谁才是人工智障?”展开辩论,GPT-4o火力全开打得豆包节节退败,引得不少网友评论关注。
是豆包真的不行,还是另有原因?
综合来看,豆包在这场辩论中虽然表现不如GPT,但也展现了高情商、情绪稳定的优点,或许一次的辩论并不能完全代表豆包的真实能力和水平,基于特定场景的设定也限制了豆包展现优势。
目前,豆包在很多应用场景中已经能够精准理解各种自然语言问题,为用户提供条理清晰、内容丰富的回答,是一个值得肯定的人工智能模型。
以上是算力云今日人工智能资讯分享,感兴趣的朋友可以多多关注!