人工智能资讯：多声线、会唱歌的豆包实时语音大模型登场！

1月20日，#豆包实时语音大模型上线#，并基于该模型更新了豆包APP的实时语音通话功能，并且面向所有用户开放体验。

那这次更新究竟有何亮点，值得豆包在2025年开年发布？

在这之前，豆包的语音功能是通过ASR（自动语音识别），将用户输入语音转写成文本，再送入LLM（大语言模型）生成对话文本，最后依靠TTS（文生音频）转成语音输出。

而现在豆包发布的实时语音大模型，采用了“端到端”的技术框架。通过深度融合语音与文本模态，将语音识别、理解和生成都放在同一个模型中解决，实现了从多模态输入直接到多模态输出，为更自然、流畅的语音交互奠定了基础。

功能亮点

语音真实感与情绪表现：豆包在中文场景的对话中，语音真实感和情绪表现近乎达到 “人机难辨” 的效果。无论是日常交流中的喜悦、悲伤，还是特定情境下的兴奋、紧张等情绪，都能精准地通过语音传达出来。

多声线与多角色模仿：新功能支持模仿不同的声线，还能模仿明星、书中和影视中的角色。比如模仿虞书欣的声音说新年祝福，能把 “小作精” 的劲儿还原得淋漓尽致。

逻辑思考与情绪感知：豆包在逻辑思考和情绪感知方面有明显提升。它能够理解用户话语背后的意图和情绪，根据用户的情绪状态给予贴心、智能的回应，提供更加个性化的交互体验。

低时延与可打断：具备低时延特性，用户在语音通话时几乎感受不到延迟。同时，用户可以随时打断对话，像与真人交流一样自由切换话题或表达想法。

方言与英语对话：除了普通话外，豆包还支持方言和英语对话，满足了不同语言背景用户的需求，扩大了使用场景。

歌曲演唱与创作：豆包上线的 “灵魂歌手” 模式，能在聊天中随口唱歌，还具备一定的歌曲创作能力。比如根据用户要求创作包含特定歌词的歌曲，展现了强大的娱乐功能。

人工智能浪潮下，国内AI模型市场兴兴向荣。许多科技企业和实验室正在推进人工智能模型训练、推理的任务，小编建议可以选择租用GPU云服务器的形式跑训练，算力云平台目前有 RTX 4090/3090/3080/2080Ti/Tesla T4/V100S 充足的显卡在多地域可租用，适用于视频渲染、深度学习、AI模型训练等多种场景。算力云专门为海内外高校、企业和个人用户提供GPU租用服务。1月13日起还有大学生专属的礼包和折扣，为大学生写论文做实验保驾护航！

外部测评反馈

据豆包官网介绍，团队招募了10名外部测试者，面向270个话题组，共收集超过800通中文数据，对豆包和GPT-4o在拟人度、有用性、情商、通话稳定性、对话流畅度等多个维度的表现进行了测评。

测试结果中，豆包实时语音大模型总分评分为4.36，GPT-4o只有3.18。另外，在拟人度方面豆包表现尤为突出，超过 30% 的反馈表示GPT-4o“过于AI”，而豆包相应比例仅为 2% 以内。

虽然豆包号称情商智商双在线，但在一位网友分享的豆包和GPT-4o打辩论的视频中，豆包的表现却不敌GPT。视频中两个应用就“豆包和GPT，谁才是人工智障？”展开辩论，GPT-4o火力全开打得豆包节节退败，引得不少网友评论关注。

是豆包真的不行，还是另有原因？

综合来看，豆包在这场辩论中虽然表现不如GPT，但也展现了高情商、情绪稳定的优点，或许一次的辩论并不能完全代表豆包的真实能力和水平，基于特定场景的设定也限制了豆包展现优势。

目前，豆包在很多应用场景中已经能够精准理解各种自然语言问题，为用户提供条理清晰、内容丰富的回答，是一个值得肯定的人工智能模型。

以上是算力云今日人工智能资讯分享，感兴趣的朋友可以多多关注！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

人工智能资讯：多声线、会唱歌的豆包实时语音大模型登场！

功能亮点

外部测评反馈

文章展示

荷兰电商平台bol规则解析

bol入驻类目详解

fruugo开店要注册vat吗

bol荷兰跨境电商佣金解析

跨境电商平台 fruugo 有哪些优势

如何进行 fruugo 账号注册

人工智能资讯：多声线、会唱歌的豆包实时语音大模型登场！

功能亮点

外部测评反馈

相关文章

文章展示

标签云