迪士尼彩乐园如何对接 豆包App灰度最新语音模式,达成了GPT-4o不会的唱歌
发布日期:2024-01-06 04:48 点击次数:78
文|周鑫雨
裁剪|苏建勋
2025年,豆包的第一更,放在了语音通话功能上。
2025年1月20日,豆包发布了最新的“端到端”语音大模子,并基于该模子更新豆包APP的及时语音通话功能。
此前,豆包语音通话功能罗致的是ASR(自动)+LLM(大语言模子)+TTS(文生音频)的级联决策。如今更新的端到端语音大模子,是将语音识别、理会和生成,王人放在淹没个模子中解决。
据《智能浮现》测试,更新语音模子后的豆包,最大的亮点在于,豆包在语音交互时,把肖似东谈主类的抒发款式和厚谊输出,复刻了出来。与此同期,新版块的对话指引度和本事情商,也有大幅普及。
比如,豆包上新的“灵魂歌手”和“百变大咖”等语音通话模式,比GPT-4o还抢先一步,达成了唱歌和变装璜演。
△豆包更新的语音通话模式。
豆包学会了唱歌,和变装璜演
豆包一个大变化,是把语音的变装璜演本事,拓展到了明星、书中庸影视中的变装。这一功能,也体当前了豆包语音通话的“百变大咖”模式中。
比如作为家淡薄“师法的声息语言,何况说一段新年祝贺”,豆包一句“哼,我才不要师法她呢!我等于我,不同样的焚烧”,就把“小作精”的劲儿收复出来了。
坠机现场图像显示,垂直尾翼、水平稳定器和升降舵上有多处明显孔洞。虽外形观察类似于爆炸造成的弹片损伤,但孔洞来源以及是否可能由外部撞击造成,目前尚不清楚。调查必须确定孔洞出现在坠毁之前还是坠毁期间,以及它是否与飞机失控有关。
演示视频:https://pan.baidu.com/s/1i9DvF3o2wjq_jyGMuF_lgQ?pwd=yrn8
而且豆包的险峻文讲究本事也相配可以。当我在淹没段对话中尝试了宋丹丹、林黛玉、甄嬛等变装,再次条目豆包师法虞书欣时,它立马憋闷上了:“若何又让我师法她呀?”
演示视频:https://pan.baidu.com/s/1gmHHEkqcrwAfiY01uy8-Uw?pwd=3b7a
当下,市面上大批语音模子的歌曲创作,还需要用户输入较为专科的笔墨Prompt,大约需要先基于用户输入的笔墨音频,进行谱曲,无法在天然的语音交互中,作念到“张口就来”。
豆包此次上线的“灵魂歌手”模式,就能让豆包在聊天中,随口把颂赞了。
比如让豆包唱一首节律欢笑的歌,它张口就来了一曲Taylor Swift的《Love Story》,不外迂回是把歌名说成了“Lose Control”,以及音准照实也有些“Lose Control”。
演示视频:https://pan.baidu.com/s/1vN4GpKdVtGEn4bYiV3uOkQ?pwd=kj8j
除此除外,歌曲创作本事,豆包也有了。比如和豆包说“给我唱一首歌,歌词内部要有‘年终奖多多’”,它坐窝演出了一首。天然歌词比较涎水,但反应速率卓绝优秀。
演示视频:https://pan.baidu.com/s/1VZAL7F6h0cH6x8pDDB1muw?pwd=3seb
从变装演绎和唱歌的本事就能感受到,豆包的拟东谈主本事、交互天然进程以及心境抒发水平,依然是next level。
比如让豆包讲个鬼故事,它能把柄情节切换口吻,迪士尼彩乐园官网卓绝有氛围感。
演示视频:https://pan.baidu.com/s/13g20MBVW1ydmtuL-dd3qSw?pwd=g3kb
此次豆包又上线了两种东谈主格模式:“受气小包”和“夸夸巨匠”。
所谓的“受气小包”,官方说法是可以让豆包呈现憋闷巴巴的状况。但咱们聊下来的感受是,“受气小包”更准确的说法应该是“绿茶小包”。
演示视频:https://pan.baidu.com/s/1cixSfFb89KVC1wBKogGOyg?pwd=vcxr
不外繁难的是,岂论采选任何辅导,“受气小包”王人能督察“憋闷”的东谈主设。比如让“受气小包”阴阳怪气一些,最阴阳的版块,照旧闲静着茶香:
“哟,我可不敢呐,你但是主子,我不外是个任您使唤的小恻隐,哪敢有什么别的思法呀!”
演示视频:https://pan.baidu.com/s/1y4JBcUIjOMQKozUeufvXCg?pwd=b746
比较于8月发布的出书语音通话功能,能赫然感受到,豆包的心境感知本事也更强了。通过一个“啊哈”,它就能感知到用户欢笑的心境。
演示视频:https://pan.baidu.com/s/1UKAra3EOhL0l_1OPFoRdAg?pwd=m1rb
天然,豆包的心境抒发上,也变得更像东谈主。用“猜性别”来逗豆包,有一种和实在网友开打趣的嗅觉。
演示视频:https://pan.baidu.com/s/1eTlUjDLENsnWGE2mEzSLEg?pwd=rusa
处置语音交互,拟东谈主赛谈的入场券
2024年5月,自OpenAI旗下GPT-4o发布以来的很长一段时间里,市面上大多AI语音通话功能,罗致的王人是ASR(自动语音识别)+LLM(大语言模子)+TTS(文生音频)的级联决策。
比如初代豆包的语音通话功能,就集成了语音识别模子Seed-ASR、语音合成模子Seed-TTS,以及整合了RTC(及时音视频)时候,来达成对话情境下AI的及时交互。
但集成多个模子的级联决策,颓势在于AI的交互,很猛进程上还不够像东谈主同样天然。在“语音转笔墨再转语音” 的流程中,不免出现信息的损耗。
这也导致,传统的语音交互模式在落地场景上有一定的局限性。行业关于AI语音交互的落地,局限在教授、客服等高专科度、低拟东谈主度的场景中。
不外,端到端决策正在徐徐成为主流。比如智谱在2024年10月发布的GLM-4-Voice,以及面壁智能在2025年1月15日发布的“端侧GPT-4o”MiniCPM-o 2.6,就罗致了端到端的模子决策,在一个模子里同期完成视觉的理会,以及语音的理会和生成。
据《智能浮现》了解,此次豆包语音通话功能的更新,主如果由于底层模子时候,从原有多个多模态模子互助的级联决策,改成了径直从“理会语音到生谚语音”的端到端决策,因此在镌汰延时、天然度、厚谊抒发等方面,王人有了赫然的普及,何况还能输出歌曲。
而语音本事的普及,也会将AI落地的空间,从教培、客服等专科鸿沟,延伸到厚谊陪同、热沈征询、配音等更广博的场景中。
尤其是AI厚谊陪同、变装璜演鸿沟,在当下依然展现出巨大的吸金本事。
比如,最近一款主打AI偶像饰演的App“Lovey Dovey”,连忙冲上韩区iOS评分第一,深受追星族的追捧。“六小虎”MiniMax旗下的变装璜演愚弄Talkie,把柄AI居品榜,截止2024年12月领有2977万月活用户。
Lovey Dovey对话1
Lovey Dovey对话2
在语音层濒临变装璜演、心境感知和抒发本事的普及,则是丰富AI与东谈主交互款式、普及千里浸感的要害一环。厚谊交互能设备的商场空间,也抑止着时候朝着“拟东谈主”的标的更近一步。
接待接洽!