开云 (集团) 官方网站 Kaiyun 登录入口

  • 开云体育生数科技曾长入清华大学推出文生音效系统-开云 (集团) 官方网站 Kaiyun 登录入口

资讯

你的位置:开云 (集团) 官方网站 Kaiyun 登录入口 > 资讯 >

开云体育生数科技曾长入清华大学推出文生音效系统-开云 (集团) 官方网站 Kaiyun 登录入口

发布日期:2025-07-25 07:04    点击次数:61

开云体育生数科技曾长入清华大学推出文生音效系统-开云 (集团) 官方网站 Kaiyun 登录入口

智东西(公众号:zhidxcom)开云体育

作家 | 王涵

剪辑 | 漠影

智东西7月23日报说念,7月11日,清华大学和生数科技发表配合论文,崇敬推出一种基于免进修活动的精确时刻可控永劫文生音频系统FreeAudio。

论文连络:https://arxiv.org/abs/2507.08557

据先容,该系统无需罕见进修,不错基于当然谈话文本与时刻请示竣事精确的时刻限制与永劫音频生成,打破10秒时长扫尾,解锁了10秒以上场景的文生音效时刻精确可控。

该活动左右LLM对时刻结构进行筹备,将文本与时刻请示瓦解为一系列互不重迭的时刻窗口,并为每个窗口生成适配的当然谈话形色。随后,FreeAudio再顺次生成各时刻片断的音频试验,并通过陡立文交融与参考开发机制竣事最终的永劫音频合成。

现在相干盘问后果已被贪图机多媒体鸿沟的海外顶级会议ACM Multimedia 2025委派,并由AC推选为Oral登科。

此前,生数科技曾长入清华大学推出文生音效系统,自称是民众首个竣事10秒内精确时刻限制的交易落地系统,复古独随即间窗音效生成,其多音轨时刻窗可控功能已通过生数科技Vidu平台落地商用。​

先从几个例子感受一下:

1、狼嚎声拼接蟋蟀声:

https://oss.zhidx.com/eb72f1f7f0fd5d102a4692e98957f2b9/687fb580/uploads/2025/07/687f86d0b9137_687f86d0a345c_687f86d0a3429_狼嚎声蟋蟀声.wav

2、丛林复合音效:

https://oss.zhidx.com/8b365cd023b789d05d853505ba4cb3d8/687fb580/uploads/2025/07/687f86f7e7496_687f86f7e0c74_687f86f7e0c49_森林场景声音合集.wav

3、男声吉他伴唱:

https://oss.zhidx.com/b95afc89f2ffe5b9a685c16471465b9c/687fb580/uploads/2025/07/687f87163e4ec_687f871637a08_687f8716379e0_男声吉他伴唱.wav

Demo连络:https://freeaudio.github.io/FreeAudio/

一、3大中枢时期,FreeAudio系统打破10秒时长瓶颈

文生音频(T2A)生成时期虽在生成模子股东下取得进展,但受限于时刻对都的音频-文本数据质地和数目,现存系统在处理含精确时刻限制的复短文本请示时进展欠安。

即便部分盘问通过数据增强或引入时刻条目竣事了10秒内的时刻可控生成,生成质地仍有限。此外,无数公开音频数据集时长较短(频频约 10 秒),且标注较粗,制约了细粒度时刻限制和永劫连贯性模子的发展。

清华大学和生数科技配合研发的FreeAudio系统,简略依据当然谈话文本与时刻请示,无需罕见进修即可同期复古时刻限制与永劫生成,打破了10秒时长扫尾,其主要有3大中枢时期:

1、LLM筹备:

该系统左右大谈话模子(LLM)的筹备智商,将文本和时刻请示疏导为一系列非重迭时刻窗口,每个窗口配有当然谈话再行形色,处置时刻重迭和错误问题。

▲时刻可控音频生成的LLM Planning和Decoupling & Aggregating Attention Control模块

2、解耦与团聚严防力限制:

在DiT-based T2A模子基础上,该系统对基础潜变量依时期窗口分割,开发每个子段与对应再行形色请示零丁进行交叉严防力贪图,再将子段团聚整合,竣事时刻对都和全局一致性。

▲永劫音频生成的全体架构图

3、永劫生成优化时期:

(1)陡立文潜变量合成:FreeAudio系统通过处理相邻音频段重迭区域,增强局部范围平滑度;

(2)参考开发:在自严防力模块中,该系统左右参考音频特征,看守永劫音频的全局一致性;

(3)陡立文修剪与拼接:该系统去除重迭区域冗余部分,后将解码后的段拼接,以生成最终永劫音频。

二、多项规画得分最优,永劫生成智商名纪律一

在时刻可控音频生成实验中,在AudioCondition测试集上,FreeAudio系统的事件级(Eb)和片断级(At)得分均名纪律一。

在客不雅规画方面,FreeAudio系统的FAD和KL散度与最优的进修型模子额外,CLAP分数名纪律一。在主不雅评估中,FreeAudio系统相同取得了最高的时刻一致性与音频可听性评分。

进一步的消融实验标明,参考开发时期有用普及了永劫音频的全局一致性,当λ在0.1至0.2范围内时,各项规画均进展最优,在同类确立中名纪律一。

在永劫生成性能上,针对26秒和90秒生成任务,FreeAudio系统在无数规画上名纪律一,在主不雅评估中,其质地、一致性和连贯性三个维度的得分均名纪律一。

三、将延续盘问更永劫长机制,FreeAudio或在Vidu居品端上线

这次推出的FreeAudio系统竣事了新的时期打破,即打破10秒时长扫尾,简略在10秒以上场景中竣事文生音效的时刻精确限制。

总的来说,该系统处置了多个行业痛点,如幸免音效版权风险,处置音效匹配繁难;大幅缩短音效制作本钱;复古多音轨秒级对都,如环境声与动物鸣叫可精确叠加等。​

据了解,FreeAudio系统改日或将有计划在Vidu居品端上线。研发团队规画在改日进一步探索归拢当然谈话事件形色的进修式时刻限制文本到音频生成系统,以普实时刻对都精度和音频生成质地。

在永劫音频生成方面,改日他们还规画盘问复古更永劫长以至无穷永生成的机制,同期但愿将该活动拓展至空间音频生成等标的,以复古更各类的听觉场景。

结语:FreeAudio系统具备应用后劲

跟着AI音频生成时期的加快发展,阛阓对精确时刻限制和永劫音频生成的需求日益突显,但现存决议在时长扫尾、版权风险及制作本钱等方面仍存在瓶颈。

FreeAudio系统打破了“10秒魔咒”,时期后果获海外顶级会议认同开云体育,为行业提供了新的处置决议。改日跟着交易化落地实时期迭代,其在影视音效等鸿沟的应用后劲值得心计。



相关资讯Related Articles

  • 开云体育生数科技曾长入清华大学推出文生音效系统-开云 (集团)

    2025-07-25

    智东西(公众号:zhidxcom)开云体育 作家 | 王涵 剪辑 | 漠影 智东西7月23日报说念,7月11日,清华大学和生数科技发表配合论文,崇敬推出一种基于免进修活动的精确时刻可控永劫文生音频系统FreeAudio。 论文连络:https://arxiv.org/abs/2507.08557 据先容,该系统无需罕见进修,不错基于当然谈话文本与时刻请示竣事精确的时刻限制与永劫音频生成,打破10秒...

  • 开yun体育网通航境外83个国度213个城市-开云 (集团) 官

    2025-07-24

    央视网音书:7月21日上昼,国务院新闻办公室举行高质料完成十四五谋划系列主题新闻发布会。交通运载部部长刘伟示意,十四五期间,国度空洞立体交通网加速构建。 r 领域旧年底铁路买卖里程达16.2万公里 r r 领域2024年开yun体育网底,铁路买卖里程达16.2万公里,比十三五末加多约1.6万公里,其中高铁加多1万公里;公路总里程达549万公里,加多约29万公里,口岸万吨级以上泊位2971个,加多3...

  • 开云体育(中国)官方网站xAI发布了聊天机器东谈主Grok4-开

    2025-07-22

    近期,寰球科技巨头埃隆·马斯克在酬酢平台X上晓谕了一项新动向,引起平凡怜惜。据悉,他的东谈主工智能公司xAI正入辖下手诞生一款名为“Baby Grok”的诓骗,专诚面向儿童用户。 这款诓骗的具体功能尚未揭晓,但马斯克骄慢,“Baby Grok”将穷困于提供友好型实验,旨在为孩子们打造一个愈加稳当的数字环境。这一音问赶紧在收罗上激勉了热议,不少家长和阐明众人对此暗示期待。 值得翔实的是,xAI公司在...

  • 欧洲杯体育这些车被停放在当代汽车南阳讨论所-开云 (集团) 官方

    2025-07-20

    快科技7月18日音讯,最近,当代汽车在首尔的总部隔邻被发现存多辆小米SU7停在讨论所里欧洲杯体育,这引起了大家的酷好。 据知情东谈主士炫耀,当代汽车依然崇敬肯求并取得了小米SU7的临时开动许可,标的是为了研发。 这些车被停放在当代汽车南阳讨论所,看起来像是在进行某种讨论。 当代汽车集团奉行董事长郑义宣之前就暗意,当代汽车需要保握竞争力,不仅要应付特斯拉,还要应付来自中国的新兴竞争者。 为了保握竞争...