开云体育生数科技曾长入清华大学推出文生音效系统-开云 (集团) 官方网站 Kaiyun 登录入口
发布日期:2025-07-25 07:04 点击次数:61
智东西(公众号:zhidxcom)开云体育
智东西7月23日报说念,7月11日,清华大学和生数科技发表配合论文,崇敬推出一种基于免进修活动的精确时刻可控永劫文生音频系统FreeAudio。
论文连络:https://arxiv.org/abs/2507.08557
据先容,该系统无需罕见进修,不错基于当然谈话文本与时刻请示竣事精确的时刻限制与永劫音频生成,打破10秒时长扫尾,解锁了10秒以上场景的文生音效时刻精确可控。
该活动左右LLM对时刻结构进行筹备,将文本与时刻请示瓦解为一系列互不重迭的时刻窗口,并为每个窗口生成适配的当然谈话形色。随后,FreeAudio再顺次生成各时刻片断的音频试验,并通过陡立文交融与参考开发机制竣事最终的永劫音频合成。
现在相干盘问后果已被贪图机多媒体鸿沟的海外顶级会议ACM Multimedia 2025委派,并由AC推选为Oral登科。
此前,生数科技曾长入清华大学推出文生音效系统,自称是民众首个竣事10秒内精确时刻限制的交易落地系统,复古独随即间窗音效生成,其多音轨时刻窗可控功能已通过生数科技Vidu平台落地商用。
先从几个例子感受一下:
1、狼嚎声拼接蟋蟀声:
2、丛林复合音效:
3、男声吉他伴唱:
Demo连络:https://freeaudio.github.io/FreeAudio/
一、3大中枢时期,FreeAudio系统打破10秒时长瓶颈文生音频(T2A)生成时期虽在生成模子股东下取得进展,但受限于时刻对都的音频-文本数据质地和数目,现存系统在处理含精确时刻限制的复短文本请示时进展欠安。
即便部分盘问通过数据增强或引入时刻条目竣事了10秒内的时刻可控生成,生成质地仍有限。此外,无数公开音频数据集时长较短(频频约 10 秒),且标注较粗,制约了细粒度时刻限制和永劫连贯性模子的发展。
清华大学和生数科技配合研发的FreeAudio系统,简略依据当然谈话文本与时刻请示,无需罕见进修即可同期复古时刻限制与永劫生成,打破了10秒时长扫尾,其主要有3大中枢时期:
1、LLM筹备:
该系统左右大谈话模子(LLM)的筹备智商,将文本和时刻请示疏导为一系列非重迭时刻窗口,每个窗口配有当然谈话再行形色,处置时刻重迭和错误问题。
▲时刻可控音频生成的LLM Planning和Decoupling & Aggregating Attention Control模块
2、解耦与团聚严防力限制:
在DiT-based T2A模子基础上,该系统对基础潜变量依时期窗口分割,开发每个子段与对应再行形色请示零丁进行交叉严防力贪图,再将子段团聚整合,竣事时刻对都和全局一致性。
▲永劫音频生成的全体架构图
3、永劫生成优化时期:
(1)陡立文潜变量合成:FreeAudio系统通过处理相邻音频段重迭区域,增强局部范围平滑度;
(2)参考开发:在自严防力模块中,该系统左右参考音频特征,看守永劫音频的全局一致性;
(3)陡立文修剪与拼接:该系统去除重迭区域冗余部分,后将解码后的段拼接,以生成最终永劫音频。
二、多项规画得分最优,永劫生成智商名纪律一在时刻可控音频生成实验中,在AudioCondition测试集上,FreeAudio系统的事件级(Eb)和片断级(At)得分均名纪律一。
在客不雅规画方面,FreeAudio系统的FAD和KL散度与最优的进修型模子额外,CLAP分数名纪律一。在主不雅评估中,FreeAudio系统相同取得了最高的时刻一致性与音频可听性评分。
进一步的消融实验标明,参考开发时期有用普及了永劫音频的全局一致性,当λ在0.1至0.2范围内时,各项规画均进展最优,在同类确立中名纪律一。
在永劫生成性能上,针对26秒和90秒生成任务,FreeAudio系统在无数规画上名纪律一,在主不雅评估中,其质地、一致性和连贯性三个维度的得分均名纪律一。
这次推出的FreeAudio系统竣事了新的时期打破,即打破10秒时长扫尾,简略在10秒以上场景中竣事文生音效的时刻精确限制。
总的来说,该系统处置了多个行业痛点,如幸免音效版权风险,处置音效匹配繁难;大幅缩短音效制作本钱;复古多音轨秒级对都,如环境声与动物鸣叫可精确叠加等。
据了解,FreeAudio系统改日或将有计划在Vidu居品端上线。研发团队规画在改日进一步探索归拢当然谈话事件形色的进修式时刻限制文本到音频生成系统,以普实时刻对都精度和音频生成质地。
在永劫音频生成方面,改日他们还规画盘问复古更永劫长以至无穷永生成的机制,同期但愿将该活动拓展至空间音频生成等标的,以复古更各类的听觉场景。
结语:FreeAudio系统具备应用后劲跟着AI音频生成时期的加快发展,阛阓对精确时刻限制和永劫音频生成的需求日益突显,但现存决议在时长扫尾、版权风险及制作本钱等方面仍存在瓶颈。
FreeAudio系统打破了“10秒魔咒”,时期后果获海外顶级会议认同开云体育,为行业提供了新的处置决议。改日跟着交易化落地实时期迭代,其在影视音效等鸿沟的应用后劲值得心计。
- 上一篇:开yun体育网通航境外83个国度213个城市-开云 (集团) 官方网站 Kaiyun 登录入口
- 下一篇:没有了