腾讯混元开源端到端视频音效生成模型 HunyuanVideo-Foley

腾讯混元正式开源端到端视频音效生成模型hunyuanvideo-foley,仅需上传视频并输入文字描述,即可自动生成媲美电影质感的沉浸式音效

腾讯混元开源端到端视频音效生成模型 HunyuanVideo-Foley

例如,输入文本:“With a faint sound as their hands parted, the two embraced, a soft 'mm' escaping between them.”
系统便会输出一段画面与声音高度契合的完整视频:

腾讯混元开源端到端视频音效生成模型 HunyuanVideo-Foley

核心技术优势

  • 强泛化能力:适用于人物互动、动物行为、自然风景、卡通动画等多种视频类型,精准生成与视觉内容同步的音频。
  • 多模态语义协同建模:采用创新的双流多模态扩散变换器(MMDIT)架构,有效融合文本与视频语义信息,解决传统方法中“重文字轻画面”的问题。
  • 高保真音频输出:引入表征对齐(REPA)损失函数,显著降低背景噪声,提升音质纯净度,达到专业级制作标准。

腾讯混元开源端到端视频音效生成模型 HunyuanVideo-Foley

官方表示,HunyuanVideo-Foley成功突破了AI生成视频长期“有画无声”的瓶颈,终结无声AI视频时代,真正实现“理解画面、解析文本、精准配声”的一体化能力,为用户带来影院级的视听融合体验。该模型可广泛用于短视频生产、影视后期、广告创意及游戏音效设计等多个领域。

现在,开发者和创作者可通过以下平台免费获取模型资源:

  • 在线体验地址:https://www.php.cn/link/5f6f7b11088de6d2cd70a2ccc6130d1f
  • 项目主页:https://www.php.cn/link/b4df8f42155d4aa5754af5e3b17f6931
  • 开源代码库:https://www.php.cn/link/85fa59ac8a893137b2777551335631ed
  • 技术论文:https://www.php.cn/link/d697311aad4f58ad2c5d4286fc22980d
  • Hugging Face模型站:https://www.php.cn/link/a28477d0c57129b93d95baf171634582

关键词:git腾讯aiai视频

网友留言(0 条)

发表评论