腾讯混元文生视频,开创性的开源视频基础模型 HunyuanVideo 是腾讯推出的一种新颖的开源视频基础模型,其视频生成性能不仅可以与领先的闭源模型相媲美,甚至在多个方面优于它们。
综合框架与关键贡献 HunyuanVideo 集成了多项关键技术,包括数据管理、图像-视频联合模型训练以及支持大规模模型训练和推理的高效基础设施。我们通过有效的模型架构和数据集扩展策略,成功训练了一个具有超过 130 亿个参数的视频生成模型,使其成为开源领域中规模最大的模型之一。
卓越的视觉质量与生成稳定性 我们进行了大量实验和有针对性的设计,以确保生成视频的高视觉质量、丰富的运动多样性、精准的文本-视频对齐以及出色的生成稳定性。专业人工评估结果表明,HunyuanVideo 的表现优于 Runway Gen-3、Luma 1.6 和其他顶尖中文视频生成模型。
弥合开源与闭源的差距 通过发布基础模型及其应用程序的代码和权重,我们旨在弥合闭源和开源视频基础模型之间的差距。这一举措将使社区中的每个人都能尝试自己的想法,推动视频生成生态系统的蓬勃发展。
混元视频整体架构 HunyuanVideo 在时空压缩的潜在空间上进行训练,该空间通过因果 3D VAE 进行压缩。文本提示使用大型语言模型进行编码,并作为生成模型的条件。高斯噪声和条件作为输入,生成模型生成输出潜在,最终通过 3D VAE 解码器解码为图像或视频。
链接直达
点击以下链接,立即开始使用腾讯元宝的【AI视频】应用:腾讯元宝AI视频体验