提速 8 倍!欧洲杯体育
速率更快、效能更好的混元视频模子——FastHunyuan来了!
新模子仅用1 分钟就能生成5 秒长的视频,比之前提速8 倍,门径也从 50 步减少到了6 步,致使画面细节也更传神了。
和闲居速率的混元对比一下,蓝本 50 步材干生成 1 条视频,而当今新模子在相通的时刻里不错生成8 条:
再来望望和 Sora 的画面临比,不错看到 Fast-Hunyuan 和 Sora 两者的效能都更传神一些,穿着、生果和山岭的细节也荒谬明晰。
致使在一些物理细节的闪现上,Fast-Hunyuan 比 Sora 还强,比如底下拿取柠檬的视频:
更垂危的是,Fast-Hunyuan 的代码也开源了,这下无须为 Sora 的订阅费和名额发愁了。
计划团队来自加州大学圣地亚哥分校(UCSD)的Hao AI实践室,他们主要专注机器学习算法和永别式系统的计划。
混元官方账号还专门发博感谢了他们:
有网友看完后直呼,混元才是最佳的开源视频模子。
始创性的视频 DiT 蒸馏配方
团队是若何作念到 8 倍提速的情况下还能晋升视频明晰度呢?
底下就一皆来看一下 Fast-Hunyuan 的技能旨趣——
率先,他们开采了全新的视频 DiT 蒸馏配方。
具体来说,他们的蒸馏配方基于阶段一致性(Phased Consistency Model, PCM)模子。
在尝试使用多阶段蒸馏后发现效能莫得显贵改革,最终他们聘用保捏单阶段建造,与原始 PCM 模子的成就同样。
其次,团队使用了 OpenSoraPlan 中的MixKit 数据集进行了蒸馏。
为了幸免在考试经过中启动文本编码器和 VAE,团队还预惩处了所罕见据,用来生成文本镶嵌和 VAE 潜在变量。
在推理阶段,用户不错通过 FSDP、序列并行和聘用性激活检查点进行可推广考试,模子不错近乎线性推广到 64 个 GPU。测试代码在 Python 3.10.0、CUDA 12.1 和 H100 上启动。
最低硬件要求如下:
40 GB GPU 内存,每个 GPU 配备 lora
30 GB GPU 内存,每 2 个 GPU 配备 CPU 卸载和 LoRa。
此外,他们还结合了预测算潜变量和预测算文本镶嵌,用户不错把柄我方的硬件条目聘用不同的微调形势来实行高歌,也赈济图像和视频的搀杂微调。
模子已于 2024 年 12 月 17 日发布了 v0.1 版块。
异日的开采盘算推算还包括添加更多蒸馏步调(如永别匹配蒸馏)、赈济更多模子(如 CogvideoX 模子)以及代码更新(如 fp8 赈济、更快的加载和保存模子赈济)等等。
One More Thing
除了加快模子,混元还预报了群众都荒谬期待的图像到视频生到手能。
最快1 月份,也即是下个月就不错看到!期待住了。
GitHub:https://github.com/hao-ai-lab/FastVideo
HuggingFace:https://huggingface.co/FastVideo/FastHunyuan
参考诱导:
[ 1 ] https://x.com/TXhunyuan/status/1869282002786292097
— 完 —
点这里� � 调整我,难忘标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿推崇日日再会 ~
Powered by 开云「中国」kaiyun体育网址登录入口 @2013-2022 RSS地图 HTML地图
Copyright Powered by站群系统 © 2013-2024