GitHub的Lvmin Zhang结合斯坦福大学的Maneesh Agrawala颁布发表了一项名为FramePack的冲破性新手艺。这项手艺经由过程在视频分散模子中利用牢固长度的时域高低文,实现了更高效、更高品质的视频天生。

FramePack作为一种神经收集架构,接纳多级优化战略实现本地AI视频天生。它底层基于定制版的腾讯混元模子,但现有的预练习模子都能够经由过程FramePack停止微调、适配。这一手艺的最大亮点在于,它明显降落了对显存的须要。基于FramePack构建的130亿参数模子,仅需一块6GB显存的显卡,就能够天生60秒钟的视频。
传统的视频分散模子在天生视频时,须要处置此前天生的带有乐音的帧,并展望下一个乐音更少的帧。而每天生一帧所须要输出的帧数目(立即域高低文长度)会跟着视频的体积而增添,这对显存有着很高的请求。但是,FramePack会按照输出帧的主要性,对一切输出帧停止紧缩,转变为牢固的高低文长度,从而明显降落了显存须要。同时,它的计较耗损与图片分散模子近似,每帧画面天生以后城市及时显现,便利立即预览。
另外,FramePack还能有用减缓“漂移”景象,即视频长度增添时品质降落的题目。这象征着,在不明显就义品质的同时,能够天生更长的视频。该手艺数据格局撑持FP16、BF16,显卡硬件撑持RTX 50、RTX 40、RTX 30系列显卡(除RTX 3050 4GB外),操纵体系则撑持Windows和Linux。机能方面,RTX 4090颠末teacache优化后,每秒能够天生约莫0.6帧。这一手艺的推出,无疑为视频天生范畴带来了新的冲破和成长机缘。



























