影视大全站

展开菜单

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
本文第一作者为美国东北大学博士生沈轩,研究方向为高效人工智能,专注于在 gpu、移动端、fpga 与 asic 等多种硬件平台上实现大模型的高效部署与加速。第二作者为香港中文大学的韩晨夏,其研究聚焦于计算机体系结构与 ai 系统的高效化设计。 在高质量视频生成任务中,扩散模型已成为主流技术。然而,随着视频时长和分辨率的提升,Diffusion Transformer(DiT)中的注意力机制计算量急剧上升,成为推理效率的核心瓶颈。这是因为 DiT 通常采用 3D 全局注意...