Omni-Infer v0.4.2 已经发布,超大规模 MoE 模型推理加速技术


Omni-Infer v0.4.2 正式上线,带来面向超大规模 MoE 模型的高效推理加速方案
本次版本主要更新亮点如下:
核心功能升级
- 新增对 DeepSeek-v3.2-EXP with DSA 的全面支持
- 推出 Omni Proxy,实现高性能的 Prefill 与 Decode 分离调度(PD分离)
- 引入 KV offload 技术,结合主机内存扩展的 KVM 机制,使 MLA 场景下的 KV blocks 容量提升超过百倍,显著增强长上下文及多轮对话处理能力
已支持模型清单
| 模型 | 硬件 | 精度类型 | 部署形态 |
|---|---|---|---|
| 支持DeepSeek-v3.2-Exp | A3 | BF16 | PD分离 |
| 支持DeepSeek-v3.2-Exp | A3 | W8A8C16 | PD分离 |
| 支持DeepSeek-v3.2-Exp | A3 | Prefill W4A8C16,Decode W8A8C16 | PD分离 |
性能实测数据
| BF16 1P32-1D32 | 单机BS | TPOT(ms) | 单条请求TTFT(s) |
|---|---|---|---|
| 64K-1K | 2 | 32 | 3.37 |
| 32K-1K | 6 | 34 | 1.70 |
| 16K-1K | 8 | 34 | 0.97 |
| INT8 2P16-1D32 | 单机BS | TPOT(ms) | 单条请求TTFT(s) |
|---|---|---|---|
| 128K-1K | 2 | 32 | 7.834 |
| 64K-1K | 4 | 30 | 3.736 |
| 32K-1K | 6 | 28 | 1.88 |
| 16K-1K | 8 | 27 | 0.979 |
| Prefill INT4/Decode INT8 4P8-1D32 | 单机BS | TPOT(ms) | 单条请求TTFT(s) |
|---|---|---|---|
| 64K-1K | 4 | 31 | 6.10 |
| 32K-1K | 8 | 29 | 3.05 |
| 16K-1K | 8 | 30 | 1.51 |
可下载安装包信息
| 硬件 | 架构 | 镜像文件 | Tar包 |
|---|---|---|---|
| A3 | arm | docker pull swr.cn-east-4.myhuaweicloud.com/omni/omni\_infer-a3-arm:release\_v0.4.2 | omni\_infer-a3-arm:v0.4.2 |
模型权重获取方式
提供以下量化版本权重下载:
DeepSeek-V3.2-Exp-BF16
DeepSeek-V3.2-Exp-INT8
DeepSeek-V3.2-Exp-INT4
提取码:omniinfer
部署与配置说明
- Deepseek-v3.2-Exp 安装部署操作手册
- Deepseek-v3.2-Exp 权重量化使用指南
性能压测脚本资源
包含完整测试流程的性能评估脚本:
Deepseek-v3.2-Exp 性能测试脚本
更多详情请访问:https://www.php.cn/link/37107d39373c202221d6672722f514cf
源码下载地址:点击获取
网友留言(0 条)