V0.11.0RC1 LATEST RELEASE

vLLM onKunlun XPU

社区维护的硬件插件,让 vLLM 无缝运行在昆仑 XPU 上。支持 25+ 主流大模型, 提供 OpenAI 兼容 API,无需修改 vLLM 源码即可使用。

281
Stars
50
Forks
27
Contributors
数据来自 GitHub API · 每 10 分钟更新
最新 — GLM5、DeepSeek-V3.2 MTP、Kimi-K2 模型支持已上线
282
GitHub Stars
51
Forks
28
贡献者
42
Open Issues
v0.11.0rc1
最新版本
Apache-2.0
开源协议

为昆仑 XPU 深度优化

vLLM-Kunlun 提供全面的硬件适配层,从注意力机制到量化推理, 每个环节都针对昆仑芯片架构进行了深度优化。

无缝插件集成

通过 Python entry points 作为标准 vLLM 平台插件,无需修改 vLLM 源码即可使用。

25+ 模型支持

支持 Qwen、Llama、DeepSeek、Kimi-K2、GLM 等主流大模型,涵盖生成式与多模态。

量化推理

支持 INT8、W4A16、AWQ、GPTQ 等多种量化方法,适用于 MoE 和 Dense 模型。

Piecewise Kunlun Graph

硬件加速图优化,通过 Torch Compile 实现高性能推理计算图编译。

FlashMLA Attention

针对 DeepSeek MLA 架构优化的多头潜在注意力机制,大幅提升推理效率。

张量并行

多设备并行推理,支持分布式执行后端,充分利用多卡算力。

LoRA 微调

支持 Qwen 系列模型的 LoRA 适配器,Multi-LoRA 推理达到非 LoRA 80%+ 性能。

OpenAI 兼容 API

提供标准 OpenAI API 接口,可直接替换现有 OpenAI 调用,零迁移成本。

25+ 主流模型

覆盖 Transformer、MoE、Embedding 和多模态等多种架构, 支持量化推理、LoRA 微调和 Kunlun Graph 加速。

Kunlun XPU Chip
Kunlun3 P800
高性能 AI 推理加速卡
18
生成模型
8
多模态模型
Generative Models
模型量化LoRAKunlun Graph
Qwen2
Qwen2.5
Qwen3
Qwen3-Moe
Qwen3-Next
MiMo-V2-Flash
Llama2
Llama3
Llama3.1
GLM4.5
GLM4.5Air
GLM4.7
GLM5
Kimi-K2
DeepSeek-R1
DeepSeek-V3
DeepSeek-V3.2

三步启动推理服务

从安装到发送第一个请求,只需三个简单步骤。

安装
1# 安装 vLLM(需要与 vllm-kunlun 版本一致)
2pip install vllm
3
4# 安装 vLLM-Kunlun 插件
5pip install vllm-kunlun

昆仑 XPU 性能表现

在 Kunlun3 P800 上运行 vLLM-Kunlun,与 NVIDIA A100 80G 的推理性能对比。 测试环境:Ubuntu 22.04,PyTorch 2.5.1,batch_size=1,max_tokens=512。

参考数据,实际性能因配置而异
各模型推理吞吐量(tokens/s),输入长度 512,输出长度 512
Qwen2.5-7BQwen2.5-14BLlama3-8BDS-R1-7BGLM4-9B0.0k0.8k1.7k2.5k3.4k
  • Kunlun3 P800
  • NVIDIA A100 80G

* 以上数据基于社区测试,仅供参考。实际性能受模型大小、批次大小、序列长度等因素影响。

模块化插件架构

清晰的分层设计,将昆仑 XPU 的集成与 vLLM 解耦, 遵循 RFC Hardware Pluggable 规范。

vllm_kunlun/
platforms/
models/
ops/
v1/
compilation/
csrc/
config/
tests/
docs/

硬件可插拔设计

vLLM-Kunlun 遵循 vLLM 社区的 RFC Hardware Pluggable 规范, 通过 Python entry points 机制注册为标准平台插件。 这意味着用户无需修改任何 vLLM 源码,只需安装 vllm-kunlun 包, 即可自动启用昆仑 XPU 后端。

Python Entry PointsZero Code ChangeAuto Detection

构建系统

项目使用 Hatchling 作为现代 Python 构建后端,同时保留 setup.py 以支持 C++ 扩展的编译。CI/CD 流水线覆盖 E2E 测试、单元测试、 代码格式检查和模块化工作流。

HatchlingC++ ExtensionsE2E TestsRuff Format

环境要求

硬件
Kunlun3 P800
操作系统
Ubuntu 22.04
Python
>= 3.10
PyTorch
>= 2.5.1

共建昆仑生态

vLLM-Kunlun 是一个开放的社区项目,欢迎所有开发者参与贡献。

baidu/vLLM-Kunlun
实时
282
Stars
51
Forks
28
Contributors
42
Open Issues
每 10 分钟更新
在 GitHub 上查看

最新动态

2026/02
GLM 模型家族支持
新增 GLM5、GLM-4.7 MTP、GLM-47 tool parser
2026/02
性能优化
Fused MoE 小批量优化,Multi-LoRA 达 80%+ 性能
2026/02
DeepSeek-V3.2 MTP
新增 Multi-Token Prediction 支持
2026/01
新量化方法
W4A16、AWQ MoE W4A16、DeepSeek-V3.2 W8A8
2025/12
v0.11.0rc1 发布
Qwen3-Omni、Qwen3-Next、Seed-OSS 支持
2025/12
项目开源
vLLM Kunlun 在 GitHub 上正式开源

感谢所有贡献者

25 位开发者共同构建了 vLLM-Kunlun

ldh2020
tanjunchen
WeiJie-520
fromck
Joeegin
tangshiwen
roger-lcc
15050188022
Lidang-Jiang
GrootLiu
1916hcc
chanzhennan
chenyili0619
lishaobing448
Hanyu-Jin
astrophel0
callmelaoyi
haoli5009-debug
kurkol
yuqilinaa
caijizhuo
zhihui96