
为昆仑 XPU 深度优化
vLLM-Kunlun 提供全面的硬件适配层,从注意力机制到量化推理, 每个环节都针对昆仑芯片架构进行了深度优化。
无缝插件集成
通过 Python entry points 作为标准 vLLM 平台插件,无需修改 vLLM 源码即可使用。
25+ 模型支持
支持 Qwen、Llama、DeepSeek、Kimi-K2、GLM 等主流大模型,涵盖生成式与多模态。
量化推理
支持 INT8、W4A16、AWQ、GPTQ 等多种量化方法,适用于 MoE 和 Dense 模型。
Piecewise Kunlun Graph
硬件加速图优化,通过 Torch Compile 实现高性能推理计算图编译。
FlashMLA Attention
针对 DeepSeek MLA 架构优化的多头潜在注意力机制,大幅提升推理效率。
张量并行
多设备并行推理,支持分布式执行后端,充分利用多卡算力。
LoRA 微调
支持 Qwen 系列模型的 LoRA 适配器,Multi-LoRA 推理达到非 LoRA 80%+ 性能。
OpenAI 兼容 API
提供标准 OpenAI API 接口,可直接替换现有 OpenAI 调用,零迁移成本。
25+ 主流模型
覆盖 Transformer、MoE、Embedding 和多模态等多种架构, 支持量化推理、LoRA 微调和 Kunlun Graph 加速。

| 模型 | 量化 | LoRA | Kunlun Graph |
|---|---|---|---|
| Qwen2 | |||
| Qwen2.5 | |||
| Qwen3 | |||
| Qwen3-Moe | |||
| Qwen3-Next | |||
| MiMo-V2-Flash | |||
| Llama2 | |||
| Llama3 | |||
| Llama3.1 | |||
| GLM4.5 | |||
| GLM4.5Air | |||
| GLM4.7 | |||
| GLM5 | |||
| Kimi-K2 | |||
| DeepSeek-R1 | |||
| DeepSeek-V3 | |||
| DeepSeek-V3.2 |
三步启动推理服务
从安装到发送第一个请求,只需三个简单步骤。
1# 安装 vLLM(需要与 vllm-kunlun 版本一致)2pip install vllm34# 安装 vLLM-Kunlun 插件5pip install vllm-kunlun昆仑 XPU 性能表现
在 Kunlun3 P800 上运行 vLLM-Kunlun,与 NVIDIA A100 80G 的推理性能对比。 测试环境:Ubuntu 22.04,PyTorch 2.5.1,batch_size=1,max_tokens=512。
- Kunlun3 P800
- NVIDIA A100 80G
* 以上数据基于社区测试,仅供参考。实际性能受模型大小、批次大小、序列长度等因素影响。

模块化插件架构
清晰的分层设计,将昆仑 XPU 的集成与 vLLM 解耦, 遵循 RFC Hardware Pluggable 规范。
硬件可插拔设计
vLLM-Kunlun 遵循 vLLM 社区的 RFC Hardware Pluggable 规范, 通过 Python entry points 机制注册为标准平台插件。 这意味着用户无需修改任何 vLLM 源码,只需安装 vllm-kunlun 包, 即可自动启用昆仑 XPU 后端。
构建系统
项目使用 Hatchling 作为现代 Python 构建后端,同时保留 setup.py 以支持 C++ 扩展的编译。CI/CD 流水线覆盖 E2E 测试、单元测试、 代码格式检查和模块化工作流。
环境要求

共建昆仑生态
vLLM-Kunlun 是一个开放的社区项目,欢迎所有开发者参与贡献。
PR 分类规范
最新动态
感谢所有贡献者
25 位开发者共同构建了 vLLM-Kunlun