国产芯·大模型部署实战营硬件实战系列第一期 #5188

zhaoxinzeng · 2025-11-24T07:02:26Z

zhaoxinzeng
Nov 24, 2025

完成基础任务可获得价值100元京东卡与实战营参与证书，在基础任务的基础上完成进阶任务可获得价值200元京东卡、实战营参与证书与更多官方周边礼物！

赛题说明

🎯基础任务（必刷）

在昆仑芯P800硬件环境下，使用 FastDeploy 框架快速完成 AI大模型的部署，优先推荐部署文心大模型（如：ERNIE-4.5-VL-424B-A47B、ERNIE-4.5-300B-A47B、ERNIE-4.5-VL-28B-A3B、ERNIE-4.5-21B-A3B-thinking、ERNIE-4.5-0.3B等），实现从模型加载到推理输出以及业务应用的全流程验证。
🔗 官方链接：

飞桨框架：https://github.com/PaddlePaddle/Paddle/blob/develop/README_cn.md
FastDeploy：https://paddlepaddle.github.io/FastDeploy/zh/
昆仑芯环境下 FastDeploy 安装教程：https://github.com/PaddlePaddle/FastDeploy/blob/develop/docs/zh/get_started/installation/kunlunxin_xpu.md
FastDeploy多机部署教程：https://paddlepaddle.github.io/FastDeploy/zh/features/multi-node_deployment/
支持模型列表：https://github.com/PaddlePaddle/FastDeploy/blob/develop/docs/zh/usage/kunlunxin_xpu_deployment.md

🎯进阶任务（加分项）

实现多卡并行推理（若有多块P800）；
在自身业务场景中应用。

❗注：本实战营默认不提供算力支持，如您在自身业务中需要对应的算力资源可联系官方接口人沟通。

完成标准

参与者需按照以下要求提交一份完整的《任务成果报告》，作为验收依据：

项目	要求
📄 报告格式	PDF格式文件名格式：【部署报告】姓名-单位
📋 内容完整性	至少包含：软硬件环境、部署流程、截图证明、性能数据、结论分析
🖼️ 截图要求	至少包含：设备识别、模型加载、推理输出、性能测试四类截图
提交方式	https://www.wjx.top/vm/wEMMAeJ.aspx# 填写问卷并下载报告模板，填写后上传任务成果报告

❗ 注：未按模板提交或缺少关键截图者视为无效提交。

📚参考教程

1. PaddlePaddle 框架及 FastDeploy 介绍

飞桨(PaddlePaddle) 以百度多年的深度学习技术研究和业务应用为基础，是中国首个自主研发、功能完备、开源开放的产业级深度学习平台，集深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件于一体。目前，飞桨文心开发者数量已超过2333万，服务超过76万家企业，创建的模型达到110万。飞桨助力开发者快速实现AI 想法，快速上线 AI 业务。帮助越来越多的行业完成 AI 赋能，实现产业智能化升级。
飞桨框架3.2版本在大模型训练推理性能、硬件适配、主流大模型及高性能加速库的支持上进一步提升。

动静统一自动并行： 只需在单卡基础上进行少量的张量切分标记，飞桨能自动寻找最⾼效的分布式并行策略，大幅度降低了产业开发和训练的成本，使开发者能够更专注于模型和算法的创新。
大模型训练推一体： 同一套框架支持训练和推理，实现训练、推理代码复用和无缝衔接，为大模型的全流程提供了统一的开发体验和极致的训练效率，为产业提供了极致的开发体验。
科学计算高阶微分： 提供高阶自动微分、复数运算、傅里叶变换、编译优化、分布式训练等能力支持，支持数学、力学、材料、气象、生物等领域科学探索，微分方程求解速度大幅提升。
神经网络编译器： 采用框架一体化设计，支持⽣成式模型、科学计算模型等多种模型的高效训练与可变形推理，在计算灵活性与高性能之间提供了良好的平衡点，显著降低性能优化成本。
异构多芯适配： 成熟且完整的多硬件统一适配方案，通过标准化接口屏蔽了不同芯片软件栈开发接口差异，实现可插拔架构。

FastDeploy 是基于飞桨（PaddlePaddle）的大语言模型（LLM）与视觉语言模型（VLM）推理部署工具包，提供开箱即用的生产级部署方案，核心技术特性包括：

🚀 负载均衡式PD分解： 工业级解决方案，支持上下文缓存与动态实例角色切换，在保障SLO达标和吞吐量的同时优化资源利用率
🔄 统一KV缓存传输： 轻量级高性能传输库，支持智能NVLink/RDMA选择
🤝 OpenAI API服务与vLLM兼容： 单命令部署，兼容vLLM接口
🧮 全量化格式支持： W8A16、W8A8、W4A16、W4A8、W2A16、FP8等
⏩ 高级加速技术： 推测解码、多令牌预测（MTP）及分块预填充
🖥️ 多硬件支持： NVIDIA GPU、昆仑芯XPU、海光DCU、昇腾NPU、天数智芯GPU、燧原GCU、沐曦GPU、英特尔Gaudi等

📕基于 FastDeploy 在昆仑芯P800 上部署文心大模型

📌参考教程

环境准备：
a. OS：Linux
b. Python：3.10
c. XPU 型号：P800
d. XPU 驱动版本：≥ 5.0.21.26
e. XPU 固件版本：≥ 1.48
已验证的平台：
a. CPU：INTEL(R) XEON(R) PLATINUM 8563C / Hygon C86-4G 7490 64-core Processor
b. 内存：2T
c. 磁盘：4T
d. OS：CentOS release 7.6 (Final)
e. Python：3.10
f. XPU 型号：P800（OAM 版）
g. XPU 驱动版本：5.0.21.26
h. XPU 固件版本：1.48

FastDeploy安装

使用Docker安装（推荐）

mkdir Work
cd Work
docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy-xpu:2.3.0
docker run --name fastdeploy-xpu --net=host -itd --privileged -v $PWD:/Work -w /Work ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy-xpu:2.3.0 /bin/bash
docker exec -it fastdeploy-xpu /bin/bash

使用Pip安装
安装 PaddlePaddle

python -m pip install paddlepaddle-xpu==3.2.1 -i https://www.paddlepaddle.org.cn/packages/stable/xpu-p800/

或者您也可以安装最新版 PaddlePaddle（不推荐）

python -m pip install --pre paddlepaddle-xpu -i https://www.paddlepaddle.org.cn/packages/nightly/xpu-p800/

安装 FastDeploy（注意不要通过 pypi 源安装）

python -m pip install fastdeploy-xpu==2.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-xpu-p800/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

或者你也可以安装最新版 FastDeploy（不推荐）

python -m pip install --pre fastdeploy-xpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-xpu-p800/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

从源码编译安装
安装 PaddlePaddle

python -m pip install paddlepaddle-xpu==3.2.1 -i https://www.paddlepaddle.org.cn/packages/stable/xpu-p800/

或者您也可以安装最新版 PaddlePaddle（不推荐）

python -m pip install --pre paddlepaddle-xpu -i https://www.paddlepaddle.org.cn/packages/nightly/xpu-p800/

下载FastDeploy源码，切换到稳定分支或TAG

git clone https://github.com/PaddlePaddle/FastDeploy
git checkout <tag or branch>
cd FastDeploy

下载昆仑编译依赖

bash custom_ops/xpu_ops/download_dependencies.sh stable

或者你也可以下载最新版编译依赖

bash custom_ops/xpu_ops/download_dependencies.sh develop

设置环境变量

export CLANG_PATH=$(pwd)/custom_ops/xpu_ops/third_party/xtdk
export XVLLM_PATH=$(pwd)/custom_ops/xpu_ops/third_party/xvllm

开始编译并安装

bash build.sh

编译后的产物在FastDeploy / dist目录下
验证是否安装成功

python -c "import paddle; paddle.version.show()"
python -c "import paddle; paddle.utils.run_check()"
python -c "from paddle.jit.marker import unified"
python -c "from fastdeploy.model_executor.ops.xpu import block_attn"

基于ERNIE-4.5-30B-A47B-Paddle模型部署在线服务

启动服务
基于 WINT4 精度和 32K 上下文部署 ERNIE-4.5-300B-A47B-Paddle 模型到 4 卡 P800 服务器

export XPU_VISIBLE_DEVICES="0,1,2,3" # 设置使用的 XPU 卡
export ENABLE_V1_KVCACHE_SCHEDULER=0 # V1不支持
python -m fastdeploy.entrypoints.openai.api_server \
    --model baidu/ERNIE-4.5-300B-A47B-Paddle \
    --port 8188 \
    --tensor-parallel-size 4 \
    --max-model-len 32768 \
    --max-num-seqs 64 \
    --quantization "wint4" \
    --gpu-memory-utilization 0.9 \
    --load-choices "default"

注意： 使用 P800 在 4 块 XPU 上进行部署时，由于受到卡间互联拓扑等硬件限制，仅支持以下两种配置方式：export XPU_VISIBLE_DEVICES="0,1,2,3“ or export XPU_VISIBLE_DEVICES="4,5,6,7"
更多参数可以参考https://github.com/PaddlePaddle/FastDeploy/blob/develop/docs/zh/parameters.md
全部支持的模型可以在上方的 支持的模型 章节找到
2. 请求服务
您可以基于 OpenAI 协议，通过 curl 和 python 两种方式请求服务

curl -X POST "http://0.0.0.0:8188/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
  "messages": [
    {"role": "user", "content": "Where is the capital of China?"}
  ]
}'

curl -X POST "http://0.0.0.0:8188/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
  "messages": [
    {"role": "user", "content": "Where is the capital of China?"}
  ]
}'
import openai
host = "0.0.0.0"
port = "8188"
client = openai.Client(base_url=f"http://{host}:{port}/v1", api_key="null")

response = client.completions.create(
    model="null",
    prompt="Where is the capital of China?",
    stream=True,
)
for chunk in response:
    print(chunk.choices[0].text, end='')
print('\n')

response = client.chat.completions.create(
    model="null",
    messages=[
        {"role": "user", "content": "Where is the capital of China?"},
    ],
    stream=True,
)
for chunk in response:
    if chunk.choices[0].delta:
        print(chunk.choices[0].delta.content, end='')
print('\n')

OpenAI 协议的更多说明可参考文档https://platform.openai.com/docs/api-reference/chat/create
与 OpenAI 协议的区别可以参考https://github.com/PaddlePaddle/FastDeploy/blob/develop/docs/zh/online_serving/README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

国产芯·大模型部署实战营硬件实战系列第一期 #5188

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

国产芯·大模型部署实战营 硬件实战系列第一期 #5188

Uh oh!

Uh oh!

zhaoxinzeng Nov 24, 2025

赛题说明

🎯基础任务（必刷）

🎯进阶任务（加分项）

❗注：本实战营默认不提供算力支持，如您在自身业务中需要对应的算力资源可联系官方接口人沟通。

完成标准

❗ 注：未按模板提交或缺少关键截图者视为无效提交。

📚参考教程

1. PaddlePaddle 框架及 FastDeploy 介绍

📕基于 FastDeploy 在昆仑芯P800 上部署文心大模型

📌参考教程

FastDeploy安装

基于ERNIE-4.5-30B-A47B-Paddle模型部署在线服务

Replies: 0 comments

国产芯·大模型部署实战营硬件实战系列第一期 #5188

zhaoxinzeng
Nov 24, 2025