国产芯·大模型部署实战营 硬件实战系列第一期 #5188
zhaoxinzeng
started this conversation in
General
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
完成基础任务可获得价值100元京东卡与实战营参与证书,在基础任务的基础上完成进阶任务可获得价值200元京东卡、实战营参与证书与更多官方周边礼物!
赛题说明
🎯基础任务(必刷)
在昆仑芯P800硬件环境下,使用 FastDeploy 框架快速完成 AI大模型的部署,优先推荐部署文心大模型(如:ERNIE-4.5-VL-424B-A47B、ERNIE-4.5-300B-A47B、ERNIE-4.5-VL-28B-A3B、ERNIE-4.5-21B-A3B-thinking、ERNIE-4.5-0.3B等),实现从模型加载到推理输出以及业务应用的全流程验证。
🔗 官方链接:
🎯进阶任务(加分项)
❗注:本实战营默认不提供算力支持,如您在自身业务中需要对应的算力资源可联系官方接口人沟通。
完成标准
参与者需按照以下要求提交一份完整的《任务成果报告》,作为验收依据:
❗ 注:未按模板提交或缺少关键截图者视为无效提交。
📚参考教程
1. PaddlePaddle 框架及 FastDeploy 介绍
飞桨(PaddlePaddle) 以百度多年的深度学习技术研究和业务应用为基础,是中国首个自主研发、功能完备、 开源开放的产业级深度学习平台,集深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件于一体。目前,飞桨文心开发者数量已超过2333万,服务超过76万家企业,创建的模型达到110万。飞桨助力开发者快速实现AI 想法,快速上线 AI 业务。帮助越来越多的行业完成 AI 赋能,实现产业智能化升级。
飞桨框架3.2版本在大模型训练推理性能、硬件适配、主流大模型及高性能加速库的支持上进一步提升。
FastDeploy 是基于飞桨(PaddlePaddle)的大语言模型(LLM)与视觉语言模型(VLM)推理部署工具包,提供开箱即用的生产级部署方案,核心技术特性包括:
📕基于 FastDeploy 在昆仑芯P800 上部署文心大模型
📌参考教程
a. OS:Linux
b. Python:3.10
c. XPU 型号:P800
d. XPU 驱动版本:≥ 5.0.21.26
e. XPU 固件版本:≥ 1.48
a. CPU:INTEL(R) XEON(R) PLATINUM 8563C / Hygon C86-4G 7490 64-core Processor
b. 内存:2T
c. 磁盘:4T
d. OS:CentOS release 7.6 (Final)
e. Python:3.10
f. XPU 型号:P800(OAM 版)
g. XPU 驱动版本:5.0.21.26
h. XPU 固件版本:1.48
FastDeploy安装
安装 PaddlePaddle
或者您也可以安装最新版 PaddlePaddle(不推荐)
安装 FastDeploy(注意不要通过 pypi 源安装)
或者你也可以安装最新版 FastDeploy(不推荐)
安装 PaddlePaddle
或者您也可以安装最新版 PaddlePaddle(不推荐)
下载FastDeploy源码,切换到稳定分支或TAG
下载昆仑编译依赖
或者你也可以下载最新版编译依赖
设置环境变量
开始编译并安装
编译后的产物在
FastDeploy / dist目录下验证是否安装成功
基于ERNIE-4.5-30B-A47B-Paddle模型部署在线服务
基于 WINT4 精度和 32K 上下文部署 ERNIE-4.5-300B-A47B-Paddle 模型到 4 卡 P800 服务器
注意: 使用 P800 在 4 块 XPU 上进行部署时,由于受到卡间互联拓扑等硬件限制,仅支持以下两种配置方式:
export XPU_VISIBLE_DEVICES="0,1,2,3“orexport XPU_VISIBLE_DEVICES="4,5,6,7"更多参数可以参考https://github.com/PaddlePaddle/FastDeploy/blob/develop/docs/zh/parameters.md
全部支持的模型可以在上方的 支持的模型 章节找到
2. 请求服务
您可以基于 OpenAI 协议,通过 curl 和 python 两种方式请求服务
OpenAI 协议的更多说明可参考文档https://platform.openai.com/docs/api-reference/chat/create
与 OpenAI 协议的区别可以参考https://github.com/PaddlePaddle/FastDeploy/blob/develop/docs/zh/online_serving/README.md
❗ 注: 目前只验证过 Intel 或海光 CPU OAM 版 P800 服务器,其他CPU和PCIe 版 P800 服务器不代表一定无法安装,如遇安装问题可在该活动页面或微信群联系官方人员寻求技术支持解决。同时,详细内容请参考基础任务章节里的官方链接
Beta Was this translation helpful? Give feedback.
All reactions