AMD显卡可以本地玩DeepSeek了 附简单部署教程

站长云网 2025-02-09 快科技 站长云网

DeepSeek火得一塌糊涂,国内外的相关企业都在积极适配支持,而对于AI大模型来说,使用GPU运行无疑是最高效的,比如AMD,无论是Instinct加速卡还是Radeon游戏卡,都已经适配到位。你只需要任意一块AMDRX7000系列显卡,就可以在本地体验DeepSeek。

AMDRadeon游戏卡本地部署DeepSeek非常简单,只需打开AMD官网(中英文均可),搜索“15.1.1”,进入第一个结果,下载AMDAdrenalin25.1.1测试版驱动,安装并重启。

直接下载地址:

https://www.amd.com/zh-cn/resources/support-articles/release-notes/RN-RAD-WIN-25-1-1.html

然后打开LMStudio官网网站的锐龙专栏(https://lmstudio.ai/ryzenai),并下载LMStudioforRyzenAI安装包,安装并运行。

启动之后,点击右下角设置(可选中文语言),找到并开启“UseLMStudio'sHuggingFace”这个选项。

回到主界面,在左侧菜单栏点击搜索图标,输入“DeepSeekR1”,就可以看到已经训练好的各种DeepSeek模型。

至于如何选择,可以参考如下的AMD官方推荐列表,比如旗舰级的RX7900XTX可以支持到32B参数,主流的RX7600则仅支持8G模型。

然后下载合适的模型,在主界面上方选择已下载的模型,然后调高“GPUOffload”的数值,不同选项的具体含义可自行搜索或者直接询问DeepSeek。

模型加载完毕后,就可以尽情地在本地体验DeepSeek了。

与此同时,AMDInstinctGPU加速卡也已经部署集成DeepSeekV3模型,并优化了SGLang性能,支持完整的671B参数,开发者可以借助AMDROCm平台快速、高效地开发AI应用。

1、启动Docker容器

dockerrun-it--ipc=host--cap-add=SYS_PTRACE--network=host

 --device=/dev/kfd--device=/dev/dri--security-optseccomp=unconfined

 --group-addvideo--privileged-w/workspacelmsysorg/sglang:v0.4.2.post3-rocm630

2、开始使用

(1)、使用CLI登陆进入HuggingFace。

huggingface-clilogin 

(2)、启动SGLangServer,在本地部署DeepSeekV3FP8模型。

python3-msglang.launch_server--model-pathdeepseek-ai/DeepSeek-V3--port30000--tp8--trust-remote-code

(3)、服务器启动后,打开新的终端,发送请求。

curlhttp://localhost:30000/generate

 -H"Content-Type:application/json"

 -d'{

 "text":"Onceuponatime,",

 "sampling_params":{

 "max_new_tokens":16,

 "temperature":0

 }

}'

3、基准测试

exportHSA_NO_SCRATCH_RECLAIM=1

python3-msglang.bench_one_batch--batch-size32--input128--output32--modeldeepseek-ai/DeepSeek-V3--tp8--trust-remote-code

python3-msglang.launch_server--modeldeepseek-ai/DeepSeek-V3--tp8--trust-remote-code

python3benchmark/gsm8k/bench_sglang.py--num-questions2000--parallel2000--num-shots8

Accuracy:0.952

Invalid:0.000

另外,如果需要BF16精度,可以自行转换:

cdinference

pythonfp8_cast_bf16.py--input-fp8-hf-path/path/to/fp8_weights--output-bf16-hf-path/path/to/bf16_weights

责任编辑:站长云网