2025年1月底,一款AI产品低调问世,却以一己之力让所有AI相关企业股票大幅下跌,甚至让英伟达的股票在一夜之间暴跌大约17%,市值蒸发大约6000亿美元,它就是DeepSeek!
DeepSeek自发布以来,服务器可能由于大量访问导致非常不稳定,以至于在线使用时经常出现服务器繁忙的情况。所以有部分玩家需要本地部署,而本地部署对硬件配置有一定要求,模型容量越大,对显存容量的需求越大,。但我们普通消费级显卡的显存容量毕竟有限,RTX5090D也只有32GB显存,这样引发了一个问题,用一张以上数量的显卡,是不会会得到更大容量的显存,可以跑更大的模型。
本地部署的教程这里就不详细叙述了,网上已经有很多,各位可以自行搜索获得。我们重点测试一下本地部署,不同类型的双显卡应该部署多大的模型,有什么样的运行速度。
各参数模型显存需求
DeepSeek官方的原生模型为671B,官方给的显存大小需求是336G,很显然这不是给个人用户准备的。因为DeepSeek是开源的,接着市面上出现不同小容量蒸馏压缩版本,参数量更少、结构更精简,以提升推理速度和资源效率
DeepSeek R1蒸馏出的1.5B、7B、8B、14B等小模型非常适合在本地部署进行快速推理,但70B可以适合对精度要求极高的场景(如学术研究、复杂问答),而为了测试个人桌面平台的极限我们选择了70B来测试。
就算是蒸馏模型70B也需要40GB的显存容量,目前消费级显卡中显存最大的RTX5090D 32GB依旧没有达到要求。那么有什么办法呢??而官方已经给出了答案···加卡!
测试平台
CPU: 英特尔 U9 285K
主板:技嘉Z890 AORUS MASTER 超级雕
内存:金士顿FURY叛逆者 24GB*2 8400Mhz
硬盘:希捷酷玩540 1TB PCIe 5.0
显卡:技嘉AORUS GeForce RTX 5090 D MASTER 32G 超级雕
技嘉AORUS GeForce RTX 5080 MASTER 16G 超级雕
技嘉AORUS GeForce RTX 4080Super MASTER 16G 超级雕
技嘉GeForce RTX 4060 Ti AERO OC 16G 雪鹰
电源:鑫谷 昆仑九重KE-1300P 额定1300W
机箱:开放式机箱
散热:酷冷至尊ION 冰界 360水冷
部署工具:Ollama
量化模型:DeepSeek-R1-Distill-Llama-70B(Q4_k_M)
GUI:AnythingLLM
系统:Windows11专业版 24H2
显卡驱动版本:Game Ready 572.43
单张RTX5090D 32GB的表现
先来看下单张RTX5090D使用70B模型的表现。
因为爆显存的缘故,系统[YL1] 调用了内存来作为共享显存,还调用了CPU来帮助推理计算,此时效率较低只有5.49token/s。基本流畅至少需要10token/s以上的速度,所以单卡RTX 5090D的体验谈不上流畅,只是可以本地安装部署运行。
RTX5090D+RTX5080(共48GB显存)
为了应对运行本地70B模型显存不够的问题,我们用技嘉AORUS GeForce RTX 5090 D MASTER 32G 超级雕配上技嘉AORUS GeForce RTX 5080 MASTER 16G 超级雕,来看一下双卡一共48GB显存的使用体验到底怎样。
在运行70B模型时,RTX 5080调用显存12.7GB,RTX 5090调用显存28.6GB,由于满足了40GB显存的运行需求,GPU效率明显提升,并且两张卡都会参与到计算工作中,CPU和系统内存负载很小,此时推理计算速度达到了19.95token/s,对比单张RTX 5090D提升非常明显,快了接近4倍,使用体验肉眼可见的流畅不少。由于Windows11显示BUG,任务管理器中无法显示RTX 5080GPU占用,但是我们用GPU-Z可以很清楚的发现,两张显卡也处于工作中。
RTX 5090D+RTX 4060Ti(共48GB显存)
由于本地部署DeepSeek对于显存容量的需求是第一优先级,而RTX 5090D加一张RTX 5080目前大概需要3万元左右的价格,价格花销明显过大。有没有一种方法既能满足DeepSeek对于显存容量的需求又能节约预算呢?于是我们用一张3300元左右而且带大显存的中端显卡RTX 4060 TI 16G版本做为副卡,这样可以节约大约1万元左右的预算,那使用效果会怎么样呢?
这是RTX 5090D加上RTX 4060TI 16GB运行70B模型的效果:
可以看到RTX 4060 TI 16GB的显存已经有13.6GB的调用,再加上RTX 5090D的28.2GB显存调用,也是接近40GB显存的占用,能满足70B的运行需求,推理计算速度12token/s。虽然充分调用了GPU的性能,显存容量也跟之前相同,但因为RTX 4060 TI不如RTX5080。所以速度相较于RTX 5090D搭配RTX5080慢了接近8token/s,不过12token/s的速度已经能够算流畅运行了。在节约了大约1万元预算的前提下,还要什么自行车呢?
几个疑问
那么,除了显存容量,究竟是那个参数对多卡运行DeepSeek的性能起到决定作用?
算力对多卡运行有多大的作用?
PCI-E带宽对多卡运行的性能有无影响?
为了验证算力对DeepSeek的性能影响,我们测试了与RTX 5080 AI算力相近的RTX 4080Super。
使用RTX4080Super 16GB替代RTX 5080,与RTX 5090D搭配,系统显存一共也是48GB,实际性能也与5080相差不大,看来算力对DeepSeek本地部署的性能还是起绝定性的作用。
另外,我们为了测试PICe带宽是否也会对性能有一定影响,我们还交换了RTX 5090D与RTX 4060Ti的插槽来测试。第二插槽运行为PCI-E 4.0×4,发现PCI-E带宽对DeepSeek性能有一定的影响但是影响较小,在5%左右。所以我们建议还是把性能更强的显卡插在PCIe x 16的插槽上。
在测试中我们发现,在显存容量足够的情况下,AI算力越强则速度越快,而双卡的情况下总体AI算力属于2张显卡的叠加。
我们为此特别计算了每张卡的AI算力,50系的AI TOPS是FP4的,40系默认FP8,50系理论上换算FP8要减半才能直观对比,所以要把50系的算力减半,则5090D为1187.5 AI TOPS,5080为900.5 AI TOPS。而DeepSeek模型精度并不是统一的,但是大部分会跑在FP8上,跟我们计算结果基本一致,可以给大家做一个参考。
4060TI 16GB可能因为显存位宽与带宽实在过低,所以实际性能要略弱于理论性能。
我们的建议
从以上测试结果可以得出,DeepSeek本地部署对于显存容量的需求非常大,优先级是显存容量>GPU核心算力。在配置硬件应当优先满足显存容量的要求,让推理计算尽量占用显卡的显存,负载在GPU核心上,才能获得一个不错的使用体验。
如果性能还想继续提升,加卡堆叠AI算力是最有效的方法。添加显卡也无需做过多设置,即插即用。
不管是GeForce显卡多卡混插跨代也都适用,追求性能就用高端显卡,有更大的显存容量跟更强的GPU核心算力,追求性价比的话,老显卡只要提供够大的显存,也可以有明显增益。
这里存疑,系统是windows的话,它不会帮忙调配的
本文来自:什么值得买