前言
目前DDR5内存条已经完全普及了,但是主流的DDR5内存条颗粒生产还是被海力士、三星、镁光等厂商把控,所以虽然DDR4的价格已经被打下来了,但是大部分DDR5的内存条的价格依然还是很高。
但是,人民需要什么,国内就造什么,金百达最近推了一套全新的纯国产DDR5内存条,售价只要499,频率能上6000MHz,容量方面是16GX2的规格,也就是说499买一套国产DDR5内存颗粒的32G内存条,我觉得是相当值得入手的。
我入手搭配的平台如下:
CPU:Intel i5-13600K
内存条:金百达银爵16GB*2 DDR5 6000内存套装(国产颗粒)
主板:七彩虹Z790 DDR5巡洋舰
显卡:蓝戟Intel B580 12G
相对于更新的ultra系列CPU,13代CPU和Z790的主板在市场上保有量更大,我认为这样的平台测试这个内存条套装的性能和稳定性,对大家来说参考意义可能会更强一点。
用内存跑满血DeepSeek分析
油管著名博主零度博客只有一张4090和96G内存,实战推满血(int4量化), 但是距离404GB模型大小,这个硬件差距实在太大了。
所谓山不转水转,既然内存不够就用”虚拟内存“去补,直接用快1TB SSD去做虚拟内存。不过速度也是相当可人,你去做完锻炼跑个步回来,说不定还没回答完一个问题。
好,上面这个用硬盘去放虚拟内存的话题,结束。我是分割线
我们开始认真探讨一下用CPU推理吧,首先内存容量要足够,这是前提。
在纯CPU推理场景中,当内存容量足够时,推理速度主要与**内存带宽**正相关,其次是内存通道数和频率。CPU核心数与单核性能的影响相对较小。具体分析如下:
内存带宽的核心作用:
大语言模型推理本质是内存带宽密集型任务。以INT4量化模型为例,每10亿参数需0.5-1.5GB内存,带宽不足会导致CPU计算单元闲置。实测显示,DDR5-4800MHz相比DDR4-2133MHz可提升30%-40%推理速度。例如AMD CPU单CCD架构带宽64GB/s,双CCD可达80GB/s,直接影响token生成效率。
内存通道与频率的协同:
以Xeon w5-3435X为例,其支持8通道DDR5-4800MHz,理论带宽达307.2GB/s(单条38.4GB/s ×8)。若未插满8条内存,带宽将线性下降。超频至DDR5-6000MHz时,带宽可提升至480GB/s,对应token生成速度从16提升至20+ token/s。
CPU架构的次要影响
单核性能(如w5-3435X单核3.1-4.7GHz)主要影响解码阶段的序列生成,但带宽充足时占比小于10%。16核心在多线程预填充阶段可提升并行效率,但对逐token生成帮助有限。
软件优化策略
1. 框架优化:使用llama.cpp+Neural Speed组合,通过动态负载均衡可使带宽利用率超90%,INT4模型推理达16 token/s;
2. 量化压缩:采用GGUF格式INT4模型(如llama-2-7B-Q4_K_M.gguf),带宽需求仅为FP16的1/4;
3. 缓存技术:SlimAttention等方案可降低KV缓存占用,间接提升有效带宽利用率。
配置建议:
- 内存:插满8条DDR5-4800MHz,启用八通道模式
- BIOS:关闭C-State节能,启用XMP超频至4800MHz+
- 框架参数:使用`-ngl 0`强制纯CPU模式,开启OpenMP多线程
典型场景下,LLaMA-7B模型在8×DDR5-4800配置中可达18 token/s,超频至DDR5-6000时可提升至22 token/s。实际速度受模型结构和框架优化影响,波动约±15%。
为毛一定要给大内存条超频呢?DeepSeek会给你答案。
大内存的使用场景部分:DeepSeek的本地化部署。
因为DeepSeek R1的模型可以部署在本地,所以499买一组金百达DDR5银爵32G套条,或者998买两组金百达DDR5银爵32G套条组个64G的内存,最大可以部署70B的本地大模型。
比如我用mark.flashai.com.cn在线评估的本地模型运行条件。
目前DeepSeek的本地运行对电脑的各方面性能要求都非常高,最极端的情况是用硬盘跑,就是用硬盘作虚拟内存跑,这个是最便宜的,理论上4T的硬盘就可以跑671B的模型,但速度非常慢,硬盘也坏的非常快。我没有试过,感兴趣的朋友可以试一下。
如果用纯内存跑的花,内存频率越高,跑的速度越快。速度大概7到8tokes/s(预算越大越快,但不可能特别快)不差钱的可以用EPYC服务器,差钱的可以用英特尔至强CPU,推荐用双路主板,双路CPU。
CPU主要看频率,再看线程,频率越大推理越快,线程的话由于低端CPU的调度不是非常好,建议两路CPU加起来有70线程以上就行了,多了调用不起来,当然,你要是有钱买高端CPU当我没说。最主要的就是主板加内存,跑671B的话你需要有1.5T的内存(参照图里的)和支持这么多内存的主板(这个非常重要),至于是ddr4,ddr3,还是ddr5,看预算,ddr5速度是最快的,延迟是最低的,价格是最高的。没有太多预算的话推荐ECC服务器内存条,这是最便宜的。
对于普通用户来说,本地电脑上个64G内存,开XMP超频到6000MHz,然后运行本地70B的大模型,基本上是够用的。
我用flashAI本地部署了DeepSeek R1的图形化界面,用7B的模型能解决一部分知识类的搜索问题,用70B的模型能解决小部分生产相关的问题。
部署本地大模型,能避开在线服务的限制问题,也能避开自己私有信息泄露的问题。
开箱看外观
银爵的包装风格一直没变过。
32G的套条还是可以的。
银爵是无灯设计,非常适合装廉政机箱。银色金属外壳,很适合白色主题,散热部分也能跟得上。
测试
首先是我很关心的一个问题,这颗粒到底是谁生产的?
我通过最新的台风Thaiphoon Burner软件测试了一下颗粒的来源,结果自然是Unknown,在美帝这个背景下,我们有些生产信息必须得隐藏,这也是大家都知道的,所以我就不细究它这个的生产商了。
不过也不用想太多,因为国内能自主生产内存颗粒的厂家其实不多,要深究的话也就那么几家猜来猜去。
进CPU-Z看一下时序和频率,金百达DDR5银爵32G套条要到6000MHz的话,是需要开XMP自动超频的,如果不开自动超频的话,进系统其实是会默认在4800MHz下运行的。
它的这个自动超频是同时支持EXPO和XMP的,所以无论你是Intel的平台还是AMD的平台,都能发挥这套内存条的最大效用。
那什么是XMP呢?X.M.P全称是Extreme Memory Profile,英文翻译可以理解是一种便于内存超频的技术,是Intel于2007年推出的一项技术,目前在DDR4内存广泛使用的是XMP2.0版,由Intel制定并负责认证工作。其原理十分简单,每一条XMP认证内存会有特定区域保存内存的超频数据,一般有XMP1和XMP2,可以把它理解成内存的预设配置文件。
内存XMP的主要作用就是将内存频率超频,不过XMP属于在厂商设定的范围内超频,属于一种安全的超频,XMP相当于给内存写入了2套工作配置文件,开启BIOS中的XMP模式可让主板读取内存配置文件。比如内存标称频率3000MHz,那XMP模式就能让内存以3000MHz频率运行,从而发挥内存应有的性能。XMP与手动超频效果基本无异,所以可将其看作为内存的自动超频技术,十分适合小白的傻瓜式内存超频。
一般内存开不开启XMP功能一般是内存频率决定的,准确来说,只要内存频率超过了CPU的内存控制器支持频率,那么就需要开启XMP功能。举个例子,intel九代酷睿处理器加DDR4 3000频率的内存,处理器的内存控制器最大支持DDR4 2666 Mhz,那么如果不开启XMP模式,那么3000 Mhz频率的内存就会自动降频至2666Mhz,无法发挥高频内存的全部性能,如果想要让内存在3000Mhz频率下运行,我们就需要开启XMP功能了。
我开了自动超频之后,进CPU-Z就能看到这个内存条的最佳运行时序了。
金百达银爵16GB*2 DDR5 6000内存套装(国产颗粒)的时序为CL36-36-36-80,工作电压为1.35V,这个参数中规中矩,但是考虑到这是纯国产第一套DDR5内存条,就已经可以达到这种水平了,我认为这是非常值得点赞的,一出马就是主流水平。
给大家解释一下内存条的时序是什么:内存的时序其实就是内存的反应时间,当内存收到CPU发来的指令后,多长时间做出反应,这就是内存的时序。要想反应的越快,时序就要越短。 我们以“CL16-18-18-38”这个时序为例,时序中的四个数字分别对应着“CL-tRCD-tRP-tRAS”。 CL(CAS Latency):列地址访问的延迟时间,是时序中最重要的参数
tRCD(RAS to CAS Delay):内存行地址传输到列地址的延迟时间
tRP(RAS Precharge Time):内存行地址选通脉冲预充电时间
tRAS(RAS Active Time):行地址激活的时间
越低的时序代表颗粒体质越好,超频的潜力也就越大。内存的时序会随着频率的增加而增加,内存的延迟可以用这个公式来计算:内存延时=时序(CL x 2000 )/内存频率。 DDR:(CL3*2000)/400MHz=15ns DDR2:(CL5*2000)/800MHz=12.5s DDR3:(CL9*2000)/1600MHz=11.5ns DDR4:(CL15*2000)/2133=14ns 即使内存的时序会随着频率的增加而增加,但最后内存的延时并没有太大的变化。频率相同时,时序越低,延迟也就越小。同样,时序相同时,频率越高,延迟也就越小。
在默认的4800的频率下,内存的读取速度为69699MB/s,写入速度为67321MB/s,复制速度为65160MB/s,延迟为95.2ns。
开启XMP 6000之后,内存的性能表现有提升,读取速度为87769MB/s,写入速度为82816MB/s,复制速度为81279MB/s,延迟也降到79.2ns。
结语
可量产自主方案出现的意义无需多言,国产存储芯片技术向前迈进了一大步,把价格打下来只是其一,DDR5内存颗粒技术自主可控,降低对外部供应的依赖意义更大。借助国际大厂的现成方案的确有利于快速建立产品,同时外部供应商的供应不稳定、价格上的波动,都是主机厂都要承受的风险。AI时代,智能设备需要的算力储备需求爆发式增长,要满足AI手机、AI PC等品类的运算需求,智能汽车的发展也离不开高性能的DDR内存芯片。
现在LPDDR5和DDR5两条赛道上,国产已经拿出了自己的内存颗粒,长鑫存储的LPDDR5芯片已经在小米、传音等品牌机型上完成了验证。要说国产方案没有给国内DRAM行业造成影响是不可能的,只是自主方案还处在缓慢起步的状态,内存的需求依旧旺盛,留给国产厂商的机会还有很多,但要建成国际大厂一般的影响力,显然还需要更多时间。
总体来说,搭载国产颗粒的金百达银爵16GB*2 DDR5 6000内存套装的性能表现超乎我的想象,虽然它与国际顶尖水平的产品相比还是存在一定的差距,但考虑到它499的售价,以及6000MHz的稳定运行频率,售价与性能方面都是能满足绝大多数人的需求,算得上是不被卡脖子的备选项之一。
全国产DDR5内存条的诞生也标志着我国存储芯片技术迈出了关键的一步,不仅是技术层面上取得了重大突破,更重要的是国产自主可控能力的一次有力展示。
我也有理由相信,随着国内技术的不断进步和优化,国产DDR5内存将会在未来展示出更卓越的性能,也将会取得更广阔的应用前景,让更多的人享受到科技的乐趣。
本文来自:什么值得买