从1956年第一块机械硬盘诞生至今,HDD发展长达半个多世纪的之后,随着NAND技术的发展,SSD在短短5年时间里的高速发展,让很多人感叹机械硬盘必死。
机械硬盘会被淘汰吗?
未来机械硬盘的路该怎么走?
是否会像软盘一样消失在人们的视野中?
在人工智能技术还未兴起之前,的确是个未知数。
随着2018年OpenAI发布GPT模型,史无前例的一个拥有1750万参数的巨型模型。2023年初,ChatGPT的火爆不仅在行业内,普通用户也能低门槛的使用“文本生成”、“语言翻译”等功能。
国内各领域公司也开启了“人工智能百模大战”,大模型和多模态大模型开始爆炸式增长,海量数据存储的需求让机械硬盘有了新的拐点。
存储是AI创新的基石
数据是人工智能的燃料,正如汽油对于引擎一样,AI系统需要源源不断的数据来训练和进行深度学习。
这些数据必须被妥善保存,仿佛是存放在图书馆的书架上,随时准备被查阅和使用。
存储设施就是AI的图书馆,它收藏着知识,为智能系统提供必要的信息资源。
个人数字消费领域通过流媒体观看节目、与机器人客服互动,还是查询公共交通信息,都离不开数据的支持。
商业领域同样如此,从大型企业到小型团队,都在利用AI来获得洞察力,以支持业务目标的实现。
从2010年到2022年,全球数据量增加了60倍,并且这一增长趋势还在加速。
人工智能革命正在推动对云数据存储需求的增长,同时也带来了新的挑战。全球数据存储市场预计将从2023年的2473.2亿美元增长到2030年的7779.8亿美元。
截至2024年7月,仅中国就有117家AI大模型已备案,成功应用在农业、医疗、金融、物流、汽车和教育等垂直行业。
云存储依然是人工智能创新的中心,本地存储对速度、合规性和隐私非常重要,管理还想数据并确保可信赖的人工智能管理,可将存储放置在各种环境、位置和场景中。
存储和AI的关系
“数据集”如同AI与存储之间的纽带,它们是AI和大型模型训练的原材料,通过吸收和处理庞大的数据量,AI能够从中学习并积累知识。
由于数据集包含多种形式(如文本、视频、图片),它们在总体存储需求和单个文件的体积上存在差异,因此对存储系统的要求也各不相同。
训练AI模型就像在烘焙蛋糕。每次烘焙(也就是一个训练周期,或称为epoch),你都需要将所有的原料(数据集)混合在一起,然后分批加入烤箱(这就是batch)。在每个批次中,你都会检查蛋糕的烘焙情况(进行一次训练迭代),并根据需要调整配方。
原料混合(Shuffle阶段):首先,你需要将所有的原料(数据)彻底混合,确保每一批次的蛋糕糊都是均匀的。这个过程中,你主要在处理原料的清单(元数据),就像是在查看你的购物清单,决定哪些原料需要混合在一起。
分批烘焙(数据读取过程):接下来,你将混合好的原料分批放入烤箱。在这个过程中,你既要关注原料清单,也要关注原料本身,确保每一批次的蛋糕糊都能正确地放入烤箱。
保存蛋糕糊(Checkpoint):为了防止蛋糕烤焦或者烤箱出现故障,你可能会在烘焙过程中的某些时刻,将蛋糕糊(模型的状态)保存下来。这样,如果出现问题,你可以从上次保存的地方重新开始。对于大型的蛋糕(大模型),每次保存的蛋糕糊量可能非常大,有时一个节点就能达到几十甚至上百GB。如果多个烤箱(训练节点)同时保存或读取蛋糕糊,这就要求你的冰箱(存储系统)能够快速地存取这些大量的蛋糕糊。
可见“数据集”就是人工智能的数字资产,可拓展性强、成本效益和可持续性存储显然机械硬盘是最合适的。
新的“存储基建”
目前全球磁盘驱动器市场被希捷、西部数据和东芝占大头,出货量占据市场份额第一的希捷如何保持持续的增长一直是希捷持续需要面对的问题。这也就不难理解为何希捷计划在2024年底推出50TB的机械硬盘了。
机械硬盘面密度提升可以优化能效,在占用同等空间下降存储容量提升三倍,每TB能耗降低2.6倍,机械硬盘在处理夸行业多样化工作负载的数据中心传输AI数据时,显然是一个高性价比的解决方案。
谷歌、微软、AWS等企业巨头在新数据中心上花费数十亿美元,具有前瞻性的存储容量规划和长期战略采购也是解锁人工智能数据全部价值的关键。
机械硬盘的可扩展性能减低总拥有成本和环境影响,高效且可持续地最大化利用数据能力的企业,精打细算的企业才能成为AI战略最后的赢家。
从2010年到2022年,全球创建、捕获、复制和消费的数据量增加了60倍,AI技术的进步和数据量的激增,企业最终还是会考虑高性能、大容量的存储解决方案, 这也给机械硬盘市场提供了新的市场机会。
作者声明本文无利益相关,欢迎值友理性交流,和谐讨论~
本文来自:什么值得买