北京2022年8月16日 /美通社/ -- "一只南美洲亚马逊河流域热带雨林中的蝴蝶,偶尔扇动几下翅膀,可以在两周以后引起美国得克萨斯州的一场龙卷风。" -- 这便是著名的"蝴蝶效应"。这种现象不仅出现于自然界,在生活中、产品设计中都能得到验证,对服务器行业来说也不例外。作为一种高精密度的产品,服务器中每个的部件都是一只"蝴蝶",其中硬盘是服务器最重要的存储单元,不仅要让数据存的下,还要不断突破读写性能瓶颈,以在不同场景中,让服务器的计算能力和存储能力得以最优呈现。
服务器硬盘读写性能提升的 "三大难关"
基于大量的研发测试数据,浪潮信息服务器研发团队在研发过程中归纳了服务器中硬盘读写性能提升面临的三大挑战:
第一,大容量机械硬盘对振动和噪声天生敏感。随着硬盘容量的持续攀升,磁道宽度已经达到纳米级别,硬盘的磁臂需要精确控制读写磁头悬停在磁道中心,而外部的振动和噪声干扰都会引起内部机械部件的共振,使磁头位置发生偏移,导致其无法正常读写。因此大容量机械硬盘对振动和噪声格外敏感;
其次,内部原生的振动和噪音。服务器系统功耗持续攀升带来的散热压力剧增,风扇转速快速拉升,带来更强劲风量的同时也产生了更高的振动及噪音,系统风扇噪声影响是造成硬盘读写性能下降(以下简称PLV)的关键因素。硬盘的磁头就像一辆跑车在非常狭窄的道路上飞驰,但是道路还在剧烈的晃动,这就很难保持在道路的中心行驶。
第三,服务器机箱与硬盘的兼容性问题。由于机箱和硬盘的设计开发是互相独立的过程,二者之间由振动引起的兼容性问题需要服务器系统实机试验后才能发现,而问题出现后往往难以补救。
自研测试分析平台 为性能优化提供精准数据
为定位设计问题,破解性能提升的研发技术难题,浪潮信息服务器研发团队针对PLV问题"黑盒子"的解析方法,开发出一套硬件与软件结合的测量分析系统,并设计了严谨的数据模型及算法。
硬盘单体测试分析平台 精确定位噪音临界频谱
研发团队第一时间与国际一流的硬盘厂商合作并建立了联合实验室,设计了一种硬盘单体的分频段噪音扫频测试方法,再将大量实测数据抽象为一个统一的敏感度数学模型,精确定位到每种硬盘可兼容的噪音临界频谱,为PLV问题的根因诊断提供了第一手数值依据。
当前浪潮信息的测试数据库已覆盖市场上所有主流硬盘,满足主流服务器产品需求的同时在面对客户定制化需求,也能大大缩短了研发周期,保障新品的敏捷响应速度。
噪音振动量化平台 探索噪音与振动对性能的关联影响
在明确硬盘单体特性后,浪潮信息研发团队针对服务器产品制定出一套噪音振动信号的数据采集分析系统,形成噪音振动量化平台,配合专门设计的"硬盘假体"采集服务器机箱内的噪音与振动。研究发现,噪音PSD谱与硬盘噪音敏感度模型的定量匹配效果非常准确,尽管机箱内的噪音频率成分非常复杂,但通过机理性研究和大量测试数据分析发现,找到了硬盘噪音敏感度与超限声压强度的线性回归模型,通过浪潮专利算法模型可以准确计算出硬盘内部的共振频率,以及这些共振导致的性能损失率,至此,PLV问题的"黑盒子"已开启,硬盘的性能损失率在频率域展开后,可以明确识别到影响硬盘性能的噪音频率成分。
精准调优 追求和谐设计
经过噪音频谱诊断之后,便到了最关键的环节,如何将研发成果转化为产品应用,并最终为客户带来收益,这才是浪潮信息研发工程师的"初心"。"从小见大"浪潮信息工程师开启了服务器内部优化的探索,首先是服务器中"噪音和振动"的源头 -- 风扇,研发工程师发现扇叶的3D形态、气体的流速都会从根本上影响噪音的频率成分,所以要降低振动就要从风扇本身先着手,通过上百次的选型测验,浪潮信息M6系列服务器采用改进选型后的风扇,硬盘性能达到17%的提升。
突破源头本身后,第二步便是运用设计优化,进一步提高性能。针对于固有架构的通用服务器产品,因受到空间限制,除了通过风扇选型解决的振动难题,浪潮研发团队再次通过不断探索实践找到了一条新路子,将机箱内安装的吸音材料特性发挥到极致。
不同的材质、不同的形态、不同的安装位置、不同的截面都会有不同的效果,尺寸、材料、位置均影响插入损失,每一种设计都有其独特的频率属性。浪潮信息工程师在频率域内定位出引发硬盘共振的噪音成分后,从3000多种设计中筛选出插入损失最匹配的吸音棉样本,精准调整噪音频谱,犹如雕刻师一般对声音精雕细琢。如此精准的设计在保障成本的同时使噪音的能量降低了一半以上(降低4dB),硬盘的IOPS性能提高了50%,有效应对小文件随机读写频繁的应用场景。
同时,浪潮信息工程师也在从整体布局上考量如何减振降噪。以往业内的通用服务器内部风扇紧随硬盘,但硬盘自身的振动和风扇转速提高带来的振动,对硬盘的损伤极大,导致故障发生,两者叠加带来的影响更是明显。如果将风扇远离硬盘,对系统会有什么影响?
浪潮M6系列整机柜服务器就采用了这样的结构,将风扇移至机柜的最后部,拉远与硬盘的距离,而和机柜柜体形成了一个整体。相比风扇,机柜的体量巨大,两者的振动叠加实际上起到了"削峰填谷"的功效。此振动再传到硬盘之时,就已经有了大幅降低。如此设计的效果明显,相比传统的服务器结构,硬盘故障率下降了将近一个数量级。
就像所说的"蝴蝶效应"一样,浪潮服务器产品的每一处的细节都在追求突破和创新,比如:在硬件层面,浪潮M6服务器通过动态Power Capping技术,过载实时响应措施确保系统供电安全;固件层面,浪潮M6服务器依靠ROM芯片冗余技术可为BIOS、BMC等固件提供"双芯双待"镜像备份的底层安全保护,采用FPGA作为平台信任根,可实时监控度量服务器整机底层安全性,全方位保障固件安全可靠;系统层面,M6服务器以零故障、免宕机和无风险为目标制定系统安全可靠设计策略等等。
研发的工作是反复而精细的,但浪潮信息的研发团队一直秉承着精益、极致的设计理念,让浪潮信息打造了服务器的爆品,创新的设计,优异的性能,设计指导生产,生产满足设计。
浪潮信息,开放计算践行者
浪潮信息研发团队的研究成果让客户在使用浪潮服务器时得到了良好的收益,而浪潮信息作为全球的服务器领先厂商和开放计算的践行者,已作为主要厂商参与到了OCP-Storage-HDD Dynamics 工作组进行技术研讨。该工作组由来自全球的存储和服务器头部厂商组成,从2020年开始发起关于"如何实现硬盘与服务器机箱长久持续的兼容性"的讨论,浪潮信息基于自有的研究成果和设计经验,积极参与其中,制定国际行业标准,为行业的发展不遗余力。
目前该工作组已联合发布了硬盘振动噪音量化测试白皮书,实现技术语言与测量工具的标准化,为产业上下游各类伙伴交流提供便捷。