北京2022年9月13日 /美通社/ -- 随着数据的爆炸式增长和算力需求的急剧攀升,由开放计算引领的数据中心基础设施创新,正影响着越来越多的公司争相学习和效仿。在近日举行的OCP China Day 2022(开放计算中国技术峰会)上,OCP中国社区负责人、浪潮信息首席架构师叶毓睿分享了开放计算如何实现协作创新、传统行业如何利用开放计算技术、开放计算目前重要的创新成果以及未来的发展方向等话题。
开放计算,"宽进严出"的全球化协作模式
"以OCP为代表的开放计算项目,其实是‘宽进严出'的一个全球化协作平台。"叶毓睿提到,CSP(Cloud Service Provider,云服务提供商)、系统厂商、零部件供应商、传统行业等各类公司,都可以自由在OCP官网上获取标准、规范,观看演讲视频和下载材料。产业链上下游的合作伙伴,能通过全球化协作的模式来消除技术壁垒,加快硬件创新的速度。然而加入OCP成为会员之后,想要影响标准的制定,则需要做出实质性贡献,并具备前瞻性;满足这些要求并非易事,即使是想参与例行会议的工作组讨论,也有一定门槛。
OCP是一个开放的技术平台,各个成员公司可以通过知识共享、技术共享,掌握云边端的创新技术,并形成相关产品或方案。引用OCP标准,几乎没有门槛,因为这些标准基本都是公开的,可供任何人下载和使用。
虽然OCP对成员的加入持欢迎的态度,但是涉及到具体的工作组,则会要求项目参与者在专业领域具备深厚积累,否则无法取得参加内部会议的资格。例如,浪潮信息准备参与DC-SCM(Datacenter Secure Control Module,数据中心安全控制管理模块)标准制定之前,做了大量的准备工作,包括技术研发和实现等方面,然后由项目组的已有成员进行投票表决,最终获准加入该项目。DC-SCM标准定义了一种与主板解耦的安全控制管理模块,实现计算单元和安全管理单元解耦,能够简化主板设计,加快计算组件的迭代。
"虽然成为标准的领导者、参与者需要投入很多的人、财、物等资源。但这些投入是值得的,因为浪潮信息作为全球第二大服务器厂商,要逐渐参与到更多的全球标准的制定中,尽量通过先进技术的标准化、规模化、产业化、生态化来促进全行业的降本增效,普及深化ESG可持续发展理念,贯彻实现中国的‘双碳'战略目标。" 叶毓睿表示。
目前,浪潮信息已积极参与面向AI、边缘计算、整机柜、通用服务器、硬件管理、固件、液冷等国内外标准规范的建立,并牵头服务器全部国标、OAM(OCP Accelerator Module,OCP加速器模块)规范、天蝎标准、OTII(Open Telecom IT Infrastructure,开放电信IT基础设施)规范等。同时,浪潮信息也在推动技术标准产品化,率先向社区贡献了多款产品,可供其他厂商借鉴,如全球唯一符合三大开放组织标准的整机柜产品;全球首款AI开放加速计算系统MX1;全球首款面向云基础架构优化的四路服务器参考设计NF8260M5、全球首款OTII边缘计算服务器、首款通过国内开放数据中心认证的天蝎多节点服务器等等。
我们发现,OCP包含不少自下而上的项目组。随着市场需求不断涌现,项目的评判标准主要看市场的认可度,需求多了,这个标准就渐渐有机会成为全行业的标准。但需要注意的是,有些标准或者项目组可能会无疾而终。这种"物竞天择"的演化机制,也确保了每个可持续的项目组都是有生命力、具备市场前景的,是能够不断迭代的。
规模决定方向,领域决定特性
"开放计算的创新与应用,实际上是由两个因素决定的:规模决定方向,领域决定特性。"在叶毓睿看来,开放计算最初从超大规模数据中心兴起,再逐渐渗透到其他领域,在这个过程中,开放计算的各类产品各有其相对应的适用场景。
"规模决定方向"简单来说,就是数据中心规模的大小,决定了宏观尺度上开放计算的发展大方向,例如Google、Meta的应用分别是超大型的搜索网站和社交网站,由此催生了支撑它的IT硬件基础架构,朝着数据中心即计算机(Datacenter as a Server)的方向重构,即在拥有数万台服务器的数据中心里,站在整个数据中心的角度进行集中管理(包含供电、冷却等)和CPU、内存、存储的全局资源调度。目前我们能看到,与之相关并仍在发展的技术有CDI(Composable Disaggregated Infrastructure)、NoF(NVMe Over Fabrics)、CXL(Compute Express Link)等标准。参与这些标准的制定者当中不乏全球云计算或者互联网巨头这类用户,例如Microsoft、Google、Meta、阿里云、腾讯、百度、字节等,这些用户本身服务器的使用量巨大,容易通过大规模采用摊销成本,助力相关技术和组件推广、普及。我们注意到,字节近年来致力推动云固件,并在OCP China Day 2022分享《超大规模数据中心内存性能故障的监控》,有望成为好的例子。
另外,由数据中心即计算机引发,并可能进行组件推广及可进一步观察的有网卡、连接器、存储部件、OAM、DC-SCM、硬件管理等产品或规范。硬件重构的方向是"一切皆计算机",不仅体现在数据中心即计算机、机柜即计算机(Rack as a Server)上,也体现在设备即计算机(Device as a Server)上,例如智能网卡SmartNIC、DPU(Data Processing Unit,数据处理器)、CSD(Computational Storage Drive,即可计算型SSD,包含持久存储和计算模块)或 SmartSSD等。
对于中小型数据中心用户来说,他们更关注安全性、可靠性、业务连续性,对设备部署效率、运维管理方面的要求并不苛刻。而对于大型和超大型数据中心用户而言,如何将资源利用率提高到80%,甚至接近100%?如何将数据中心的运维从以人为本到以智为本,通过算法和数据模型、历史使用的特点,实现自动化运维甚至无人值守?如何在成本可控范围内,尽可能让PUE值趋近于1?……这些是他们首要考虑的问题。这种差异导致了不同规模的数据中心用户,对技术创新和应用实践的思考和设计有所不同。
"这是从量到质的变化。"叶毓睿强调说,当数据中心的规模扩张到一定程度之后,数据中心的产品交付模式、部署方式、能耗与效率、运维管理模式等等,都会发生与传统模式截然不同的改变,开放计算项目从早期成立开始,到当前发展的主流部分,较多的是面向超大规模数据中心展开创新的。但这并不意味着,传统行业用户无法利用开放计算来降本增效,实现可持续发展。
叶毓睿指出,开放计算项目在做硬件重构的创新过程中,也产生了不少组件级或者设备级的创新技术和产品,这些技术和产品经过了大型和超大型数据中心用户的实际验证,已经成为开放计算生态当中的标准组件,中等规模或小规模用户可以直接使用。
NIC 3.0(Network Interface Card,网络接口卡)项目是目前OCP最成功的项目之一。迄今为止,该项目在物理形态和电气性能上,定义了一种免开箱维护且尺寸适中、性能优秀的网卡,获得了业界绝大部分服务器厂家的支持,成为服务器新的标准配置项。此外,针对特定领域专用架构(DSA,Domain Specific Architecture)设计,支持多元AI芯片标准化接入的OAM规范,可满足全球范围内AI加速器的爆炸式增长需求,而用于Chiplet(芯粒)互连的线束(BoW,Bunch of Wires)规范,则允许芯片制造商混合和匹配使用不同制造工艺技术的芯片,实现跨各种工艺制程的高性能芯片设计。这些项目的持续发展,可以让大型CSP和传统行业用户,能够更方便的利用飞速发展的多元化AI技术。
"领域决定特性"是指开放计算从超大规模数据中心逐步推广的过程中,不同的场景和应用领域会衍生出不同的特性。以国内某电商为例,从它的实际业务需求来分析,并没有音视频、AI计算和海量冷数据的需求。因此,在其整机柜的设计初期,就聚焦更好的支持高CPU通用算力,以及热数据和温数据的存储,忽略异构计算和冷存储的需求,以获取更高的性价比。
类似的,开放计算在走出互联网领域,走向更多传统行业的过程中,也将逐渐和该行业的领域特性相匹配。叶毓睿提到:"因为尺寸、重量、供电、兼容性等问题,OCP整机柜部署到非互联网行业的传统数据中心时需要进行调整。"近段时间以来,浪潮信息联合各大合作伙伴商讨标准机柜+标准服务器的整机柜的设计。
以电信行业为例,OCP当前超过12大类的项目中,包含Telco(电信)这个类别,其下设有Edge(边缘计算)子类。在电信这个领域,边缘计算有其自身的特性,应该以集成的方式,将通用计算、存储、网络、异构计算等融为一体,满足该领域所处的物理环境对于空间、温度、震动、防水、防尘等的严格要求。
当然,边缘计算应用的场景包罗万象,包括但不限于物联网 、MEC(Multi-access Edge Computing,多接入边缘计算) 和NFV(Network Functions Virtualization,网络功能虚拟化)等 5G 应用场景。值得一提的是,浪潮信息边缘计算产品线推出的ECOM(Edge Computing Optional Modular)系统,为适应智能边缘网关产品复杂多变的应用场景做出了有意义的探索和实践,通过将系统进行模块化拆解,能最大限度的复用各个组件,也使产品设计更加多样、灵活、易于实现,适应室内室外多种应用场景;通过将核心计算平台、异构加速平台、IO模组、管理功能等模组进行架构解耦,实现标准化、模块化,平台模组及功能模组多重复用,基于不同的场景和应用进行环境适应型设计,以实现短、平、快的产品开发模式,高质量的满足各类用户的产品需求。
叶毓睿坦承道:"我们希望有更多传统行业的用户加入到开放计算组织中来。这样在未来发展的过程中,有更多机会发掘一些OCP产品面向特定领域的特性,这也是我们一直在思考并努力践行的。"
以金融行业为例,随着人工智能、5G、大数据等技术在金融行业的深度应用,刷脸支付、在线开户、线上贷款等"非接触式"金融服务越来越普及。但金融创新业务的发展也带来了系统数量繁多,数据类型多元化,需要在有限的数据中心空间内,兼容各种不同的需求。银行客户在采用开放计算解决方案后,相较传统解决方案,部署密度提升6倍,通过RMC(Rack Management Controller )集中管理单元实现整个系统资源的实时监控。
随着开放计算生态的发展,其所致力的全球化协作与创新,将会带来更多的开放接口、开放组件、开放管理和自动化运维,实现包括数据中心在内的,云边端低碳、高效的可持续发展。未来,开放计算还有巨大的潜力有待挖掘。