近日,InfoQ 获悉,浪潮信息发布了其自研的服务器操作系统 Inspur KOS。
浪潮信息发布自研服务器操作系统 Inspur KOS
浪潮信息副总裁张东表示,在算力大发展和国家推动软硬件生态的大背景下,浪潮信息发布了自研服务器操作系统 Inspur KOS。
Inspur KOS 是浪潮信息基于 Linux Kernel、OpenAnolis 等开源技术自主研发的一款服务器操作系统,支持 x86、ARM 等主流架构处理器,性能稳定性领先,可满足云计算、大数据、分布式存储、人工智能、边缘计算等应用场景需求。
张东表示,Inspur KOS 将成为浪潮服务器适配最优的操作系统,引领浪潮信息在软硬件协同方面的技术创新,推动整机系统生态繁荣,为用户构建智算中心基础设施提供更优选择,用户无论使用什么样的服务器,Inspur KOS 都能为用户提供软硬件一体化的、协同设计的系统。
张东详细介绍了 Inspur KOS 操作系统的研发背景,以及在技术、生态等方面的创新和实践。
数据中心面临挑战
在智算时代,数据中心面临诸多挑战。
首先是协同上的挑战。
进入大数据、云计算、人工智能等技术蓬勃发展的智慧时代后,各种运算场景越来越丰富,软硬件协同成为一种流行的解决方案。
现在是体系结构的新黄金时代,以前完全靠芯片,靠摩尔定律的快速增长,提升芯片性能来满足所有场景下不同应用的需求。现在,这条路慢慢走不通了。因此,体系结构产生了很大的变化,从而产生了众多不同的芯片。
在通用场景下,通用处理器仍是现在用量最大的计算单元。从算力上看,通用处理器提供的算力已慢慢让位于各种通用的加速处理器。在存储单元、网络单元和传输模块里也出现了很多新式的介质,各种各样新的连接方式和新的传输模式。如此多的复杂芯片出现后,要用到一个完整的系统里,给软件带来了很大的协同上的挑战,协同做不好,将有损芯片性能,甚至其在综合应用中体现出的性能还不如用通用计算。这是现在很多做加速计算的厂商面临的很大问题,芯片的性能表面上看很好,但却发挥不出来。
在能耗、扩展性方面也存在很大问题。不同芯片间需要做数据搬移,需要打破互相之间的内存墙、传输墙。这些问题都需要在软件和硬件上进行协同设计,共同做好资源调度,从而使得软硬件协同后能根据各种业务特征调度到最适用的计算单元上去,这对软件的挑战非常大。
第二是运维方面的挑战。
现在数据中心越来越大,普遍都在万台设备以上,设备规模的增长加大了运维的难度。
现在业内普遍讲自动化运维、AIOps,这都有赖于最基础的软硬件提供最基本的能力,如监控数据。上层的 AIOps 算法写得再好,没有底层的监控数据,算法就发挥不了作用。因此,对于最基础的硬件和软件,一定要能提供完整的监控数据,但现在的数据中心里,很多新品和器部件、基础软件在监控方面做的还不够全、不够丰富,很多数据无法抓到。
因为部件种类多,当各种故障出现时,反向跟踪定位非常困难。浪潮信息为很多大型数据中心提供设备,实际上,真正在反向定位时可能有超过百分之四五十的故障无法找到根本原因,只能依靠换机器、主板等解决问题,依赖人工经验,但有时人工经验也没法真正处理这些问题。
自动化程度也不够,尽管有自动化运维和 AIOps,但实际上现在很多运维软件还处在手工处理的阶段。此外是被动响应的问题,当天发生了故障,事后才处理,无法预知故障,会给业务造成一定损失。
第三是生态方面的挑战。
尤其在算力多样化的背景下,这一挑战尤为凸显。基础算力的供给端产生了很大变化,原来某些芯片一统天下的格局在这两年逐步被打破。在这种情况下,芯片供应商变多了,上层软件的供应商也在逐步增多,整个生态面临很大挑战。原来芯片厂商、整机厂商、操作系统厂商、中间件、数据库等完全分层的模式产生了很大变化。
上层的各种应用同样面临这些问题。例如,这些年新出现的 AI 应用、中间件应用都出现了分散化的问题。另外,在多处理器并存的情况下,不同的系统要跑在不同的处理器之上,这么多复杂的环境如何结合在一起,软件层很重要。
针对上述种种复杂的情况,作为一个整机厂商,浪潮信息提出了以系统设计为中心的技术路线。所谓以系统设计为中心,就是以软硬件一体化的系统设计为中心,为不同的场景下的应用构建多元异构的算力融合、软硬件协同的系统,通过标准的接口规范形成一些规格,使得用户从应用场景出发选择系统时,无需太多关心底下的架构。
Inspur KOS 核心特征
Inspur KOS 具有多个核心特征。
稳定可靠
Inspur KOS 提供 RAS 增强、应用高可用等能力,保障了业务的连续性、可靠性。其中,Inspur KOS 具备关键数据冗余机制,可对核心数据内存进行镜像保障业务关键数据可靠,而增强性容错能力则可将引起系统宕机的 UCE 进行降级容错处理,大幅降低了系统宕机率。
此外,Inspur KOS 支持 CPU、内存等核心部件的热替换,能够有效提升系统可维护性,支持内核、应用软件的热升级,能够有效保障用户业务连续性。在安全可信方面实现全栈可信链,覆盖硬件启动、内核启动、驱动加载及应用执行等。
高效协同
Inspur KOS 提供高效算力调度、统一编程模型等能力,优化了对虚拟化、云原生、人工智能等场景支持。Inspur KOS 设计了应用、算力、芯片跨层次的资源调度机制,通过深度感知应用的算力需求特征、负载特征,以及算力设备的能耗特征,实现业务与算力的最佳匹配和弹性伸缩。
同时,Inspur KOS 实现了对虚拟化、云原生、人工智能等场景的优化增强,如 Inspur KOS 大幅提升了 AI 应用的开发和运行效率,支持基于 DPU 的高性能虚拟化网络、存储,在容器密度、网络性能方面的优化,也为云原生场景带来了增强。
全天候运维
Inspur KOS 提供深度监控、专家诊断规则、云端运维服务接入等能力,显著提升了运维效率。
Inspur KOS 支持超过 700 余种深度监控数据,能够全面展示从底层芯片、部件到整机系统、软件的运行情况,支持基于专家规则的自动化运维和诊断,可以方便地进行故障定位、性能分析、性能优化。
同时,Inspur KOS 可以无缝接入到浪潮 InService 云端运维服务,实现运维远程托管,提供故障预测、实时告警、一键报修、资源扩容、技术支持等全场景全天候运维能力。
广泛兼容
浪潮信息通过与上下游伙伴广泛合作,完成了大量的兼容认证,覆盖主流芯片、板卡、数据库、中间件。
应用:支撑内部软件产品
Inspur KOS 虽是首次对外发布,但在此之前已支撑了浪潮内部的云海 OS、AS13000、AIStation 等软件产品。目前,政务、金融、能源、交通、医疗、企业、教育等关键行业的客户都使用了 Inspur KOS 操作系统,累计装机量超 20 万台。
例如金融领域,Inspur KOS 有效支撑某大型银行,承载 70 多个核心业务,包括风控、国际结算、第三方结算、手机银行、渠道业务等。在其渠道二期项目中,KOS 稳定支撑双 11 当天超 1.5 亿笔交易,顺利满足业务峰值需求。
通信领域,Inspur KOS 支撑某运营商业务支撑云平台,助力百万级应用并发接入平台,实现 500+节点 PB 级数据的双中心容灾,有效保障业务数据跨中心级高可用。
政务领域,Inspur KOS 支撑建立了 2000+节点省级一云多芯政务云平台,涵盖多种架构服务器,稳定承载 100+业务系统运行至今。
版本长期维护计划
据悉,浪潮服务器出厂全面预装 Inspur KOS,并面向个人和企业用户提供 1 年产品试用授权,用户可以自由下载、自由安装,而且提供在线升级能力。Inspur KOS 推出后,会和其他硬件、软件形成一站式的方案,为用户提供更好的体验。
此外,浪潮信息还为使用了 CentOS 的用户,量身打造了迁移的整体方案 C2X,无缝地让原有的应用从 CentOS 上面迁移过来,保证业务的连续性。同时 Inspur KOS 也和服务器、存储、云海 OS、AIStation 等产品进行深度的优化,保证系统的整体体验是最优的。
操作系统的长期稳定非常重要,浪潮信息坚持“以客户为中心”,为用户提供长达 10 年的操作系统维护支持
只要用户不换设备,长稳版本会提供十年的支持维护。即便换了设备也可以继续使用,并从浪潮信息继续得到补丁升级、漏洞修复等支持服务。同时为了满足一些用户对最新特性的要求,如对处理器里最新特性的支持,会在每 6 个月发布一次创新版本。当这些特性在创新版本里得到验证之后,再逐步进入长稳版本。形成两年一个长稳版本、半年一个创新版本的发版节奏。
和开源社区共建生态
操作系统的发展投入巨大,需要更多的厂商加入进来,才能保证操作系统广泛的兼容。接下来,浪潮信息会和开源社区一起共建操作系统生态。
在软件方面,浪潮信息会和龙蜥社区展开合作。加入社区之后,浪潮信息将和社区共同推动操作系统的软硬件适配,面向更多最新的场景做协同创新,对一些关键问题做联合攻关,使操作系统的版本能更加适用于行业用户的需求。
浪潮信息还和龙蜥成立了联合实验室,希望通过这个实验室,联合上下游的合作伙伴,包括芯片、服务器整机、存储整机、数据库、中间件等厂商,共同在实验室里把操作系统做好,相关的成果会同步反馈给社区。
同时,浪潮信息也会和硬件的开放社区保持合作,浪潮信息也主导发起了国内的开放计算社区、开放计算标准委员会,在其中会展开一些从芯片、板卡到固件层面的创新,这些创新也将和在操作系统层面的创新结合起来,使得软硬件协同这条路走得更加顺畅。
评论 2 条评论