自 2020 年 12 月 CentOS 宣布停止维护后,中国服务器操作系统市场得到了新一轮的发展机遇。日前发布的《国产服务器操作系统发展报告(2023)》中提到,目前国内已出现多个较为成熟的国产服务器操作系统,产业步入 2.0 时代,面向云计算、智能计算等方向进化。根据中国信通院最新发布的用户调研显示,国内服务器操作系统逐渐成为各行业替换首选,其中,用户意愿迁移至龙蜥操作系统的比例达到 53%,位居首位。
近日,在主题为“云智融合·共筑未来”的 2023 龙蜥操作系统大会上,浪潮信息、Intel、中兴通讯成为龙蜥社区副理事长单位。中国科学院院士梅宏指出,龙蜥社区采用了开放中立的治理理念,社区正由单引擎,转变为由阿里云、浪潮信息、统信软件等多家企业共同治理的新格局,这种共同治理模式能够更好地激励所有参与者,促进社区成员更好地发挥积极性、主观能动性,为龙蜥社区做出更大的贡献。希望龙蜥在未来能够按照现在设想的治理模式和已经形成的基础,获得更进一步的发展。
龙蜥社区副理事长张东表示,智算时代,算力产业呈现出算力形态多元异构、算力供给服务化、算力应用智能化的新发展趋势,需要以应用为导向,以系统设计为核心,从系统的角度出发,真正让不同架构的技术、产品和相应的生态融合起来。而达成这个目标的一大关键,就是要推动系统软件的进阶,实现多元算力的协同优化,云原生应用场景支撑优化以及系统软件与 AI 的深度双向融合。
机遇与挑战并存,中国服务器操作系统加速进化
CentOS 的停服为中国服务器操作系统市场带来了新的发展机遇,近几年,以龙蜥、欧拉为代表的中国服务器操作系统迅速崛起,在千行百业中得到了广泛应用,并通过打造开源社区的形式使得生态进一步繁荣。
技术路线上,龙蜥操作系统将构建“1+3”能力模型,遵照 1 个“分层分类”科学理论的去中心化协同演进的技术路线,以“用好开源、做深开源、自主创新”为核心出发点,长期投入研发,打造“供应链安全”、“开源标准”和“云原生+AI”三位一体的下一代操作系统。
目前,龙蜥社区拥有超过 800 家生态伙伴,基于社区操作系统发行了超过 12 款针对下游的衍生版,同时龙蜥操作系统服务器装机量现已超过 600 万,服务了金融、通信、能源、交通等众多行业超过 80 多万用户。欧拉社区已吸引 1300 多家头部企业、研究机构和高校加入,汇聚 16800 多名开源贡献者,累计装机量已超过 610 万套。
虽然近几年中国服务器操作系统进入发展快车道,但与海外竞争对手相比仍存在一定的差距,生态建设仍是当前中国服务器操作系统的重要一环,操作系统社区需要在生态建设上持续投入,共同推动产业进一步发展。此外,随着 AI 技术得到广泛应用,操作系统需要不断创新,加速智能化,以更好地满足新的应用需求。
操作系统生态建设路径:技术生态与商业生态齐发展
生态是操作系统的根本。在计算机系统层次结构中,操作系统起着承上启下的重要作用,其介于硬件与应用软件之间,控制并协调多个任务的活动。这也意味着,操作系统需要与各种不同的 CPU、GPU 和其他硬件驱动进行对接。从技术上来看,构建操作系统生态的难点在于如何实现技术上的对接,并让所有参与方都在统一的框架下工作。
以龙蜥社区为例,阿里云基础软件部副总裁、龙蜥社区理事长马涛表示,龙蜥社区希望通过同源异构的方式支持国内外的所有 CPU。然而一些大型 CPU 厂商通常有自己的操作系统,这些操作系统在内核版本和工具上可能存在差异,这给应用适配和生态建设带来了很大的困难。龙蜥社区现已与主流硬件厂商达成合作,希望能够建立统一标准,降低用户使用成本。
从软件层面看,操作系统位于承上启下的中间层,能够影响到所有企业的利益。如果一个社区无法为所有参与操作系统生态的企业找到利益点,生态建设也将难以取得成功。因此,除了技术生态,操作系统社区还需要关注商业生态,让社区参与者能够形成自己的商业闭环,并从闭环中持续获得收益。这也是一件非常有挑战性的事情。
当前,我国计算产业体系仍然建立在国外的技术体系之上,要想在算力产业中形成一套完全自主的技术体系,还有很长的路要走。而社区为构建生态提供了一个更好的环境——社区可以让单一厂商无法吸引的合作伙伴得以聚集。在社区模式下,大家是平等的,为社区做贡献并获得反馈。这种模式下可能比单一厂商仅靠商业合作更能吸引合作伙伴。
张东认为,要使社区成功,有两个前提条件:一是参与社区的所有厂商能够获得收益;二是社区能够为厂商参与者提供更好的支持,在发行版、芯片、服务器等方面提供更多的帮助。只有这样,才能让各方都愿意参与进来。
龙蜥社区将开放、开源、共享、共治作为社区发展的核心原则。在这一原则的推动下,龙蜥快速成长为中国最具影响力的开源操作系统社区。据介绍,龙蜥社区目前由阿里云、统信软件、英特尔、浪潮信息等 24 家理事单位共同治理,超过 800 家来自芯片、软件、整机等覆盖操作系统全产业链的合作伙伴参与生态共建。
作为龙蜥社区新晋副理事长单位,浪潮信息在过去 2 年中积极投入社区建设,依托浪潮信息龙蜥联合实验室,在技术创新、标准制定、生态建设、运营推广等多个维度推动社区建设。其中,基于龙蜥操作系统开发的商业衍生版云峦 KeyarchOS 在一云多芯、人工智能、虚拟化、云原生等方面都得到了增强,已实现规模化部署。未来,浪潮信息将持续加大对龙蜥社区的投入,联合产业链上下游增强软硬协同创新,共同推动龙蜥操作系统生态的繁荣发展。
AI 时代,操作系统迈向智能化
在 AI 时代,操作系统正在经历一场前所未有的变革。随着 AI 技术的飞速发展以及 AI 应用的广泛落地,操作系统需要与各种智能化应用进行深度融合,以提供更智能化的服务。这也对操作系统提出了新的要求——操作系统作为底层技术,需要积极探索如何与 AI 相融合,以提升系统的智能化水平和用户体验。
马涛表示,操作系统最终是为了用户而设计的,因此需要通过 AI 来帮助最终用户更高效地使用操作系统。这涉及到两个视角:研发视角和用户视角。对于用户视角而言,服务器操作系统与桌面操作系统的一个主要区别在于它是为企业级应用而设计的,通常会有运维人员负责管理,需要通过 AI 快速定位问题、找到问题的根源或进行智能运维。“我们正在与运维联盟一起探索如何使用 AI 进行大规模集群化和智能化的运维。这对于服务器操作系统非常重要,因为对于个人或 PC 用户来说可能不是问题,但对于运营数百台甚至数万台电脑的大型公司来说却是关键所在。”
其中,不仅需要考虑 AI For System(操作系统自身的智能化),还需要思考如何通过 System For AI 来进行优化。从研发和测试效率的角度来看,实现这一目标有几个重要的路径。第一,AI 可以用于操作系统开发或测试,以更有效地提高程序员的效率。许多公司都在尝试这种方法,因为内核或操作系统中存在大量的 Magic number,这些数字过去都是基于经验设计的。因此,需要采用基于机器学习和大规模训练的智能调优方法来帮助程序员和研发团队更好地调整系统。这有助于提高研发和测试的效率。
浪潮信息系统软件部总经理苏志远提到,最典型的例子是使能多元的算力和芯片。表面上看,这些芯片厂商已经提供了完善的解决方案,但实际上,当企业在实际应用中测试它们的性能时,会发现其中存在许多需要解决的问题。这些问题主要集中在驱动方面,甚至涉及到与驱动的交互。只有依赖芯片厂商或部件厂商提供的支持,才能有效地解决这些问题。
“操作系统团队和芯片团队需要紧密合作,因为芯片厂商在测试时可能只关注单一场景。而我们希望与他们合作,在我们的场景下发现问题,并支持整个智算过程。作为整机厂商,我们与上层的应用和下层的芯片都有关联。在系统方面有许多工作需要做,特别是在系统使能和优化方面。另外,为了使芯片能够更好地运行,类似于 CXL 的分层内存优化等技术也是必要的。这些技术需要系统层面的优化,以实现更好的性能。实际上,早在内存管理时期,就已经有了类似的优化概念。内存永远是不够的,因此我们需要系统层面的工作来更高效地使用内存。”苏志远总结道。
在智算方面,单机训练只是基础,真正的挑战在于将所有机器连接起来进行训练。当处理动辄数百 T 的数据时,吞吐量和时延成为关键问题。系统层面需要对网络系统和 IO 读写进行优化,甚至需要利用最新的 SMC-RDMA 等技术来提升系统能力,以确保训练的效率和速度。
除了集成层面的优化,将数据、调优和敏捷开发过程融合在一起也非常重要。此外,可观测性和运维能力也是关键因素。在 AI 应用中,由于容器化技术的普及,一台机器上可以轻松运行数百个容器。在数千台机器的规模下,如何有效地管理和监控这些容器成为了一个重要的系统层面的问题。
总的来说,智算操作系统的核心在于解决如何在 System For AI 的框架下实现高效的使能、优化和集成。同时,可观测性和运维能力也是确保整个系统稳定、高效运行的关键因素。对于 System For AI,阿里云和浪潮信息等公司都在持续进行相关研究。这涉及到异构算力的调度、CPU 能力的最大化,以及模型的优化,使其更好地适应算力。这些研究不仅在社区中进行,而且得到了社区理事单位如阿里云和浪潮信息的支持。“坦率地说,这些研究可以使阿里云或浪潮信息的产品更具竞争力,因此我们会坚定地在这个领域继续探索。”马涛说道。
评论