分享嘉宾| King Cui,Jay Hsueh
审校|李忠良
策划| AICon 全球人工智能开发与应用大会
随着全球数字化进程的推进,越来越多的企业希望将自己的 AI 应用拓展到海外市场。然而,AI 出海面临诸多挑战,本次演讲重点关注如何突破算力挑战,保障 AI 训练过程中的 GPU 集群稳定性。
稳定的 GPU 集群对突破算力挑战至关重要。GPU 集群能并行处理海量数据,其稳定性确保计算持续高效。作为一个全栈 AI 应用平台,GMI Cloud 在 GPU 硬件架构层和 IaaS 层拥有完全自研和掌控的硬件和云平台,以保证企业 GPU 集群的稳定性。在不久前举办的AICon全球人工智能开发与应用大会上,来自 GMI Cloud 的 King Cui 和 Jay Hsueh 为我们带来了精彩专题演讲“全球视野下的AI Infra:AI出海挑战、GPU集群解决方案与选型”,演讲中主要介绍了全球企业在基础设施层的挑战,及深度解析了 GMI Cloud 的 Cluster Engine、NCP 认证、故障预防策略。
内容亮点:
• 了解 AI 出海面临的基础设施挑战及应对思路
• 深度了解 GMI Cloud 的稳定性架构,启发企业自研 AI 应用出海架构迭代升级
• 通过案例分析,获取 GMI Cloud 在不同行业应用的实践经验,启发自身业务发展方向
• 了解出海企业如何在经济上进行 Al Infra 选型
以下是演讲实录:
我是 King Cui,来自 GMICloud。GMICloud 是一家全球性的 GPU 云服务公司,今天我想和大家分享一下,在 AI 出海的过程中,我们是如何确保 GPU 基础设施集群的稳定性,以及我们在技术上做了哪些努力。今天的分享分为两个部分,首先是我为大家带来的行业趋势分析,然后是我的同事 Jay Hsueh 将介绍我们的技术架构是如何构建的。
快速认识一下 GMI Cloud
我曾在某云大厂负责互联网业务,今年加入了 GMI Cloud,专注于全球 GPU 云服务。GMI Cloud 专注于 AI 出海领域,提供海外 GPU 云服务。我们有三个主要特点:首先,我们是英伟达的合作伙伴,也是全球排名前十的 Nvidia Cloud Partner(NCP)。其次,我们在亚太区拥有 GPU 的优先分配权,能够第一时间获取英伟达最新、最强大的 GPU,如 H200 以及明年即将发布的 GB 200,并提供相应的云服务。最后,我们是一家致力于 AI Native 的公司,我们的技术团队由谷歌 X Lab 的成员和硅谷的智算技术专家组成,共同打造一个 AI native 的云平台。我们不做贸易生意,我们的目标是打造一朵 AI Native Cloud。
我们的业务布局主要集中在两个大区域:美国和亚太区。美国是 AI 需求和发展最快的地区之一,而亚太区则包括台湾、泰国、马来西亚等,我们下个月还将在日本推出服务。我们的关注点将集中在以日本、韩国为主的东北亚,以及以马来西亚、泰国为主的东南亚。今年 10 月,我们刚刚完成了 8200 万美金的最新轮融资,这笔资金将帮助我们在美国推出 H200 GPU 云服务。
AI 出海趋势与算力挑战
我们这一代人非常幸运,经历了移动互联网和互联网的浪潮,现在又迎来了 AI 时代。AI 技术的发展势头比前两次技术革命更加猛烈。那么,为什么我们今天一定要做 AI 呢?从 1990 年到 2010 年,互联网技术发展了 20 年,达到了技术普惠点。移动互联网从 2005 年到 2020 年,15 年的发展也达到了技术普惠点。目前,中国的移动网民接近 11 亿,用户增长已经进入失速期。中国经济过去 30 年的高速发展,核心因素有两个:一是人口红利推动的城镇化,二是移动通信基础设施的发展。但如今,中国的城镇化率已经超过 66%,移动通信基础设施的发展也推动了人机交互信息传输媒介的演变,从终端到文字、图片再到视频。然而,中国的移动互联网用户数已经接近饱和,这就意味着我们在移动互联网上的创业机会越来越少。
AI 时代的到来,可以说是从 2022 年或 2023 年初开始的,它相当于 1995 年的互联网,未来的发展潜力巨大,爆发场景多样。中国的移动网民已经触及天花板,我们必须要出海,在海外寻求更多的增长机会。这也是我离开大厂,加入这家创业公司,专注于 AI 出海的核心原因。
目前,全球有大约 1700 多个与 AI 相关的 Web 产品和 APP,其中中国的 AI 产品有 280 个,出海类产品占 30%以上,大约 95 个。我截取了中国 AI 产品榜上前 30 名的 APP,从 1 月到 9 月份,它们的月活跃用户数(MAU)翻了一倍,增速非常快。在中国内地开发 APP,你可能需要投入大量资金进行广告和流量购买,而在海外,你可以以较低的成本获得更多的用户增长。因此,大家都在积极开发出海的 AI 相关产品。目前,我们的出海产品与 ChatGPT 相比还有很大差距,这意味着我们的增长空间非常巨大。
在讨论出海相关的 AI 领域时,我们不可避免地要提到 AI 的三大要素:数据、算法和算力。数据和算法无疑是每家企业的核心要素,而算力则是基础设施。在海外,我们面临的算力挑战主要有三个方面。首先,国内的高端 GPU 算力明显不足,因为一些高端 GPU 无法进入中国大陆。因此,要获得更强更新的 GPU 服务或算力,我们必须出海。其次,海外的 IDC 及其上下游产业链存在很多不确定性,因为大家对海外市场不像对国内市场那样了解,所以在选择 AI 基础设施服务商时非常关键,因为你无法实地考察和关注这些信息。第三,GPU 基础设施与 CPU 相比,面临的挑战不是一个量级的,因为 AI 技术火热也不过近两年,大家对大规模基础设施的经验还不足,因此在海外的 AI 基础设施算力,尤其是在稳定性方面,会面临很大的挑战。
Meta 最近披露了他们 LLama 3 大模型预训练的报告,他们使用了超过 16,000 张 H100 GPU,训练了 54 天,最终训练出了 LLAMA 3 405B 模型。在这个过程中,总共出现了 466 次故障,其中 419 次是意外故障。可以想象,在训练过程中,16,000 多张 GPU 卡每三个小时就会故障一次,GPU 的稳定性确实面临很大挑战。在这 419 次意外故障中,有 200 多次与 GPU 相关,而纯 CPU 相关的故障只有 2 次。这说明 GPU 时代的稳定性挑战至少比 CPU 时代大两个量级。因此,大多数公司没有能力自己维护超大规模的 GPT 群的稳定性。选择一个 GPU 云服务商时,其基础设施的稳定性至关重要。
GMI Cloud 高稳定性 GPU 集群架构解析与故障预防策略
(以下为 GMI CloudJay Hsueh 的分享)
集群引擎
GMI Cloud 致力于为我们的客户提供高效率、高品质的 GPU 集群服务。首先,我们关注底层硬件,确保算力平台的高效性。同时,我们的软件与硬件紧密结合,实现全面的监控和管理,以便在客户遇到问题时能够及时响应和处理。
我们的全平台 AI 应用架构从最底层的高效能 GPU 硬件开始,包括高性能的网络和存储设备,这些都是构建高效 GPU 集群的基本要素。在上层,我们的软件在 IaaS 层将这些高速硬件资源整合起来,通过网络中间层提供多元化的 AI 应用服务。AI 的发展实际上是从 HPC 逐渐演化而来,因此,无论是 AI 训练、推理还是 HPC 工作负载,都需要高效的 GPU 算力支持。
存储
在存储方面,我们根据客户的不同数据应用场景提供最合适的存储解决方案。我们不可能为每个存储部分都提供最高效的配置,因为高效的存储设备通常涉及更高的成本。例如,在进行 AI 训练时,需要快速处理数据,我们可能会提供 NVMe 这样的磁盘来满足存储需求。对于需要大规模并行运算的场景,我们可能会使用跨节点、跨 GPU 的并行高速档案系统,以便快速传输和处理数据。
我们为客户提供不同级别的存储选项,包括 L1、L2 和 L3。L1 级别的存储适用于需要高性能计算的场景,提供高 IO 的存储解决方案。计算完成后,结果数据可以存储在 L2 级别的存储中,也就是 SAS 存储或平均性能的存储。对于存放多年数据的情况,我们可能会将数据归档到 L3 级别的存储中。
GMI 云集群引擎
GMI Cloud 的核心竞争力之一是我们自主研发的平台——Cluster Engine。这个平台整合了对 GPU 卡、GPU 节点、存储以及高效网络的控制,为客户提供三种核心服务:裸机服务、容器 Kubernetes 服务和虚拟化服务。这些服务在不同的层面上支持 AI 机器学习、基础平台设施以及 HPC 高性能运算。对于只需要裸机资源来构建自己应用服务的客户,我们提供基础的裸机服务设施。而在 HPC 领域,我们通常不使用 Kubernetes 技术,而是采用 Slurm 服务来管理 HPC 作业。
Cluster Engine 的首页清晰展示了我们在世界各地数据中心的资源现状,包括提供的服务据点、可用时间和资源。客户可以登录平台,直观地了解每个数据中心的状况,并选择适合的数据中心来租借我们的 GPU 服务。Cluster Engine 的设计理念是将 AI 服务和 HPC 等复杂运算服务简化,使其易于所有人使用。我们的 UI 和工作流程设计不从工程层面出发,而是融入了日常操作手机 APP、购物等生活化理念,让用户以最简单的方式获取 GPU 集群资源。无论是裸机、容器还是虚拟化资源,用户都可以像购物一样轻松获取,无需承担额外的学习成本就能操作这个平台。
Cluster Engine 架构
我们的平台 Cluster Engine 是跨全球数据中心运行的,负责管理和控制不同数据中心的 GPU 资源。GMI Cloud 的 Cluster Engine 将中央运营中心设在 GCP(Google Cloud Platform)上,通过它与各个数据中心进行连接和管控。这个平台不仅服务于公有云层面,还为为客户提供了私有化部署服务。如果客户选择购买我们的 Cluster Engine 来构建自己的云环境,他们可以利用这一平台的特性来管理不同部门或海外分公司的资源,包括机房中的 GPU 资源。无论是公共云还是私有云环境,Cluster Engine 都能提供适用的资源管理场景。大型公司能够根据自己的需求,选择最合适的部署方式来优化全球资源的管理。
VPC 架构
在出海应用 GPU 资源时,客户非常关心他们的数据和资源安全。因此,虚拟私有云(VPC)架构变得至关重要。每个企业客户都希望他们租用的 GPU 资源是专属的、独立的,不希望与他人混用。然而,许多云平台仅在上层 UI 层面进行了资源的逻辑隔离,而在底层的网络和存储部分并没有完全隔离,这可能导致安全风险。
GMI Cloud 的 Cluster Engine 平台不仅在上层 UI 层面为每个账户进行管理隔离,还在底层的存储、网络和 GPU 集群部分为每个租户提供了完全独立的隔离。这意味着每个租户的底层网络不会相互影响,资源也不会与他人共用。这样的设计确保了数据的安全性,因为如果底层网络和存储没有被完全隔离,数据很容易被未授权访问。我们确保无论是裸机、容器还是虚拟化层的服务,只要客户租用,我们都会提供一个完整的独立私有云环境,确保是一个完整的 VPC 架构。这样,客户可以安心地使用我们的服务,他们的数据和资源是安全隔离的,不会被其他租户或外部威胁所影响。
IB 组网
在 GPU 平台资源方面,为了充分发挥 GPU 的潜力,我们提供了全球最高速的 IB(InfiniBand)网络,确保每张 GPU 卡都能达到最佳效率。IB 网络与一般的以太网有所不同,它需要特殊的管理。IB 网络不走传统的七层网络模型,而是简化到只有四层架构来进行网络传输,因此具有极低的延迟和高性能。
在管理上,IB 网络不像以太网那样可以使用 VLAN 等技术进行管理,但是我们还是需要提供 VPC 架构来实现网络的隔离。我们为 IB 网络提供了独立的网络切割,确保用户在使用高速 IB 网络时,其资源不会与其他用户混用,保障了网络的独立性和安全性。
由于 IB 网络的高速特性,我们的 Cluster Engine 能够管理大规模的万卡集群,并且支持持续扩展。在底层架构进行扩展时,上层服务不会受到任何影响,也不会导致任何宕机。这是因为我们采用云服务的概念,能够实现不停机的快速扩展。即使需要进行大量的扩展操作,底层架构也无需停机,确保了服务的连续性和可用性。
在 Cluster Engine 云服务中,我们还为客户提供了完整的 Kubernetes(K8S)架构服务。客户可以根据自己的能力选择服务。如果客户有能力管理复杂的容器编排架构,他们可以选择仅在我们的平台上租用 K8s Cluster 服务。但如果客户需要一个独立的 K8S 架构来满足特定的业务需求,也可以租用我们的 Cluster Engine 提供的容器服务。
Ray 类分布式架构的应用场景
在更高层次的管理层面,尽管我们的服务属于 IaaS 的管控范畴,但在 AI 计算领域,我们经常需要一个更高效、更有效的工具来管理 AI 运算作业。为此,我们引入了 Ray 类分布式架构来帮助客户更容易地管理这些 AI 作业。
AI 作业往往涉及多个人、多个作业同时进行计算,或者需要进行作业分配。利用 Ray 集群,我们可以有效地管理这些 AI 作业,确保它们能够快速运行和共享结果。Ray 类分布式架构提供了一个平台,使 AI 作业的管理变得更加简单和高效,从而加速了 AI 运算的过程,并优化了资源的分配和利用。
在我们的服务中,由于是多租户环境,我们提供了完整的用户组管理功能。我们的管理不仅仅局限于用户和组的层面,还包括了组织层级的概念。此外,我们还提供了所谓的“二房东”服务。企业可以在我们的组织架构下创建自己的子组织,并自行管理其组织架构。
主动监控
我们的平台提供了主动监控功能,以确保底层 GPU 集群的稳定性。这种监控系统能够及时发出告警,帮助我们确认并预防可能发生的问题。通过这种方式,我们的监控系统能够在问题发生之前就侦测到潜在的风险,使我们的客户工程师能够迅速收到警示并采取行动,修复问题。
我们的监控系统界面设计简单而直观,所有的用户都能快速、轻松地获取到重要的信息。我们的目标是提供一个用户友好的 UI 界面,让用户能够一目了然地掌握关键信息,从而提高操作效率和响应速度推理引擎
我们的 Cluster Engine 平台位于 IaaS 层和 PaaS 层之间,我们正在向 SaaS 层扩展。随着 AI 训练在过去两年逐渐达到饱和,未来的重点将逐渐转向 AI 推理。AI 模型训练完成后,需要在实际应用场景中进行部署和实践,因此推理部分变得越来越重要。为了协助客户处理推理应用,我们在 Cluster Engine 上叠加了一个名为 Inference Engine 的 SaaS 服务。
推理应用与 AI 训练不同,它不需要占用大量的 GPU 资源。例如,AI 训练可能需要 10 台 GPU 节点,每个节点上有 8 张 H100 卡进行大规模计算,而推理则强调快速稳定地进行 AI 运算和模型推理。因此,推理占用的 GPU 资源相对较小,但需要能够及时定位到资源。我们的 Inference Engine 可以根据客户的推理作业需求,在全世界的 GPU 资源中选择距离最短、最适合作业的位置,快速生成响应。
推理作业通常不需要占用整张 GPU 卡的资源,因此我们会采用资源共享的方式,快速分配 GPU 上的计算资源。例如,如果一个推理作业只需要占用 GPU 资源 5 分钟,它就可以快速占据一个 GPU 的份额,并迅速将结果反馈给用户。这样,来自世界各地的客户都可以通过大量的推理请求,利用 Inference Engine 在全球范围内的 GPU 资源,实现 GPU 资源利用率的最大化。
我们的 Inference Engine 服务将与 Cluster Engine 的基础设施紧密结合,形成从 IaaS、PaaS 到 SaaS 的完整三层架构。这种整合能够为客户提供全方位的服务,确保他们在 AI 推理过程中获得最佳的支持和资源利用。
验证体系
我们的验证体系是为了确保通过软件管理的整个基础设施架构能够实现全球最高稳定性的 GPU 集群。作为全球排名前十的 NCP,我们在构建 GPU 集群时与 Nvidia 密切合作,并必须通过 Nvidia 的群级认证。我们的合作程度深入到从 GPU 设计开始,比如在泰国的 IDC 建立一个 127 台 GPU 集群,从 IDC 的选址、空间、散热、电力到整个线路配置,再到 OS 层、IaaS、PaaS、SaaS 的各个环节,每个步骤都需要与 Nvidia 的技术团队讨论,并得到他们的预先规划和认可后才能执行。如果没有高度的规划能力和技术能力,Nvidia 不允许我们提供这样的服务。因为 Nvidia 希望作为 NCP 的我们,能够确保每张卡都能达到 Nvidia 规定的最高效能,并且故障率低。Nvidia 希望我们提供给客户的产品是经过技术验证、软硬件都到位的,以确保提供更高效稳定的硬件性能。
除了 Nvidia 的认证,我们在每个环节都进行了大量测试,并为每个环节提供测试报告。如果客户对我们的 GPU 稳定性有疑问,我们也会提供这些稳定性测试报告供客户参考,让客户可以放心使用我们的服务,确保他们获得最高的稳定性和效能。
故障预防策略
硬件故障是不可避免的,除了通过软件快速调配资源外,还需要进行硬件更换。为了快速更换有问题的硬件,我们与供应商建立了非常密切的合作关系,确保能够迅速获得供应链资源。一旦硬件发生故障,我们会及时告警并确认,将客户服务迁移到正常的硬件上继续运算,同时通知供应链厂商,请他们将好的元件送到我们的数据中心进行更换。通常情况下,我们能够在下一个工作日解决硬件问题。如果客户需要更高级的服务,我们也提供一天内修复的选项,以实现快速硬件修复和更换。
在每一层的保障中,我们提供问题的源头追溯和完整的监控服务。我们还有品质保障的 SLA 来确保服务质量。我们还提供 7×24 全天候不间断的支持服务,我们的资源专家会与客户及时互动,确保 GPU 集群的最高稳定性和效能。
AI Infra 选型思考与实践
如何选择 GPU Cloud
在 AI 基础设施服务方面,GMI Cloud 为客户提供两种不同的选择,以满足他们不同的需求。第一种选择是按需服务(on demand),这种方式类似于公共云服务,适合短期租用。例如,如果客户需要快速训练一个模型或者进行临时的计算任务,他们可以选择这种服务。客户可以在线选择所需的 GPU 数量和规格,支付后立即获得资源,方便快捷。
另一种选择是长期预订资源(Private Cloud),这适合需要进行长期研发项目的客户。在长期研发过程中,客户的数据会持续在系统中进行运算和存储,他们不希望每次都在按需服务结束后将数据复制出来,下次使用时再复制回去。因此,对于希望进行长期部署的客户,我们提供私有预留的方式,客户可以与 GMI 租用一定数量的 GPU 集群,比如 50 台 GPU 的集群,以私有形式租用半年或一年。这样,客户的数据可以完整保留在同一个位置,持续进行运算,避免了按需服务中资源归还后需要重新配置和数据迁移的问题。
应用案例 1:某大型互联网在线招聘平台
我们的 AI 应用案例之一是人力资源(HR)招聘平台。在 AI 时代,HR 部门希望快速定位并预订到合适的人才。通常,部门主管会面临一个难题:如何在收到的上百份简历中快速筛选出合适的候选人。这是一个耗时的过程,需要仔细审查每一份简历以找到合适的人选,然后再进行面试等后续工作。
为了解决上述问题,HR 招聘平台引入了 AI 技术,快速分析所有简历。AI 不仅能分析简历内容,还能与其他网站对比,识别可能的虚假信息,从而勾勒出候选人的真实经历和背景。通过 GMI 平台,我们可以利用 GPU 进行快速计算和推理,全方位整合信息,迅速找到合适的人选,并将正确的人选推荐给 HR。此外,一旦候选人被录用,AI 还能根据其完整的个人资料分析,预测他们未来一两年的成长需求,包括所需的培训和服务。AI 可以为 HR 提供适合候选人的 AI 培训路线图,作为参考,以便进行适当的调整。
应用案例 2:某知名直播平台 AI 语音聊天机器人
我们的第二个应用案例是 AI 语音聊天机器人。这个案例涉及到一家日本企业,他们希望将自己的平台销售扩展到全球,以扩大商机。然而,他们的语音聊天机器人和 YouTube 频道等在线服务只能使用日语。为了解决这个问题,我们帮助他们开发了 AI 即时翻译功能。这样,当广播组在销售或聊天时使用日语,系统可以立即将其翻译成英文或中文,无缝地服务于不同语言的用户群体,从而将客户群扩展到全球,提升平台的商业潜力。
这个即时聊天功能的成功实施也依赖于 GMI Cloud 平台的 GPU 稳定性。因为所有的翻译服务都是即时进行的,如果 GPU 稳定性不佳,将直接影响服务质量,进而可能导致客户损失。
会议推荐
在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下,变革与机遇交织,挑战与突破共生。2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,以 “智能融合,引领未来” 为年度主题,汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。现在报名可以享受 8 折优惠,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。
评论