为了清楚地展示人工智能领导层为何需要最佳计算能力,NVIDIA 今天推出了全球排名第 22 的超级计算机:DGX SuperPOD,据英伟达官方介绍:它提供的 AI 基础设施可满足公司自动驾驶车辆部署计划的大量需求。
英伟达方面称:这套系统仅用三周时间就内置了 96 台 NVIDIA DGX-2H 超级计算机和 Mellanox 互连技术,具有 9.4 petaflops 的处理能力,可以训练安全自动驾驶车辆所需的大量深度神经网络。
而客户可以根据 DGX SuperPOD 设计从任何 DGX-2 合作伙伴购买该系统的全部或部分内容。
曾有专家表示:自动驾驶汽车的 AI 训练是计算密集型的终极挑战。
单个数据收集工具每小时产生 1TB 的数据,而相比之下,通过驾驶整个车队,可以快速获得数以 PB 计算的数据。这些巨大的数据会被用于训练关于道路规则的算法,并且在车辆中操作的深度神经网络中找到潜在的故障,然后在连续循环中重新训练。
NVIDIA 人工智能基础架构副总裁 Clement Farabet 说:“人工智能企业需要在计算基础设施领域处于领先地位,很少有人工智能挑战与训练自动驾驶汽车一样苛刻,这需要对神经网络进行数万次重新训练,以满足极端的精确度需求。”
DGX SuperPOD 由 NVIDIA NVSwitch 和 Mellanox 网络结构互连的 1,536 个 NVIDIA V100 Tensor Core GPU 提供支持,可以为其超大型计算机提供强大的性能数据。该系统能够全天候工作,优化自动驾驶软件,并以更快的周转时间重新训练神经网络。
例如,DGX SuperPOD 硬件和软件平台只需不到两分钟的时间来训练 ResNet-50。当这款 AI 模型于 2015 年问世时,当时最先进的系统:单一的 NVIDIA K80 GPU 也需要 25 天的时间来训练,而 DGX SuperPOD 提供的结果显示,训练速度提高了 18,000 倍。
虽然具有相似性能水平的其他 TOP500 系统是由数千台服务器构建的,但 DGX SuperPOD 占用的空间比排名相近的系统要小 400 倍。
据了解,NVIDIA DGX 系统已经被一些公司或组织所采用,这些企业或组织都有大量的计算需求,如从宝马、福特等汽车公司,还有包括 Facebook、微软等科技企业,甚至美国国家能源实验室也采用了这套系统。
当然,DGX SuperPOD 不仅可以快速运行深度学习模型,由于其模块化的企业级设计,它的部署速度也非常快。
一般来说,这种规模的系统通常需要 6 到 9 个月的时间来部署,但 DGX SuperPOD 仅用了三周时间就完成了部署工作。
英伟达方面表示:构建像 DGX SuperPOD 这样的超级计算机,帮助 NVIDIA 学习了如何为大型 AI 机器设计系统,它标志着超级计算技术的一次重要演变,并为学术界以及运输公司和其他希望使用高性能计算加速其计划的行业带来了巨大的力量。
评论