ArchSummit全球架构师峰会门票9折倒计时中~ 了解详情
写点什么

HPC 与 AI 融合,为什么这家上海的一流高校做到了?

  • 2020 年 3 月 02 日
  • 本文字数:2639 字

    阅读完需:约 9 分钟

HPC 与 AI 融合,为什么这家上海的一流高校做到了?


近年来,围绕 AI 技术的国际竞争正愈演愈烈。为了抢占先机,设立 AI 专业成了各大高校顺应科技发展趋势的重大举措。为帮助高校推进 AI 技术领域的人才培养、研究开发和成果转化,才云科技打造定制化 HPC 集群平台管理系统,支持国家科技建设。


某高校是由上海市人民政府和中国科学院共同举办的一所“小规模、高水平、国际化的研究型、创新型”大学。它借鉴了世界一流理工科大学的发展经验,从理工科入手培养各科专业人才,推进研究成果在各行业落地。


作为人工智能高校联盟的倡导者之一,为更好地进行 AI 学科建设,进一步巩固学校在计算机视觉、自然语言处理、深度学习、图形学等领域的优势,该高校联手才云科技,为高性能计算(HPC)集群打造了一套平台管理系统,为提升集群计算效率、提高资源利用率、降低成本提供了极大支持。


AI 学科建设需从 HPC 起步

高校 HPC 集群是一种为学校密集型科研任务提供高性能计算支持的计算硬件,通常计算速度要达到每秒万亿次级。作为科学研究不可或缺的计算工具,它在研究领域有着广泛的应用和巨大的影响力,也是衡量一所学校科研实力的重要指标之一。


自建校以来,该高校依托高性能 HPC 集群,已在物理、化学、生命科学等领域实现巨大科研进展。而随着 AI 研究的逐步展开,考虑到 AI 研究离不开庞大的数据、精确的数据标记和数十倍于一般科研项目的计算量,学校对用 HPC 集群支撑深度学习任务,促进 AI 与 HPC 的融合提出了更高的要求。


同时,为了承担更多国家级、地级科研课题,加快进行学科建设和人才培养,一些可预见的长期问题,如计算资源部署、使用现状与日益增长的科研任务需求之间的矛盾也亟需得到重视:


  • 物理资源管理零散。该高校在浦东浦西建有两个数据中心,各数据中心内的机器配置不一,共有 8 个集群、124 台服务器、近 300 块 GPU、大量 CPU 及内存资源。虽然规模庞大,但这些资源缺乏有效的统一管理工具,存在计算资源过于分散、缺乏高效统筹机制的问题;

  • 资源申请不规范。为满足各学科科研需求,学校一般都有针对 HPC 集群使用的完善申请、使用手册。但该高校的资源申请流程仍过于繁琐,缺乏自动化的资源申请、分配工具。当申请人提交申请后,计算资源需要依靠人工手动分配,无法实现即租即用,整个过程耗时耗力;

  • 资源利用率低。该高校的服务器资源只能以整机的方式分配给各教研室,例如一台服务器有 6 块 GPU,当某个 AI 任务只需使用 5 块 GPU 时,申请人会被分到一整台服务器,如此分配方式往往导致资源使用不饱和,造成浪费;

  • 资源回收困难。任务结束后,由于需要人工手动清理机器遗留数据,该高校的 HPC 集群也存在资源回收不及时、机器时常处于闲置状态的问题。


才云:构建 HPC 集群平台管理系统

针对该高校 HPC 集群的使用现状,才云科技基于自研智能容器云平台 Caicloud Compass 和人工智能云平台 Caicloud Clever,打造了一套定制化的 HPC 集群平台管理系统。


新系统实现了计算资源的池化管理和机器资源的逻辑化分配,并依靠对底层高性能计算资源的科学管理,大幅提升了深度学习项目的分布式训练能力。



才云科技打造的 HPC 集群平台管理系统


助力学科建设,创建深度学习平台方案


为了让高校 HPC 更好地承担 AI 科研项目,才云科技在 HPC 集群平台管理系统中集成了深度学习平台方案,能为高校数据管理、模型构建、模型上线提供一站式便捷服务。


具备深度学习全流程工程化管理能力。HPC 集群平台管理系统集数据导入、数据处理、模型开发、模型训练、服务上线、模型管理等功能于一体,可有效支持语义分析、仿真模拟、图形渲染等深度学习科研项目,帮助高校简化项目流程、加速项目开展进度。


集成 infiniband 网络。infiniband 网络是用于 HPC 的计算机网络通信标准,具有极高吞吐量和极低延迟的特点,既可用作服务器与存储系统之间的直接或交换互连,也可用于存储系统之间的互连。考虑到深度学习对计算速度的苛刻要求,HPC 集群平台管理系统集成 infiniband 网络,为 AI 项目运算速度提供保障。


集成并行存储系统。在 HPC 中,传统 NFS 存储在集群不断增加时易出现存储瓶颈,而才云科技集成的并行存储则可以把后端的多套存储阵列统一成一个大的存储,不仅保证了可靠性,读写性能和带宽也更出色,帮助高校显著提高运算效率。


构建资源池,统一管理物理资源


为了破解该高校物理资源分散两地的难题,才云科技的 HPC 集群平台管理系统将两个中心的 124 台服务器资源统一纳管至系统环境内,实现了计算资源的平台级统筹管理。


系统可以依据主机生命周期、状态、性能对计算资源做细粒度划分,提供 CPU、GPU、内存、网络负载、任务运行数量等指标的可视化监控及灵活高效的服务器上下线功能,帮助高校大幅提升资源利用率,确保所有资源的安全可用。


细化申请流程,自动回收资源

才云科技的 HPC 集群平台管理系统具备用户权限管理体系,实现了资源按系统管理员、教研室管理员、学生(教师)三级用户划分。


全量集群资源由系统管理员统一管理,各教研室管理员先向系统管理员申请教研室所需资源,再按需分配给学生、教师。任务结束后,系统管理员只需在 HPC 资源管理可视化界面调低额度或关闭教研室账号,即可完成资源回收,资源申请回收效率大幅提升。


提供自动化运维能力,提高资源利用率

为了提升 HPC 集群管理的自动化水平,才云科技 HPC 集群平台管理系统提供应用、AI 模型任务开发运维过程中的一些常见管理能力,如用户环境隔离管理、任务生命周期管理、容器生命周期管理、代码开发管理、存储管理、镜像管理、监控管理、日志管理、配置管理等,大大减轻工作人员的工作负担。


展望未来

自上线后,才云科技的 HPC 集群平台管理系统为该高校降低人力成本、减少浪费、提高 HPC 集群资源利用率提供着巨大支持。在该系统的助力下,该高校的 AI 科研成果也在国际上高光频现,推动上海成为全国的 AI 科研高地。


更可喜的是,和才云科技的合作还让该高校看到了利用自建云开拓教育行业公有云的前景。为了更好地发挥数据中心的价值,该高校可将暑假期间闲置的计算资源以公有云的形式对外提供 ,打造人工智能云,帮助更多高校和企业加速 AI 研发和成果落地。


根据国务院 2017 年发布的人工智能发展规划,到 2020 年,中国人工智能总体技术和应用与世界先进水平同步,人工智能核心产业规模超过 1500 亿元,带动相关产业规模超过 1 万亿元。在当前这个实现 AI 加速发展的绝佳时刻,才云科技希望能帮助更多高校抓住机遇,艰苦奋斗,只争朝夕,助力中国 AI 赢在起跑线。


本文转载自才云 Caicloud 公众号。


原文链接:https://mp.weixin.qq.com/s/X9bb2vk8nDreTbea5zub2A


2020 年 3 月 02 日 17:47623

评论

发布
暂无评论
发现更多内容

使用HSDB 查看jvm内存

引花眠

有趣的“第二个系统”

架构精进之路

提升认知 研发体系

像写Flutter一样开发Android原生应用

萧文翰

flutter android Compose Android Studio

计算机网络基础(七)---网络层-ICMP协议

书旅

计算机网络 网络协议 网络层

什么?不写代码也能做功能开发!- RUOYI教程

Java_若依框架教程

Java 技术 后端 开发 框架

两个指针缩小范围算法,CQRS 命令查询职责分离模式 John 易筋 ARTS 打卡 Week 09

John(易筋)

ARTS 打卡计划

企业架构框架之DoDAF

Winfield

企业架构

架构师都该懂的 CAP 定理

闻人

架构 分布式 架构师

tomcat 使用apr

zack

tomcat

「架构师训练营」第 7 周作业 - 总结

森林

Flink 1.11 Unaligned Checkpoint 解析

Apache Flink

flink

数据库周刊33丨5大国产数据库中标中国移动;Oracle7月CPU安全预警;腾讯Tbase新版本发布;“2020数据技术嘉年华”有奖话题遴选;阿里云技术面试题;APEX 实现数据库自动巡检;MYSQL OCP题库……

墨天轮

MySQL 数据库 oracle 阿里云 面试

波士顿动力狗 SPOT 权威购买指北

早睡蟒

Python 人工智能 学习 波士顿动力 机械狗

Flask 的 url 处理器

Leetao

Python flask Web框架

凡架构必拆分,分则有度

菜根老谭

微服务 康威定律 架构思维 分治思维

MySQL库表设计小技巧

Simon

MySQL 数据库设计

来自前端童鞋对后端的吐槽@#$%^

Java小咖秀

程序员 程序人生 大前端

实操案例:字符串哈希表操作

华为云开发者联盟

程序员 编程语言 C语言 哈希表 字符串

架构师训练营——请简述 CAP 原理

WW

什么?还没有自己的域名?

北漂码农有话说

ARTS打卡 第8周

引花眠

ARTS 打卡计划

Oracle JDK7 bug 发现、分析与解决实战

vivo互联网技术

写一个 web 性能压测工具

WW

Newbe.Claptrap 框架入门,第二步 —— 简单业务,清空购物车

newbe36524

容器 微服务 Reactive .net core ASP.NET Core

k8s极简史:K8s多集群技术发展的历史、现状与未来

华为云开发者联盟

Kubernetes 容器 云原生 华为云

itchat替代品,追妹子神器,个人微信给多个好友(群)发消息,定时提醒妹子喝水

Java_若依框架教程

技术 后端 itchat 微信消息 定时提醒

性能测试

满山李子

极客大学架构师训练营

MinIO 简介和搭建一个对象存储服务

耳东@Erdong

Minio store Object store

「架构师训练营」第 7周作业 - 性能测试

森林

压测脚本

LEAF

JVM系列之:详解java object对象在heap中的结构

程序那些事

Java JVM GC JOL

AI在游戏反外挂中的应用与实践

AI在游戏反外挂中的应用与实践

HPC 与 AI 融合,为什么这家上海的一流高校做到了?_文化 & 方法_才云科技_InfoQ精选文章