AWS瞄准科学社区，为高性能计算提供新的资源_架构_Richard Seroter

AICon 上海站｜90%日程已就绪，解锁Al未来！了解详情 



 写点什么

Amazon Web Services (AWS) 团队公布了一系列资源，瞄准科学社区对高性能计算的需要。AWS 特别强调：在Amazon 云环境中，他们的“spot 价格体系”市场可以提供价格优惠的海量规模计算能力。

科学组织在处理数据分析时，常常要面对海量计算活动的需求。在AWS 团队指出的一个案例研究中，一家排名全球前五的制药公司在寻找分子建模方法，以处理数百万种化合物组合。有了 Cycle Computing 的帮助，该公司在 AWS 上使用一个有30000 个核的集群，仅用不到8 个小时就完成了任务。该集群跨越两个大陆，使用将近27T 内存，每小时花费1279 美元。Cycle Computing 指出：他们的客户从未想过在公司内部完成这样的科学分析，因为会把他们自己数据中心所有的资源消耗殆尽，而且长达数周。如果一家组织试图在内部完成如此重大的计算任务，常常需要非常大量的CPU，而且在任务启动之前会一直处于空闲状态。这也是Microsoft 在与 Pharm Exec 的访谈中提到的：

看看所有进入蛋白质折叠【译注】的数据。有研究大型分子产品的公司，这些产品一般被称为单克隆抗体（monoclonal antibody）。这些分子的活动主要是如何把自己折叠起来。在研究过程中，他们希望看到产品的基本序列，也想计算出分子的折叠过程。传统方式中，他们会维护海量的 CPU，这些 CPU 的计算围绕着上述活动展开，一般需要 70 个小时才能完成整个的蛋白质折叠分析。使用基于云的基础设施模式，服务器不需要一直开机。科学家可以在需要的时候再分析数据，不需要，服务器就不必运行。

AWS 声称：这个由 Cycle Computing 管理的计算集群不仅仅在规模和性能上令人侧目，同时在价格上也非常合算，因为他们使用了 Spot Instance 实例。与 Reserved 或 On-Demand EC2 实例不同，启动 Spot 实例是投标过程的一部分。客户制定出他们愿意为 Spot 实例每小时支付多少钱，只要 Spot 的价格仍然低于客户给出的阈值，Spot 实例就会一直运行。当价格阈值超过后，Spot 实例就会停止。Spot 的价格会比 Reserved 或 On-Demand 实例的价格便宜 50%，因此用它来完成只有财务上合算时才运行的、低优先级的计算工作，或是补充已有的 On-Demand 负载，都是不错的选择。

在新的“Spot and Science”页面上，对于如何利用类似Spot 市场提供的这些短时计算资源，AWS 团队点出了一些架构上的考量。AWS 提出四种架构风格，可以作为容纳潜在中断风险的解决方案，包括：Map/Reduce、Grid、基于队列的、以及基于检查点（Checkpoint）的架构。每种风格要么建议使用可快速完成的小量工作负载，要么建议当运行主机中断时重新运行，或是使用检查点定期保存工作。

AWS 的“Spot and Science”页面还包括案例研究、用例展示、成本节省分析、辅导和架构指南。即使用户不属于科学社区，如果希望用云完成高性能计算，也可以找到在这些用例中找到相关信息。 HPC in the Cloud 网站认为：

制药公司对云有相对高的使用率，这意味着对于其他公司来说，即使他们不需要找到疾病治愈方法或是改善人们的健康，他们也可以参考这个行业的案例，以了解云在真实世界中的使用方法。

【译注】蛋白质折叠（protein folding）：蛋白质的基本单位为氨基酸，而蛋白质的一级结构指的就是其氨基酸序列，蛋白质会由所含氨基酸残基的亲水性、疏水性、带正电、带负电……等等特性通过残基间的相互作用而折叠成一立体的三级结构。虽然蛋白质可在短时间中从一级结构折叠至立体结构，研究者却无法在短时间中从氨基酸序列计算出蛋白质结构，甚至无法得到准确的三维结构。因此，研究蛋白质折叠的过程，可以说是破译“第二遗传密码”——折叠密码（folding code）的过程。具体可参考百度百科。

查看英文原文： InfoQ: AWS Targets Scientific Community with New Resources for High Performance Computing

发布

暂无评论

创作场景

AWS 瞄准科学社区，为高性能计算提供新的资源

评论

技术三板斧：关于技术规划、管理、架构的思考

百度API接口智能化测试探索与实践

为企业创建完美CRM系统策略

优秀工程师必备的一项技能，你解锁了吗？

CSS之变量（四）悬浮跟踪按钮

面对复杂业务，if-else coder 如何升级？

OPPO大数据离线任务调度系统OFLOW

一周信创舆情观察（12.13~12.19）

技术人如何自我成长？

RPA的定义

在阿里，我如何做好技术项目管理？

为什么大部分人做不了架构师？这2点是关键

毕业10年才懂，会升层思考，工作有多轻松？

Python代码阅读（第71篇）：检测一个平坦列表中是否有重复元素

第七模块总结

EasyRecovery的高级设置如何使用

【浅谈黑客与学习思路】黑客的种类和行为，初学者应该怎样学习

华为超大云数据中心落地贵州，这些硬核技术有利支撑“东数西算”

如何成为优秀的技术主管？你要做到这三点

7 个建议让 Code Review 高效又高质

高质量的缺陷分析：让自己少写 bug

计算机网络体系结构

如何提高一个研发团队的“代码速度”？

Typora + picGo实现插入图片上传gitee图床

揭开神秘面纱，如何组织一次分布式压测

在阿里做了五年技术主管，我有话想说

关于写文章的一点经验

多行内容超出...显示的终极解决方案

拍乐云发布“融合语音通话”产品，实现多场景下VoIP和PSTN互通

架构实战-模块七-作业

MySQL从入门到入魔之数据库连接池(04)

创作场景

AWS 瞄准科学社区，为高性能计算提供新的资源

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载