InfoQ 编辑最近跟金山云存储研发总监朱桦进行了一次交流,了解其团队情况、业务情况、以及产品化方面的一些思考。朱桦在 2013 年 5 月加入金山云,此前在搜狐做过研发。在搜狐微博数据中心基础设施部门时,是最早接触 HBase、Hadoop、Hive 并将其引入搜狐的工程师之一。目前,朱桦在金山云主要负责云存储的研发和产品化探索,技术层面主要关注文件系统和 KV 存储。
团队与业务状态
金山云存储团队在 2013 年下半年从 10+ 人增长到现在的 40+,人员主要来自大型互联网公司,这为传统软件模式的金山引入了大量互联网基因。
据称金山云存储今年(2013 年)的业务增长量超过了之前两年的总和,明年预计会达到更高的增长量。仅快盘在全国就有上亿级用户,背后包括千万级的小米用户;整体数据量已经达到百 PB 级,预备容量达到 EB 级。
产品路线
朱桦认为在当前的公有云领域,跟着业内老大 AWS 的路线走是必然的选择。云存储产品在起步阶段按照 AWS S3 的路线走,随着用户量增大,将会针对更多的细分需求推出细分的服务。朱桦列出了一些可以细分的点:
- 冷热数据
- 冗余策略
- 可用性
- 存储加密
- 信道加密
- 文件类型和大小
朱桦认为,公有云服务走细分道路是必须的,良好的技术体系能够更便捷的支持不同的细分道路:
把行业做细,就是把蛋糕做大。蛋糕怎么切完全取决于需求,技术上要更加便捷的支持这种不同的需求。良好的技术体系足够 open,可以按照不同的需求直接提供接口出去;不好的技术体系不够 open,面对不同的需求只好硬生生在上面打个洞,时间长了就无法维护。
走细分道路最直接的好处之一就是节省成本:
现在有客户想要冗余级别达到 6 份的服务,但不愿意支付比正常的 3 份冗余更高的价格。如果你按照他的要价卖给他,你就要亏本;如果你不卖,你就赚不到钱。但是,如果我们能够把 6 份的成本压低到原本 3 份的程度,甚至更低,我们就能赚钱。
金山云存储目前已经启动了类 AWS Glacier 服务的研发,即冷数据、非高可用的低成本存储服务解决方案。该方案适合存放 log 等可以异步进行分析处理的数据。
此外,金山云存储的路线图也参考了 S3 路线图中的 EMR,即 MapReduce 服务,朱桦表示可能会在未来推出相关产品线以满足数据分析的需求。
研发的挑战
根据朱桦的介绍,金山云设置了专门做新技术研究测试的科研部门,定期会发布研究报告分享给内部,覆盖硬件和软件。但是,具体将新技术应用到产品的过程是非常慎重的。
互联网工程师要 open,但不能盲目追新。云存储是一头奔跑中的大象,体量很大,技术体系的调整是一个巨大的挑战。实际上业界一般会认为 10 倍的规模必然会带来技术体系结构的变化,我们应该清楚认识到技术体系的变动是一个必然会发生的事件。因此必须保持对新技术的探索精神,但也应该慎重的将之产品化。当然这中间有一个度的问题,技术领域中平衡也是所有攻城狮每天要头痛的地方。目前得益于我们在软件体系上的灵活与强大,可以在硬件上采用相对激进更高性价比的技术来保证我们在成本上的优势。
相对于技术理论,朱桦认为将技术产品化的过程要更加重要:
现在云计算领域的这些理论都已经很成熟了,比如网络相关的重量级论文有些是上世纪 70 年代的,Google 的三驾马车是 2000 年代初的,到现在仍然管用。重点在于将理论产品化,让用户用得起、会用。业务推动技术研发,技术再推动业务发展,这个循环基于双方互相信任。作为技术,如果要让业务信任你,你必须要给他制造惊喜,要给你的用户 surprise。
相对于美国的 Amazon、Google 等理论和产品都很先进的巨头,朱桦认为中国本土的云计算公司还是有优势的,因为中国的网络环境非常复杂,而做存储最大的成本就在于网络。金山云对于自己在带宽成本控制方面有很大的自信,这主要来自两方面的解决思路:
- 就近调度,就近存储,这需要强大的调度机制。快盘商业版支持局域网文件共享,走 P2P 协议
- 碰撞重复数据,建立异步的快速流动机制
评论