亚马逊云科技“智能湖仓”架构,为解决客户现实挑战而生,为处理复杂场景而设计。
2021 年 6 月 24 日,亚马逊云科技针对数据及数据分析等服务持续发力,推出引领大数据未来的“智能湖仓”架构,成为云计算领域红极一时的创新应用。时至 2021 年初,“智能湖仓”发展不断成熟,亚马逊云科技由光环新网和西云数据运营的中国区域继续在这一领域推陈出新,共上线了近 40 项相关服务和特性,成为众多企业用户做数据处理时的优选方案。
取得今天这一成就离不开时间的沉淀。在亚马逊云科技“智能湖仓”的发展史上,其架构总共经历了 7 次演进:
1. 支撑交易型业务系统的需求催生了关系型数据库 MB-GB 级
2. 数据库擅长事务性,不擅长分析型的工作,于是数据仓库专门做业务分析, TB 级
3. 解决互联网半结构化/非结构化数据爆炸,数据技术转向分布式计算方向 Hadoop,PB 级
4. 打破数据孤岛,以低成本/高扩展/高可用的存储先存再淘金,催生了数据湖,EB 级,我们是第一个变概念为商用的
5. 随着分析洞察力的民主化, 催生了专门构建的分析引擎
6. 有了湖,仓, 复杂的查询打通湖和仓的催生出来了2017 spectrum
7. Re:Invent 2020,Lake House architecture, 不仅湖仓,在数据湖和各种专门构建的数据服务之间移动数据,催生了 Glue Elastic view, Redshift ML
如今,亚马逊云科技“智能湖仓”架构将亚马逊云科技全面而深入的数据服务无缝集成,打通了数据湖和数据仓库之间数据移动和访问,并且进一步实现了数据在数据湖、数据仓库,以及在数据查询、数据分析、机器学习等各类专门构建的服务之间按需移动,从而形成统一且连续的整体,满足客户各种实际业务场景下的不同需求。亚马逊云科技“智能湖仓”架构具有灵活扩展、专门构建、数据融合、深度智能和开源开放五大特点,涵盖数据源、数据摄取层、存储层、目录层、数据处理层和消费层六层架构,可帮助客户轻松应对海量业务数据,充分挖掘数据价值。
亚马逊云科技大中华区云服务产品部总经理顾凡表示,“大数据对于现代商业的影响不言而喻。用户期盼从数据中获得洞察,但同时也面临数据存储、处理和分析等方面的诸多挑战,例如数据指数级增长、数据来源不一、数据类型多元化等等。面对细分的应用场景,目前市面上单一、通用的数据解决方案在性能上会有所妥协,很难满足客户的真实需求,用户亟需融合了易用、易扩展、高性能、专门构建、安全及智能等特性于一体的新一代数据管理架构。亚马逊云科技‘智能湖仓’架构在打通数据湖和数据仓库的基础上,进一步将各种数据服务无缝集成,确保数据在不同服务之间顺畅流动,致力于帮助客户尽可能最大程度地提高其数据价值,加速创新,并成为数据驱动型组织”。
亚马逊云科技荣膺中国数据管理解决方案领导者
亚马逊云科技的数据及数据分析服务不断获得行业和第三方机构认可。此前,全球知名的企业增长咨询公司沙利文中国联合头豹研究院发布了《2020年中国数据管理解决方案市场报告》,其中亚马逊云科技凭借创新的技术、灵活的数据管理、云上安全、全球商业实践,被评为中国数据管理解决方案领导者。该报告针对成长指数(功能成长)、创新指数(能力创新)、基本指数(基本数据分析能力)三大维度,对竞争主体旗下数据管理解决方案竞争力进行了评估。亚马逊云科技不仅综合实力排名第一,且三项指数均名列第一。
亚马逊云科技“智能湖仓”架构实现“数据入云,融合智能”
亚马逊云科技“智能湖仓”架构以 Amazon Simple Storage Service(Amazon S3)为基础构建数据湖,作为中央存储库,围绕数据湖集成专门的“数据服务环”,包括数据仓库、机器学习、大数据处理、日志分析等数据服务,然后再利用 Amazon Lake Formation、Amazon Glue、Amazon Athena、Amazon Redshift Spectrum 等工具,实现数据湖的构建、数据的移动和管理等。亚马逊云科技“智能湖仓”架构具有以下五个特点。
灵活扩展,安全可靠。亚马逊云科技“智能湖仓”架构用 Amazon S3 作为数据湖的存储基础,客户可根据不断变化的需求,灵活扩展或缩减存储资源。Amazon S3 可达到 99.999999999%(11 个 9)的数据持久性,且具有强大的安全性、合规性和审计功能。
专门构建,极致性能。为了满足客户不同的数据分析需求,亚马逊云科技提供全面而深入的、专门构建的数据分析服务,包括交互式查询服务 Amazon Athena、云上大数据平台 Amazon EMR、日志分析服务 Amazon Elasticsearch Service、Amazon Kinesis、云数据仓库 Amazon Redshift 等。这些专门构建的数据分析服务为客户提供了极致性能,客户在使用过程中不必在性能、规模或成本之间做出任何妥协。其中 Amazon Redshift 的性价比是其他企业云数据仓库的三倍,AQUA(分布式硬件加速缓存)使 Redshift 查询的运行速度比其他其他云数据仓库最高快 10 倍;Amazon EMR 运行大数据处理及分析服务的成本不到传统本地解决方案的一半,但其速度比标准 Apache Spark 快 3 倍以上。
数据融合,统一治理。亚马逊云科技“智能湖仓”架构不止是打通了数据湖、数据仓库,还进一步将数据湖、数据仓库以及所有其它数据服务组成统一且连续的整体。在实际应用场景中,数据需要在这些服务与数据存储方案之间,以及服务与服务之间按需来回移动,跨服务访问。亚马逊云科技“智能湖仓”架构降低了数据融合与数据共享时统一安全管控和数据治理的难度。其中,Amazon Glue 提供数据无缝流动能力,Amazon Lake Formation 提供了快速构建湖仓、简化安全与管控的全面数据管理能力。
敏捷分析,深度智能。亚马逊云科技将数据、数据分析服务与机器学习服务无缝集成,为客户提供更智能的服务。例如 Amazon Aurora ML、Amazon Redshift ML、Neptune ML 等,数据库开发者只需使用熟悉的 SQL 语句,就能进行机器学习操作;Amazon Glue、Amazon Athena ML、Amazon QuickSight Q 等,可以帮助用户使用熟悉的技术,甚至自然语言来使用机器学习,帮助企业利用数据做出更好的决策。用户还可以通过机器学习服务 Amazon SageMaker、个性化推荐服务 Amazon Personalize 等挖掘数据智能。
拥抱开源,开放共赢。亚马逊云科技“智能湖仓”架构中的关键组件如 Amazon EMR、Amazon Elasticserach Service、Amazon MSK 的核心都基于开源代码,接口与开源完全兼容,无需改变任何代码就可以实现迁移,也兼容主流的管理工具。OpenSearch 基于开放的 Apache2.0 授权,其代码完全开放,用户可以免费下载使用并获得企业级的功能。这些服务允许用户在转型过程中,以非常低的改造成本向云端迁移。
亚马逊云科技赋能全球数以十万计的客户重塑大数据
目前,全球数以十万计的客户选择亚马逊云科技进行数据管理及分析。在中国,TCL、丰田互联、欣和、德比软件、安克创新、启元世界等各行业客户,正在采用亚马逊云科技数据相关服务,开展数据治理及数据价值挖掘。其中, TCL 基于亚马逊云科技“智能湖仓”架构搭建的解决方案,将传统的数据库、数据仓库与数据湖打通,消除了数据孤岛,让全品类 IoT 设备的数据和业务系统实现了互联互通,海外业务与国内业务实现了数据统一。TCL 使用了亚马逊云科技广泛的云服务,包括:使用 Amazon S3 构建数据湖,通过大数据分析服务 Amazon EMR、Amazon Redshift 和机器学习服务获得数据洞察等。通过使用亚马逊云科技专门构建的数据分析服务,之前需要一周才能完成的复杂数据报表,现在仅需要 1-2 小时;每天运行 300 个以上的作业产生 200 多个 BI 报表,为运营和数字化营销提供有力支撑。
启元世界(北京)信息技术服务有限公司是一家领先的人工智能平台公司,公司拥有深度学习、强化学习等自主研发的核心技术和产品,以 SaaS 的形式,为国内多家知名的游戏公司提供虚拟玩家陪玩、游戏商品推荐、关卡数值设计、游戏内容生成等服务。启元世界使用了亚马逊云科技全栈的数据分析服务进行高效开发部署,保障业务快速稳定发展。启元世界 CTO 龙海涛表示,“作为一家领先的 AI 公司,我们希望把更多精力聚焦在算法迭代与产品打磨,我们需要成熟、稳定、免运维的大数据托管服务。亚马逊云科技智能湖仓通过数据的融合,专门构建的分析工具,可靠高效地支撑了我们敏捷的业务迭代,其中 Amazon Kinesis 实现了分钟级部署,并承载百万 QPS(每秒查询率)流数据;Amazon EMR、Amazon Managed Workflows for Apache Airflow 使批处理运行的时间减少了 80%,运营总成本下降了 50%;Amazon Glue 、Amazon Athena、Amazon QuickSight 等服务实现了即席查询秒级响应。”
亚马逊云科技构建了强大的合作伙伴网络,通过合作伙伴网络成员构建行业数据管理解决方案。上海驰骛(ChiefClouds) 信息科技有限公司,是国内领先的消费者数据营销平台供应商,为企业搭建消费者数据平台(CDP),以此为基础构建覆盖数字媒体和阵地运营、CRM、智慧导购等场景的全渠道和全链路消费者运营体系。驰骛科技创始人兼 CEO 程华奕表示,“作为企业级数据管理平台的实践者,我们非常认可亚马逊云科技的智能湖仓架构。以 Amazon S3 为核心的数据基础平台,让我们在服务客户时,在数据安全性、可靠性、性能和扩展性等方面都没有后顾之忧。亚马逊强大的数据分析管理工具组合,让我们能够对各种数据处理和分析游刃有余,快捷、高效地利用机器学习挖掘数据智能,服务于客户的业务创新”。
亚马逊云科技半年内在中国区域新增的近 40 项数据及数据分析相关的服务及特性,进一步强化了亚马逊云科技数据以及数据分析相关服务组合。其中,Amazon Glue 2.0 版本将作业启动时间缩短了 10 倍,并且可提供 1 分钟最短计费持续时间,Amazon Athena 2.0 包括多项性能改进和新功能,Amazon Lake Formation 在宁夏区域推出(去年底在北京区域推出),Amazon Redshift、Amazon EMR、Amazon Elasticsearch Service、Amazon SageMaker 等均发布了诸多新特性。
欲了解更多亚马逊云科技最新技术发布和实践创新,敬请关注将在上海、北京、深圳三地举办的2021亚马逊云科技中国峰会,届时将携手众多业内领先的技术践行者们一起分享“云时代的构建故事与重塑经验”。
评论