近日,开源云原生数据编排软件开发商 Alluxio 创始人兼 CEO 李浩源博士就 2022 年的大数据发展趋势进行了预测,重点关注了云、人工智能、深度学习和数据分析等具体领域的变化。
李浩源博士表示,越来越多的组织机构正在推进数据变革战略,将多样化的工作负载运行在多云和混合云平台上。在 2022 年,人工智能、机器学习和数据分析的工作负载以及支撑它们的技术和服务将取得长足的进展。具体内容如下:
混合云成为现实,多云战略优势突出
随着技术的不断成熟,工具的不断发展,云迁移过程不断简化,大型企业使用多数据中心和不同公有云厂商的混合云战略已经成为标配。进入 2022 年,我们将看到企业进一步提升数字化程度,通过采用混合云和多云部署模式来利用云平台的弹性和敏捷性优势,同时保持对其数据的严格控制。此外,由于企业不希望被供应商锁定,云厂商需要不断创新,并通过改进网络连接和物理架构来增强其竞争力。
人工智能和深度学习成为主流
随着人工智能(AI)应用和工具的不断发展,机器学习和深度学习平台已逐渐成为主流,并将达到和专业数据分析一样的市场成熟度。目前,我们已经看到大量基于 Apache Spark 和 Presto 的全托管集成服务,到 2022 年,我们将看到基于 PyTorch 和 Tensorflow 等框架的垂直整合。用于工作流自动化和管理的机器学习操作(MLOps)将不可或缺,这会进一步降低 AI 和机器学习的难度并加速其应用。
一切皆服务
操作的复杂性导致了本地 Hadoop 的消亡,而云服务能够轻松实现架构配置的弹性,并且操作成本很低。2022 年,我们将看到托管服务的出现,它不仅会应用于单一云环境,也会应用于混合云和本地部署,从而进一步降低数据目录、数据治理、计算框架、可视化和交互式分析(Notebooks)等大量组件集成的复杂性。
跨云数据分享
2022 年,随着云上 SaaS 和托管服务形成更多数据孤岛,更好的数据治理、增强的数据目录,结合跨服务的数据编织将很好地解决这一问题,实现跨租户、跨云服务厂商之间高效、安全地共享数据,数据交换比以往更容易实现。
数据湖存储格式的兴起和转变
存储层和计算层中的技术栈都将不断创新。数据湖逐步兴起,结构化数据将向新格式转变。 2022 年,包括 Apache Iceberg 、 Apache Hudi 在内的开源项目将逐渐取代云原生环境中传统的 Hive 数仓,让 Presto 和 Spark 等工作负载能够更高效地实现大规模运行。
Alluxio 近期宣布,在刚刚过去的 2022 财年(2021 年 2 月 1 日至 2022 年 1 月 31 日)其营收同比增长 3 倍。李浩源表示,"刚刚结束的财年数据中清晰可见,市场需要更好的方式来访问大规模分析和 AI/ML 应用中的数据,特别是在分布式的混合云和多云环境中。
据悉,2021 年,Alluxio 进一步迭代并发布了 3 个重要的企业版本,具体包括:
Alluxio 2.5:该版本专注于 POSIX 和 S3 接口访问,以提高分析和机器学习数据管道的性能和与流行接口的兼容性。
Alluxio 2.6:该版本精简了数据预处理和加载阶段,能够更好地利用 GPU,以及大大提高了 AI/ML 训练效率,并降低了整体成本。
Alluxio 2.7:该版本为 AI/ML 训练管道的数据加载和预处理阶段实现了极大的 I/O 效率提升,帮助减少端到端的训练时间和成本。
评论