技术日新月异的更迭带来了新产品,这些在复杂多样的场景中淬炼的技术和产品被广泛和深刻地应用于企业的数字化转型,也让相关产业迎来了新的增长。
细数目前最受资本和媒体关注的技术,非人工智能(Artificial Intelligence,AI)、大数据(Big Data)和云计算(Cloud Computing)莫属,伴随着时代的需求交织在一起,越来越多的企业趋向于将“ABC”结合起来,用技术产能为商业带来巨大增长。
解决多种数据需求,多模型异构的大数据统一平台成为趋势
以科技赋能、智慧转型为主旨的数字生态推动着千行百业的变革,不同技术发展的背后问题也逐渐显现。
随着数字化转型的深入,企业发展过程积累了大量的数据分布在不同的数据中心、移动终端以及边缘设备,形成数据孤岛。由于各个数据库各自为政, 混合使用的方式操作不便,运维复杂的问题日益凸显,如何对海量分散的数据进行统一管理、智能分析、挖掘价值,加速企业运用数据能力解决最新市场需求,是企业亟需解决的问题。
对各大数据厂商来说,解决技术路线的分分合合一直是难题,一个可以满足多个业务部门开发管理需求的多模型大数据平台是支撑数据驱动业务的关键,让不同的大数据技术都能有效地融入这个技术平台,做到数据存储管理层、SQL 开发层、安全管控等层面的统一,同时为用户提供良好的开发体验、性能要求、可扩展性、管理运维以及安全合规性。
星环科技联合创始人、研发总监刘汪根表示:“最终还是要回归到统一的多模数据处理平台,回归到解决大数据核心的 4 个 V 问题上,即数据量大、数据种类多、数据的实时性要求高以及数据价值挖掘。多模异构之所以成为大家关注的趋势是因为它能够处理多种数据模型,提供统一的编程语言、计算引擎,使用统一的存储管理系统、资源调度系统,还能支持多种不同的数据模型。”
以星环科技 TDH 为例,TDH 提供的多模型数据处理平台很好地满足了客户的多种数据需求,在推动服务容器化以及大数据生态上云的同时,也改变了大数据产品的未来演进形态,在交通、金融等领域有着丰富的应用场景。
一个统一的多模数据处理平台,可以分为五个层次:
①SQL 层:自主研发的 Quark 分布式 SQL 查询引擎模块,兼容各种方言的 SQL 编译器;·
②计算层:Nucleon 是星环自主研发的分布式计算引擎,进行统一的计算任务优化和分发,具有高性能、高扩展性、高稳定性的特点;
③存储模型层,TDH 一个平台支持八种不同的存储模型,包括:行列混合存储、宽表存储 、键值存储 、消息队列 、文档存储 、地理空间存储、图存储、时序数据存储 ,适用于不同的应用场景;
④存储管理层:Transwarp Distributed Data Manager System(TDDMS)是星环自主研发的分布式数据管理系统,能够有效保障数据一致性、数据高可用;
⑤资源调度层:Transwarp Cloud Operation System(TCOS) 是星环自主研发的云操作系统,提供统一的资源调度框架,通过容器化编排,能够统一调度计算、存储、网络等基础资源。
统一的多模型数据处理平台在实际落地时具备以下不可替代的核心优势:
第一,轻松胜任高阶数据分析。TDH 多模型大数据平台旨在让用户更快速、更灵活地调用不同数据库中的数据,帮助企业构建强大的数据底座。仅需一行 SQL 语句,TDH 的 Nucleon 计算引擎自动从行列混合存储、键值存储、文档存储、地理空间存储、图存储、宽表存储、时序数据存储、消息队列等 8 种存储模型中获取所需的数据结果组合,多种模式的存储使得各场景下的查询分析性能得到极大优化。简单改变 SQL 语句,即可实现各类复杂跨模型查询,不仅大幅提升效率,更能轻松完成高阶数据的分析需求。
第二,统一数据管理保障跨模型数据高度一致。使用多个单模型数据库,通过各种交易形式保持数据库间的数据一致性既容易出错又相当耗时。TDH 拥有自主研发的分布式数据管理系统 TDDMS,用单一数据总后台来同时支持多个数据模型,彻底避免数据反复更新、传输、同步,保障多个模型使用数据的高度一致。使用 TDH 可以轻松实现 GB~PB 级多源异构数据的高效存储和统一管理,应用开发变得十分便捷,系统性能更进一步。
第三,领先架构带来软硬件成本全面降低。基于云原生操作系统 TCOS 的容器化部署形式让用户获得充分的系统灵活性。TDH 实现了存算解耦合架构,当业务扩展时,仅需扩展相应数据模型种类来应对不断增长的性能需求,当 TDH 顺利支撑业务高峰后,可以快速缩减集群规模,以降低硬件成本。相较于同时使用不同的数据库产品,TDH 最大限度地减少了需要维护的系统组件,在保证高性能的同时降低了总拥有成本。
星环科技认为,利用一个多模异构平台,处理多种数据的需求,给用户提供统一的数据操作 / 查询语言 SQL、统一的数据计算引擎、统一的分布式存储管理系统、统一的资源管理框架,一体化的解决方案,可以极大地提高用户体验。
行业内数据平台的演进方向—基于云原生的数据云
近几年随着传统企业上云成为不可逆的潮流,新基建政策对建设数字经济的推手作用,使得企业对云计算有了更深层次的需求。另一方面,云原生技术生态日趋完善,细分项目不断涌现,满足了企业业务应用的多样化需求。
企业在建设数字化基础设施的过程中,除了大数据平台之外,还需要构建数据科学平台、业务平台等,并且需要将相关的能力通过云服务的方式提供给企业内所有用户,从而将企业内部中心化的数字化能力与广泛存在的一线业务需求结合起来,实现数据驱动的业务发展模式。这样的数字化基础设施平台就是数据云,是行业内数据平台的演进方向。
在国内探索数据云方向的产品方案中,星环数据云(Transwarp Data Cloud)产品解决方案深受用户认可。星环数据云基于云原生、大数据和 AI 技术构建,通过统一的云操作系统层支持异构的 CPU 和操作系统,可以运行在私有云,公有云以及混合云之上,以多租户和服务的方式提供数据库、数据仓库、数据湖、数据工程、数据科学家和数据应用开发等多种云产品,同时提供低代码平台、DevOps、微服务治理等能力,加速企业数据和应用上云,帮助企业实现数字化转型。
此外,因国内重要信息系统以及关键基础设施中的芯片、基础硬件、数据库、操作系统等底层技术多年来受制于“国外”,存在诸多安全风险。因此建立基于国产的 IT 底层架构和标准,形成自有开放生态是结束被动局面的重要环节。而随着企业国产意识的逐步升级,国产 CPU 和操作系统市场占有率正在逐步上升,因此要求各平台软件更好适配和支持国产 CPU 和操作系统。
刘汪根表示:“云底层要把不同新型的设备和资源管理起来,然后对上层应用尽量便捷化,做到在管理、控制以及开发上的统一,因此混合形态在未来几年可能逐渐变成当前行业的标配。”
作为一家长期坚持自主研发基础软件的提供商,星环科技从 2019 年 4 月份已经开始规模化提供面向国产化硬件和操作系统的解决方案,星环数据云 TDC 基于统一的云原生操作系统 TCOS,支持 X86、ARM 等多种主流 CPU 架构以及 Linux / Windows / 国产操作系统,满足企业软硬件国产化的需求。
除此之外,TDC 基于云原生技术实现分布式计算与存储解耦,实现计算服务和存储服务的独立弹性伸缩,计算和存储服务在节点调度上的解耦,更具有云的灵活性,更能满足企业与日俱增的数据管理需求。
星环科技自成立一直坚持自主研发和自主创新的发展战略,为企业提供大数据和人工智能核心平台,帮助传统企业进行数字化转型,驱动传统领域、产业的升级和发展。相比较其他厂商的平台限制,刘汪根强调,“星环科技的云平台还可以支撑任何多种数据库、数据湖和数据仓库,用户的数据开发、基础设施层异构问题的解决都非常便捷,你只要有新的硬件,不管是什么样的架构都可以加入我们。”
拥抱 AI 产业化趋势,底层技术和业务应用两手抓
从各种技术的成熟迹象来看,2021 将是 AI 与产业融合的大年,更多的智能化应用与平台将会落地,AI 技术也将悄然嵌入更多产业。
在星环科技 AI 总监杨一帆看来,AI 的未来趋势大致有以下几个方向:
第一,分布式机器学习的作用越来越凸显。AI 处理的数据量和模型规模都十分庞大,老式的单机架构显然无法满足这样的高要求。而人们熟知的超级计算机,为了达到极致的性能,采用分布式架构,由几十乃至上千台服务器组成分布式系统。
利用分布式系统带来的算力提升,机器学习,尤其是深度学习,在图像识别、自然语言处理、语音识别等方向上大幅提升了可用性,促进了自动驾驶、数字医疗、物联网等产业的蓬勃发展。相应地,人工智能基础平台也走向了分布式,以支撑这些上层应用的高效开发。
第二,在算法、算力、数据三大 AI 要素之外,计算智能、感知智能、认知智能和决策智能四个 AI 发展阶段也值得关注。
AI 发展必将经历计算智能、感知智能、认知智能和决策智能四个阶段,并最终完美融合。计算智能指利用数据,通过模型对现实问题进行分析和求解;感知智能则是用模型模拟人类的视觉、听觉等感知能力,处理真实世界中的异构数据,并进行判断、控制等操作;而认知智能则更进一步,指 AI 能理解现实世界,并进行自主的思考,理解概念,并进行推理;最终,AI 要落地到实际业务中去,辅助甚至代替人类进行实时、高频决策,形成所谓的决策智能。
第三,AI 工程化和“MLOps”立足于数据运维、模型运维和开发运维三大核心支柱,这将是 AI 实现业务场景应用和业务价值创造的必经之路。
MLOps 是实现 AI 工程化的必由之路。在传统模型训练平台的基础上,AI 还需融合新的技术架构和交互理念,打造开放的、可灵活组合选择应用的 AI 服务应用平台,涵盖从非专业到专业的不同人群的服务应用需求场景,降低非专业人员的使用门槛,提高专业人群的服务场景搭建效率,并满足企业对复杂业务场景组合的需求。
MLOps 能串联起 AI 模型训练的全流程,统一了 AI 训练和软件版本迭代的管理,减少 AI 服务中断的可能性,并解决机器学习模型必然的性能衰减问题。Sophon Base 作为星环人工智能全流程管理平台,目前已经实现了从模型训练,到模型服务上线,到模型运营检测,然后再到模型训练迭代的人工智能全流程能力建设。
第四,AI+ 隐私不可忽视,我们需要靠数据加密、分布式计算和机器学习等不同技术,保证用户的隐私不会受到侵犯。
AI 对于隐私保护的需求也日益迫切,隐私计算将成为未来跨组织 AI 协作、合理利用数据的一大利器。我国出台了《中华人民共和国网络安全法》《网络安全等级保护基本要求》等多部法律法规,欧盟则有非常严格的《通用数据保护条例》等,针对的就是大数据时代对个人隐私无处不在的滥用和侵犯。
在国家禁止泄露个人隐私信息的前提下,AI 产业也需借助新的隐私手段实现产业升级。目前比较热门的方向之一是隐私计算,如联邦学习等。它可以在不直接共享数据的前提下,实现数据的智能协作。多个数据拥有方在本地训练模型,仅通过加密方式传输模型梯度信息,联合建立共有模型,共享模型收益。
基于 AI 实现业务场景应用,星环科技一站式 AI 开发平台 Sophon 提供了感知、计算、认知、决策四个层次的智能服务。例如:机器视觉、边缘计算等“感知智能”技术;结合知识图谱和图计算,在“认知智能”领域提供的比较强大的知识图谱构建工具;为了打破知识和数据孤岛问题、促进信息融合,在各种复杂关系关联分析上努力提供“计算智能”工具,为推理和决策进行强有力的支撑。
在杨一帆看来,一个好的 AI 产品除了在技术上要有先进性,还要在实际业务中成为生产工具去辅助企业解决问题。提到 AI 的迭代方向,杨一帆表示:“业务的智能化是非常重要的方向,除了数据和技术的支撑,我们还需要行业规则和行业知识来辅助知识感知和融合,才能达到最终的决策智能。”
利用大数据、机器学习、深度学习以及其他先进的分析技术。AI 平台能有效利用海量异构数据,运用多种框架快速训练模型,一键上线服务并形成自动监测闭环,满足金融、政务、交通、医疗、制造等行业的数百种场景,极大地便利了企业智能化转型进程。
随着数据量和算力的增大以及模型的日益复杂,星环科技在 AI 产品的改进方向上也有自己的坚持:“我们在坚持分布式机器学习道路的同时,也会努力在机器学习以及 AI 模型的运维管理上下功夫,在市场上不断打磨去服务 B 端企业。”
写在最后
全社会驶入技术发展的快车道,市场的不确定性为企业带来了机会的同时,厮杀也会更加惨烈。
AI 不仅是算法和模型,落到实际业务上,它需要和大数据、和数据建设走在一起。杨一帆表示:“AI 需要注重基础建设,脱离了数据和业务,AI 就是无源之水。数据决定了 AI 的上限,业务决定了 AI 的下限,所以我们需要打好数据建设的基础,再结合 AI 去解决实际业务问题。”
面对行业竞争,杨一帆最后总结道:“无论竞争对手和行业如何变化,我们必须要重视基础建设、坚持自主创新,因为它是持续保持技术领先的关键;未来我们要将技术真正落地,把算法、算力、数据一整套打通,融合算力资源、融合云资源,补上 AI 的先进性,去打造一个完整的生态一体化平台,让它成为瑞士军刀一样的生产工具。”
评论