5 月 31 日 2024 向星力·未来数据技术峰会在上海隆重举办。峰会聚焦人工智能、大数据、数据要素、数字化转型、新质生产力等热门话题,业内知名专家、学者和企业代表分享最新研究成果、技术创新和实践经验,高层次产、学、研、用四方的交流和思想碰撞,为企业数据化转型和 AIGC 应用提供新思路、新方向和新方法。
星环科技创始人、CEO 孙元浩指出,大模型技术已快速融入企业生产经营的方方面面,在企业生产效率提升、业务职能提效和行业应用场景创新中无处不在,不但重构产业,打造企业的核心竞争力,而且成为企业的基础设施和核心能力,助力企业打造新质生产力。
从 Data Infra 到 AI Infra,为企业打造自己的 AI 基础设施
人工智能大模型正在催生新一轮技术创新与产业变革,也将为金融、制造、交通、政务等众多行业企业数字化转型和高质量发展带来新的动能。当前市场以通用基础大模型为主,通识能力强,但缺少行业专业知识。将大模型融入千行百业,让企业的 AI 应用从早期直接调用通用大模型,发展到建立自己的 AI 基础设施,打造行业或特定领域、任务的专用大模型,助力生产力革新和产业升级,已经成为目前企业关注的核心。
星环科技创始人、CEO 孙元浩宣布,星环科技的定位从 Data Infra 进一步延伸到 AI Infra,为企业客户打造 AI 基础设施,打造从语料处理、模型训练、知识库建设等的一整套的工具链,帮助企业快速建立行业大模型,快速使用 AIGC。
从需求上看,目前,通用大模型数量快速增加,并不断升级迭代、提质增效,但是却不能适应企业 AI 应用的需求。而另一方面,企业对行业大模型需求增加,迫切需要降低使用门槛,更加普惠地使用大模型、生成式 AI 技术,以解决企业内部人才、算力、数据等不足的挑战。将 AGI 限制在一个特定领域或者一个行业或者特定任务,不断提升模型准确度,成为一条切实可行的发展途径。
在技术上,生成式 AI 出现后,深度学习出现了一个重大变化,从以前的可能几千万、上亿的样本数量的大样本机器学习,演变成现在小样本机器学习,让行业大模型应用范围变得更很广,让模型能够思考、学习,能够理解自然语言,能够完成更多的工作。
每个国家都需要主权 AI,需要建立自己的 AI 基础设施,打造自己的 AI 模型。企业同样需要自身的 AI Infra,打造行业大模型,赋能企业更快、更容易地使用大模型,释放数据价值。
针对企业的 AI Infra 建设,星环科技通过自主研发,可以向用户提供一站式企业级大模型生产及应用全流程开发工具链,让大模型快速落地。星环科技拥有从语料到模型再到应用的完整的 AI Infra 工具集,覆盖语料开发和管理、大模型训练与持续提升、多模态知识工程、多模知识存储与服务、原生 AI 应用构建编排和应用服务等重要阶段,提供提示词工程、检索增强、智能体构建等大模型应用快速构建和提升、模型推理优化、模型安全和持续提升技术。
通过星环科技 AI Infra 工具,企业能够准确、高效地将拥有的多种来源的多模语料转换为高质量的专业领域知识,并且源源不断地支撑专业知识库问答、业财数据分析、智能投研、设备预测性维护等丰富的使用场景和应用,让企业构筑知识壁垒,实现“人工智能+”业务的落地和创新。
星环科技 AI Infra 工具支持异构算力、语料、知识、大模型应用的统一管理,为数据和语料资产的集约化提供了一站式平台,且具备企业级的组织空间管理能力。
未来,星环科技通过自主研发,不断完善 AI 从基础设施到应用的产业链条,可以为客户提供端到端的全套 AI 解决方案。
推出星环知识平台 TKH,为企业高效构建 AI Infra
星环科技整合大数据、人工智能等技术,推出知识平台 Transwarp Knowledge Hub(TKH),通过全面统管企业 Al Infra 算力、语料、模型和应用,为企业打造安全可控 AI Infra,帮助企业快速使用 AIGC。
星环的知识平台 TKH 包括知识存储与服务、语料开发与知识构建、大模型基础服务等几个重要部分。
第一,TDH for AI,打造新一代一站式多模型数字底座。
星环知识平台 TKH 提供企业级多模态知识存储与服务,帮助企业打造新一代一站式多模型数字底座。基于 Transwarp Data Hub for LLM 知识管理平台的多模型统一技术架构,支持关系型数据、向量数据、全文检索、图数据、时序数据等的统一存储管理,满足各类场景下多模态数据的统一存储管理与服务,大幅简化知识库的知识存储与服务层架构,降低开发与运维成本。
星环科技新推出的产品可以让企业的数据底座实现四个一体化:湖仓集一体化、多模型处理一体化、历史数据与实时数据处理一体化、本地集群和云平台一体化。
其中,大数据基础平台 TDH 9.4 的多模基座加速 AI 分析;仓集资源隔离架构,在混合业务场景下依然保持极致性能;湖仓一体架构,大幅降低 TCO;同份数据跑批查询与混合负载,实时备份强在线业务容灾;同时支持多模型存诸架构、大模型海量训练数据存储、多模型混合检索召回增强、Python 生态等。
分布式向量数据库 Hippo 支持文本、图片、音视频等转化后的百亿级向量数据的存储、索引和管理,支持多种索引,具有全文检索+向量检索以及稀疏向量+稠密向量的混合检索等能力。Hippo 2.0 可以实现百亿级向量存储,提供灵活索引支持、20 倍内存成本下降和向量全文混合检索等特性。
分布式图数据库 StellarDB 提供万亿级图数据存储、毫秒级点边查询和 10+层深度链路分析等能力,支持丰富的图算法和图机器学习,创新的动态时序图能力更便捷地挖掘数据变化规律和预测分析。而新推出的 StellarDB 5.1 实现了向量/全文模糊检索、秒级子图匹配、跨集群数据灾备、RAG 增强大模型、GPU 算法加速等功能,更稳定、更安全、更易用。
星环分布式分析型数据库 ArgoDB 支持标准 SQL 语法,提供多模分析、实时数据处理、联邦计算、隐私计算、数据脱敏等能力,一站式满足 OLAP 分析,实时数仓、数据集市、湖仓集一体等场景。
而新推出的 ArgoDB 6.1 版本以“增量数据实时处理”技术为基础,定义并发布“实时数据加工”的智能高效新范式;结合集群级实时同步与数据海量版本能力,协助用户够构建高可靠的实时可信大集群,以数据透明加密、SQL 审核/阻断等安全技术手段为辅,共建“快好省”湖仓集一体的融合数据处理架构。
星环分布式时序数据库 Timelyre 支持海量时序数据库的存储与处理,具备每秒千万级数据吞吐、5~20 倍无损压缩和毫秒级检索能力,支持 Python、C++等 API,易用的时序分析框架满足金融智能投研需求。TimeLyre 9.2 新增了多模型时序分析、极速分布式回测平台、投研数据中台、时序数据湖引擎等,助力用户解锁数据深层价值。
星环分布式文件系统 TDFS 支持 10 亿级以上的大小文件的存储,并同时支持对象存储,基于 Raft 保障强一致,支持 HDFS 平滑迁移,标准 POSIX 协议支持上层知识等 AI 场景应用无感对接。
第二,语料加工工具与图谱构建工具,助力企业建立高质量模型及应用。
决定行业大模型质量最关键的因素就是语料,语料的质量决定了模型的质量。同时高质量语料也是解决行业大模型“幻觉”、“可信可控”等核心落地难点的重要手段。另外,高质量行业专用语料是企业、机构独特的竞争优势和天然壁垒。
星环科技发布了一站式多场景语料平台 Transwarp Corpous Sudio(TCS),覆盖了语料获取、清洗、加工、治理、应用和管理的全生命周期,具有多种灵活的采集和构建方式,能分布式的高效处理海量语料。TCS 支持 20+主流文档格式、数据化学公式、复杂语料处理、语料自动标注及筛选、多视角体系化资产编目和数据治理等
星环 TCS 拥有全面、多维、精细、增强、资产等 5 大优势,是一个功能全面、易用高效、安全可靠的语料开发利器,能够极大提升语料开发效率,助力企业或机构高质量地构建大模型及其应用。
企业知识库的建设,让数据可以用自然语言方式进行对话和检索,企业可以集中式地管理和利用知识资源,提高运营效率和创新能力。知识库建设变成企业的基础设施,所有的不同类型的数据都能进行存储与管理,能根据需要导入到知识库中。只要企业保有自己的知识库,就可以通过微调得到企业专属的大模型,就可以实现大模型可以随时选、随时换,而企业核心竞争力得到保护的目标。
企业用户利用 TKH 提供的星环图谱构建工具 Transwarp Knowledge Studio for LLM,可以将企业内部数据、个人经验数据和公开信息数据转化为知识,让数据平台更加智能化,同时可以将 AIPC 端和云端资源联动,确保数据安全性。个人经验数据的知识转化和不断的模型微调让知识库建设更具个性化,真正实现个性化、专家级大模型应用。
TKS 是一套全流程、端到端的知识图谱构建工具集,涵盖了知识模型定义、多源异构数据接入、概念与物理数据映射、多元化知识的抽取融合、全自动知识构建、图谱综合查询等功能,能够帮助政务、工业、能源等多领域客户高效构建领域知识体系,并提供智能应用的场景定制化和一站式解决方案。
第三,大模型基础服务 Infinity 和 LLMOps,让大模型快速落地。
在行业大模型发展中,企业面临技术复杂、数据和算力稀缺、管理成本高等挑战。现在企业已经意识到必须建立自己的 AI 基础设施,能够自己对模型进行预训练、微调等。
星环科技推出大模型运营平台 Transwarp Sophon LLMOps,提供一站式企业级大模型生产及应用全流程开发工具链,助力企业完成从预训练到微调,到强化学习,到持续模型评估的全生命周期,让每个企业都能构建自己的专属大模型。
可以说,Sophon LLMOps 一个平台可以解决企业在大模型时代语料、模型、应用三类资产的持续积累和加速迭代。
星环科技自主研发的无涯大模型 Infinity 具备自主可控特性,确保数据安全的同时,通过 0-1 预训练,可为各行业量身定制自有大模型,提供强大的意图理解、语义召回、数据处理和分析能力。
基于无涯大模型底座,星环科技微调了三款垂类大模型,包括问答大模型、数据分析(代码生成)大模型和多模态大模型,以应对内容生成、数据分析图片及音视频理解及检索等多样的使用场景。
星环无涯大模型 Infinity 提供了灵活的部署模式,包括私有化部署(AIPC 版、企业版)、公有云服务等。
Infinity 提升大模型数据分析能力,在语法正确性、数据库方言、语义正确性等方面有重要突破。
星环无涯大模型 Infinity 拥有众多优势,如精准问答能力、减少大模型幻觉;多模数据来源,提升回答丰富度;构建自有知识库,确保企业数据安全等。其主要功能包括智能问答、文档问答、智能写作等。
推出无涯·问知 AI 原生应用,服务多个垂直应用场景
基于无涯大模型,星环知识平台 TKH 打造了无涯·问知、无涯·问数、无涯·金融、无涯·工程等 AI 原生应用,可广泛应用于金融、能源、制造、工程等多个领域,通过精准的数据分析和知识管理,满足企业不同类型的知识应用需求,提升企业业务效率和竞争力。
本次峰会上,星环科技最新发布了无涯·问知 Infinity Intelligence。无涯·问知是一款基于星环科技大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品。
无涯·问知充分利用了星环科技自研大模型底座的自动化知识工程特性,使其在处理和分析数据方面具有显著的优势,允许用户上传文档、表格、图片等多源数据,并支持与外部数据源的对接,使用户能够构建属于自己的专属领域大模型。这一创新功能极大地扩展了模型的应用范围和深度,用户可基于自身私域知识库进行更为个性化和深入的数据分析。
无涯·问知支持不限长度的音视频图文等多模态数据快速入库,且支持自动化文档切片及向量化处理,配合自研的 RAG 框架,可实现知识的精准召回,可用于市场研究分析、企业供应链分析、法律风险预警、智能写作等丰富的业务场景中。
无涯·问知包括四大应用场景:企业可以基于星环知识库 TKH,建立企业自己的知识库应用;当企业算力不足时,可以采用安装了天涯·问知的 AIPC,在本地直接访问天涯·问知,以弥补 AI 算力不足问题;中小企业用户不用自己构建知识库,可以直接利用星环科技无涯·问知公有云服务;对于个人而言,可以利用 AIPC 或者公有云服务,访问天涯·问知服务。
无涯·问知 AIPC 版在实际应用中展现出了五大显著特性,提供了本地化的向量库;支持多种格式、不限长度的文件资料入库,满足了用户多样化的需求;支持影、音、图、文等多模态数据和资料的“知识化”处理,以及相应的“语义化”查询和应用能;自研的 RAG 模块,实现精准问答;具备出色的数据分析能力,能够对数量化的数据进行精准的分析和研判。
另外,无涯·问数是基于星环数据分析大模型,并结合数据分析主体、指标、标签设计、数据开发和治理,形成了从自然语言转数据查询语言,并返回数据表或数据图表的完整流程。
在应用场景上,无涯·问数提供分析仪表盘和智能问数能力,让决策者/管理者以自然语言提问快速自助获取目标数据;预定义指标计算口径,依托数据分析大模型理解用户的分析意图,让数据分析人员实现对话即分析;通过页面配置的方式快速完成数据准备,让数据开发人员,快速整合多种数据。
Data Infra 持续深化,星环系列产品推陈出新
星环科技在推出全新的 AI Infra 的同时,不断完善 Data Infra 产品与服务。
星环大数据云平台推出 TDC 5.0,将原来的多个 TDH 集群统一纳管,统管多个 TDH 集群,形成物理上分散、逻辑上统一的企业级一体化大数据平台。TDC 5.0 具有独特的优势,包括多集群及其基础设施、多数据应用实例统一管理;跨多集群统一调度资源,均衡多个集群资源使用;跨集群共享存储组件,实现 NoCopy 的跨集群数据共享;隔离和控制资源配额,快速、灵活的为不同业务部门提供多租户的 PaaS 服务。
星环科技推出了分布式交易型数据库 KunDB 4.0,高可用能力与 Oracle 兼容性提升,支持跨系统多租户部署。其中,深度兼容 Oracle,高度兼容 Oracle 对象与语法,支持数据快速迁移;高可靠,基于 Paxos 协议的异地容灾能力,增强数据安全性保障;数据库多租户,支持多个应用共享一个数据库实例,能快速由集中式扩展成为分布式。
星环大数据开发工具 TDS 4.0,增加了数据实时同步、数据入湖向导、智能化数据资产盘点、数据资产门户、数据服务编排等功能。
星环大数据安全与隐私保护工具软件 Transwarp Defensor 是星环科技自主研发的大数据安全与隐私保护安全管理平台,致力于帮助企业建设以数据为中心的数据安全防护体系,包括了解内部敏感数据分布情况,帮助管理者发现潜在风险,监管重要数据的合规合理使用等。Transwarp Defensor 提供数据分类分级管理、数据脱敏、个人信息去标识化、数据访问控制、敏感资产风险评估等基础能力,能够做到事前发现,事中防护,事后溯源,帮助企业有效建立数据安全防护体系。Transwarp Defensor 4.5,增加了大模型核心资产识别、数据资产流转链路监控、安全策略智能推荐,安全风险预警与应急响应。
星环数据要素流通平台 Transwarp Navier 通过提供隐私计算环境,使得数据供需双方可以进行安全的数据交易。而 Transwarp Navier 3.1 则新增了全链路智能合约确保安全合规、数据流通全链路行为监控与分析、实时告警与阻断等。
评论