2025 年技术指引:让真实案例和经验为开发者开路 了解详情
写点什么

锚定应用!九章云极 DataCanvas 大模型系列成果重磅发布

  • 2023-11-22
    北京
  • 本文字数:2801 字

    阅读完需:约 9 分钟

大小:655.85K时长:03:43
锚定应用!九章云极DataCanvas大模型系列成果重磅发布

11 月 21 日,「筑基赋能 智向未来」九章云极 DataCanvas 大模型系列成果发布会(以下简称“发布会”)在北京重磅召开,本次成果发布距离今年 6 月 30 日 DataCanvas Alaya 九章元识大模型公布仅 4 个多月。


发布会上,九章云极发布了围绕 DataCanvas Alaya 九章元识大模型的开源底层 LLMOps 大模型工具链,开源 Alaya-7B 大模型系列,以及 TableAgent 数据分析智能体等一系列直击应用的大模型创新成果。

Alaya-7B 通识 &对话大模型+ LLMOps 工具链,大模型「全家桶」重磅开源


发布会上,九章云极 DataCanvas 公司自主研发的 DataCanvas Alaya 九章元识大模型矩阵正式开源一系列新成果,其中包括「Alaya-7B 大模型系列」中的 Alaya-7B Foundation Model 通识大模型和 Alaya-7B Chat Model 对话大模型两大模型,以及「LLMOps 大模型工具链」中的 LMS 模型运行工具和 LMPM 提示词管理器两大工具。


九章云极 DataCanvas 公司副总裁于建岗博士介绍,Alaya-7B 大模型系列是 DataCanvas Alaya 九章元识大模型矩阵的成员之一,基于 Alaya 通识大模型,由自我采集、精心筛选处理的万亿 token 数据集(包含网络上的中英文文章、新闻、百科等数据源)上从 0 开始预训练而成。


Alaya-7B Chat Model 是 Alaya-7B Foundation Model 的对话版本,通过在精心选择的微调数据集上进行微调,并对基于涉毒、涉黄以及不良偏见数据进行去毒,从而生成和人类价值观对齐的对话式大模型。Alaya-7B Chat Model 具备多轮对话、自我认知和偏见拒答的能力,能够完成知识问答、代码编写、信息提取、阅读理解、创意写作等多项语言任务。


于建岗博士称,Alaya-7B 大模型系列在保证模型表现的同时,对使用者的安装使用硬件要求更低、应用技术难度更低、训练所需的算力资源消耗更小,有助于加速大模型在各类行业场景的实际应用。


据悉,LLMOps 大模型工具链覆盖了大模型从训练、精调、压缩、部署、推理到监控的全生命周期过程。本次开源两大工具——LMS(Large Model Serving)模型运行工具和 LMPM (Large Model Prompt Manager) 提示词管理器——在大模型业务赋能过程中均起着关键作用。


  • LMS 模型运行工具,能够提高大模型的交付速度和质量,降低大模型的运维和运营成本,以及完成大模型生产化及服务运营等方面的需求。

  • LMPM 提示词管理器,通过帮助用户设计更好的提示词,引导大模型生成更加准确、可靠、符合预期的输出内容。该工具既可面向技术人员提供 development toolkit 的开发模式,也可以面向非技术人员提供人机交互的操作模式,满足更多人群使用大模型的需求。


九章云极 DataCanvas 正在不断尝试工具链、大模型和行业应用的融合创新。此前,工具链之一 DingoDB 多模向量数据库,与 DataCanvas Alaya 九章元识大模型联合打造了企业知识管家解决方案,赋能企业构建高度自动化与智能化的企业知识库,加速多模态大模型落地应用。


从 DingoDB 多模向量数据库、LMS 模型运行工具、LMPM 提示词管理器,到 Alaya-7B 通识+对话大模型系列,九章云极 DataCanvas 已经为用户提供了从数据管理到大模型应用的一站式、0 门槛、全链条开源工具组合。


开源地址

Alaya-7B 大模型:https://github.com/DataCanvasIO/Alaya

DingoDB 多模向量数据库:https://github.com/DingoDB

LMS 模型运行工具:https://github.com/DataCanvasIO/LMS

LMPM 提示词管理器:https://github.com/DataCanvasIO/LMPM


2023 年 7 月 9 日 OpenAI 发布了 Code Interpreter 插件,一时间让人人都是数据分析师的梦想照进现实。其实早在 6 月 28 日九章云极 DataCanvas 公司就已经率先对外发布了 TableGPT,如今 Code Interpreter 更名为 Advanced Data Analysis,而 TableGPT 也带着一系列的重大升级以 TableAgent 为名重装上阵,面向社会开放公测。


TableAgent 是在 DataCanvas Alaya 九章元识大模型基础上开发的能够实现私有化部署的企业级数据分析的智能体,有较强的意图理解能力、分析建模能力和洞察力。TableAgent 在充分的理解用户意图后,自主地利用统计科学、机器学习、因果推断等高级建模技术从数据中挖掘价值,进而提供观点分析和行动指导。主要特征包括:


  • 会话式数据分析,所需即所得;

  • 私有化部署,数据安全;

  • 支持企业级数据分析,大规模、高性能;

  • 支持领域微调,专业化;

  • 透明化过程,审计监督;


TableAgent 公测地址:https://tableagent.datacanvas.com


人人都是数据分析师


TableAgent 本次升级的一大亮点是可以为企业提供私有化部署。Code Interpreter 对国内众多企业用户的最大障碍是企业数据因为安全性、合规等种种原因,不能传输到线上的共有服务平台。TableAgent 为企业提供私有化部署,系统部署在企业内部,数据不外流,从根本上解决了安全合规的问题,同时 TableAgent 也可以满足企业级数据的大规模、高性能分析的要求,这也是 Code Interpreter 目前的短板。

 

数据分析不同于对话、摘要、写作这一类的语言任务,他需要理解数据、理解用户的分析需求,需要能够自动的写代码、调试代码、运行代码,还要理解代码运行生成的数据结果进而从中获得对数据的深刻洞察。

 

尤其是代码生成任务,与一般的写作任务不同,写作可以容忍出现错别字,不会导致内容生成失败,但代码生成任务即便只是变量名错一个字符,都会导致整体无法运行,任务失败。因此基于代码生成来实现开放式数据分析对模型能力是极大的挑战。

 

我们看到目前做数据分析的大模型应用多数是基于固定指标体系或者是对现有分析系统接口的调用,这种技术路线的不需要生成代码,但开放性不足,用户的分析需求受限于现有指标体系的设计和分析系统的能力。TableAgent 选择了难度更高的代码生成路线,创造性的提出专家模型组的方法来解决这些难题。

融合创新应用的新成果

 

九章云极 DataCanvas 公司自主研发的 Alaya 九章元识大模型是 TableAgent 背后的关键技术支撑。在 Alaya 基础大模型之上微调的 Alaya-ZeroX 模型组,通过一系列擅长不同能力的模型组合完成复杂的分析任务。不同参数规模的模型同时满足了对生成质量和推理性能的要求。

 

本次 TableAgent 发布带来的另外一个重要能力是专业化微调,不同行业不同企业在数据分析上有专业的语言背景和分析模型的独特需求,通用的分析工具很难满足专业化的要求,对此 TableAgent 为能够企业提供专业化微调。

 

TableAgent 为此配套设计了 T+(Table Family)系统,能够高效的实现定制化的微调工作,同时系统具有自我迭代的能力,系统性的体系支撑更高效的实现数据分析各个环节的升级,让用户在无感知的情况下即可获得不断升级的数据分析体验。


DataCanvas Table Family (T+)


  • TableAgent:数据分析智能体

  • TableBench:数据分析能力评测基准

  • TableTuning:数据分析 LM 微调

  • TableInstruct:数据分析指令集

  • TableLive:自迭代引擎 Alaya-ZeroX:数据分析 GPT 模型组

  • DeepTables & YLearn:结构化数据深度学习、因果学习工具包


TableAgent 未来将进一步融合非结构化数据的分析能力,并与公司自研的 DingoDB 多模向量数据库、DataCanvas Alaya 九章元识大模型联合创新。未来,将在复杂分析任务、自动化、人机交互、智能体协同等方面进一步升级。

2023-11-22 13:115638
用户头像
李冬梅 加V:busulishang4668

发布了 973 篇内容, 共 569.4 次阅读, 收获喜欢 1123 次。

关注

评论

发布
暂无评论
发现更多内容

出海项目冷启动攻略:如何利用一个标签实现产品推广增长

出海的猹

出海社交 海外市场 出海企业

一文读懂GPU虚拟化、显卡直通和GPU云桌面

青椒云云电脑

桌面云 云桌面

Apache IoTDB 毕业三周年!纪念T恤+表情包免费来袭~

Apache IoTDB

技术科普:汽车开放系统架构AUTOSAR

DevOps和数字孪生

汽车 AUTOSAR

为什么企业需要视频会议私有部署?

BeeWorks

出海第一步,先选云服务

出海的猹

出海服务商 海外市场 出海企业 云服务商

一文读懂GPU直通技术

青椒云云电脑

gpu

电脑宕机耽误工作?云桌面办公上云更高效

青椒云云电脑

云桌面

软件测试/测试开发丨Web自动化—capability参数配置 学习笔记

测试人

Python 程序员 软件测试 自动化测试 Web自动化测试

克服差异:出海企业产品推广迈出第一步的关键考虑因素

出海的猹

营销 产品增长 用户 运营 出海企业

云电脑到底是不是自己的电脑?

青椒云云电脑

云电脑

恭喜!龙蜥获得 2023 大学生操作系统设计赛二等奖及特殊贡献奖

OpenAnolis小助手

开源 操作系统 龙蜥社区 获奖 全国大学生系统能力大赛

2023 年中国国际服务贸易交易会发布:和鲸科技两项成果入选“智赋百业”人工智能融合发展与安全应用典型案例

ModelWhale

人工智能 大模型 AIGC

IT企业数据安全如何保障?部署私有云就够了

青椒云云电脑

私有云 云桌面

平台工程实践,让应用开发如搭积木一般简单

北京好雨科技有限公司

Kubernetes DevOps 平台工程

iPhone15系列发布,正式宣布对AV1的硬解支持

微帧Visionular

视频编解码

为什么新加坡会成为国内企业出海的第一站?

出海的猹

企业出海 出海

GPU云还是传统图形工作站?测绘单位的探索和创新

青椒云云电脑

图形工作站

GPU云桌面如何赋能3D图形制作场景

青椒云云电脑

桌面云 云桌面

精打细算:出海企业如何选择低成本高效率的产品推广渠道

出海的猹

营销 出海社交 产品增长 出海企业

最高提升10倍性能!揭秘火山引擎ByteHouse查询优化器实现方案

字节跳动数据平台

数据库 大数据 云原生 数仓 企业号9月PK榜

我的世界Minecraft for Mac(沙盒游戏)v3.5.3.223测试版/v3.5.3正式版

mac

windows 游戏 Mac游戏下载 Minecraft 苹果mac

云桌面是什么?看完这篇你就明白了

青椒云云电脑

桌面云 云桌面

企业选择云桌面系统的主要原因是什么?

青椒云云电脑

云桌面 云桌面厂家

科兴未来 | 2023苏州宿迁“1+5”共建园区创新创业大赛

科兴未来News

科兴未来 | 第十届中国(泰州)国际大健康产业高层次人才创新创业大赛公告

科兴未来News

移动云桌面,随时随地交付桌面系统!

青椒云云电脑

云桌面

Serverless 数仓技术与挑战 - 张雁飞|3306π

Databend

如何构建现代化数据平台?私有云五大方面赋能企业用户

青椒云云电脑

云平台 云平台技术

锚定应用!九章云极DataCanvas大模型系列成果重磅发布_生成式 AI_李冬梅_InfoQ精选文章