写点什么

Databricks 来搅局了:0 门槛克隆 ChatGPT,完全开源可随意修改商用

  • 2023-04-16
    北京
  • 本文字数:3232 字

    阅读完需:约 11 分钟

Databricks来搅局了:0门槛克隆ChatGPT,完全开源可随意修改商用

全球首个完全开源的大语言模型,性能堪比 GPT3.5!

 

大数据热潮催生了许多成功的公司,例如 Snowflake、Databricks、Splunk 和 Cloudera。现在我们进入了生成式人工智能时代,那么会不会有新的“人工智能和大数据”结合方式?

 

最近,大数据公司Databricks就在生成式人工智能领域采取了行动。两周前,该公司发布了一个名为 Dolly 的开源大型语言模型,旨在应对市场对于生成式 AI 及相关应用的旺盛需求,我们可以称之为 Dolly 1.0。

 


像 ChatGPT 和 Bard 这样的生成式 AI,它们使用的数据通常来自于在成千上万不同网站,使用的数据量十分惊人,而且想要使用这些数据训练 AI 还需要数以千计的强大 GPU 在背后提供支持。Databricks 希望通过开源 Dolly 1.0 及其训练数据,让任何人都能开发出一个真正像人类的 AI,而无需投资数百万美元,这让这类 AI 不再是只有大型科技公司才能负担得起的东西,数以百万计的小公司也将能够从中受益。

 

Databricks 首席执行官 Ali Ghodsi 表示,Dolly 1.0 只需要非常少的数据和非常短的时间就能完成训练,“只需 30 美元、一台服务器和三个小时,我们就能教 Dolly 开始进行人类级别的交互。”

 

4 月 12 日,Databricks 再次发布了该大语言模型(LLM)的开源迭代版本,并命名为 Dolly 2.0。Databricks 表示,Dolly 2.0 是业内第一个开源、遵循指令的 LLM,它在透明且免费提供的数据集上进行了微调,该数据集也是开源的,可用于商业目的。这意味着 Dolly 2.0 可用于构建商业应用程序,无需支付 API 访问费用或与第三方共享数据。

 

Dolly 2.0 的诞生

 

Dolly 1.0 基于 EleutherAI 在 2021 年开源的自然语言处理模型 GPT-J。GPT-J 是一个基于 GPT-3,由 60 亿个参数组成的自然语言处理 AI 模型。但该模型使用了来自 StanfordAlpaca 项目的 5.2 万个问答数据集,是根据 OpenAI 的 ChatGPT 的输出进行训练的,因为 OpenAI 的使用条款限制,Dolly 1.0 并不能用于商业用途。

 

Databricks 在官方博文中指出,“用于训练 Dolly 1.0 的数据集中,包含来自 ChatGPT 的输出。斯坦福团队明确提到,OpenAI 的服务条款试图阻止任何人创建能够与其竞争的 AI 模型。”

 

Dolly 2.0 建立在 Databricks 公司首版 Dolly 的基础之上,为了规避这个问题并建立起可供商用的模型,Databricks 使用基于 EleutherAI 的 Pythia 模型家族中的 120 亿参数语言模型,成功构建起了 Dolly 2.0。

 

该公司表示,他们专门在 5000 名 Databricks 员工之内开展了众包,通过高质量的人工生成指令建立起训练数据集,借此完成了模型训练和微调。该公司将这套高质量的人工生成响应/揭示数据集称为 databricks-dolly-15k,其使用 Creative Commons Attribution-ShareAlike 3.0 Unported License 许可。

 

“任何人均可出于任何目的使用、修改或扩展这套数据集,包括商业应用程序。”Databricks 还强调,该数据集可通过 GitHub 页面(https://github.com/databrickslabs/dolly/tree/master/data)直接下载。

 

模型权重则可通过 Databricks Hugging Face 页面(https://huggingface.co/databricks)处下载获取。

 

Dolly 2.0 想成为大小公司的福音

 

Databricks 之所以发布基于开源数据的大语言模型,主要是考虑到企业客户对控制模型并引入针对性场景/特定用例的需求。这也与行业常见的商业闭环训练模型(例如 ChatGPT)形成了鲜明对比。

 

市场调研公司 Omdia 首席分析师 Bradley Shimmin 表示,“Dolly 2.0 这类模型大多是开放的,不需要在大规模 GPU 集群上进行长达数月的训练,因此为那些希望构建内部生成式 AI 方案的企业打开了新世界的大门。”

 

Shimmin 指出,“这些小型(即训练参数的规模较小)模型使用大量提示/响应对作为训练数据,因此特别适合希望控制整个解决方案、支持针对性用例的企业客户。例如,他们可以利用现有问答配对建立的帮助台数据库训练自己的 AI 模型。”

 

根据咨询公司 Amalgam Insights 首席分析师 Hyoun Park 的说法,开源大语言模型的另一大优势,在于 Dolly 2.0 这类成果能够让企业更好地跟踪数据治理和驻留,并与所支持的用例保持良好的关联性。

 

Park 还专门拿 OpenAI 的名称打趣,说“因为 OpenAI 的 ChatGPT 等其他模型在使用时要依赖于 API。对某些企业而言,这种依赖性可能引发关于 API 的合规性、治理或数据安全问题。”

 

这也相当于,Dolly 2.0 和其他基于开源的大语言模型将在受严格监管的行业中成为各企业的福音。这是个良好的开端,让企业意识到他们也可以创建并拥有自己的模型,且无需支付 API 访问费或与大语言模型提供商共享数据。这些在受到严格监管的行业中都可能产生巨大的问题。

 

开源与闭源大语言模型间的区别

 

与闭源大语言模型相比,基于开源的模型所使用的训练数据对公众开放,因此可根据业务进行微调和定制以满足企业需求。相比之下,ChatGPT 等闭源模型则根据其开发者 OpenAI 所掌握的训练进行训练,模型可通过 API 付费访问,且禁止直接用于商业用途。

 

Chandrasekaran 认为,“「开放式大语言模型」可以有多种理解方式。最明显也最重要的一点,就是对这些模型的源代码和部署灵活性做出调整。除此之外,开放的范围还可以涵盖模型权重、训练数据集以及开放/协作方式层面的决策。”

 

IDC 的 Schubmehl 表示,Dolly 2.0 就遵循基于开源的模型这一理念。“Dolly 2.0 是一套大语言模型,模型本体、训练代码、数据集和模型权重都可作为开源资源从 Databricks 处获取,以供企业根据业务需求创建自己的定制化大语言模型。”Schubmehl 同时提到,这种方法与其他大语言模型形成了鲜明对比,后者往往并不开放模型构建中的各类组成要素。

 

分析人士还提到,闭源与开源大语言模型间的另一个区别,主要体现在训练的参数量上。其中闭源大语言模型的参数规模往往更大。以 ChatGPT4 为例,其训练中使用到 100 万亿个参数;相比之下,Dolly 2.0 的参数量只有区区 120 亿个。

 

Dolly 2.0 如何融入 Databricks 的生成式 AI 战略

 

Constellation Research 的 Thurai 表示,Databricks 此次推出 Dolly 2.0 可以算是其夺取生成式 AI 市场份额的一项重要战略。

 

“从本质上讲,众多大语言模型和基础模型业务都被掌握在超大规模企业手中。每家企业都有自己的变体——微软有 ChatGPT、谷歌有 Bard,AWS 则通过 Huggingface 合作伙伴关系提供基础设施、流程、工具及模型共享和目录服务。Databricks 当然不能坐以待毙,必须在热火朝天的大语言模型市场上分一杯羹。”

 

其他分析师则认为,Dolly 的发布符合 Databricks 公司向市场投放开源产品的战略。

 

IDC 的 Schubmehl 表示,“Databricks 的专长,就是通过各种开源 AI 工具和服务帮助客户充分利用自己的数据和运营体系。Dolly 是另一个绝佳安全,能够为组织提供基于最新 AI 技术的选项,也就是大语言模型。”但分析师们也承认,Databricks 的 Dolly 2.0 恐怕无法立刻对 ChatGPT 或 Bard 等竞争对手产生影响。

 

Omdia 公司的 Shimmin 认为,“Dolly 乃至其他开源生成式 AI 大语言模型的出现,将彻底颠覆 Bard、ChatGPT 和 Galactica 等现有大语言模型的未来前景。但从中短期来说,这些成果在 Google Workplace、微软 Office 等产品中的地位还将稳固地维持下去。”

 

Amalgam Insights 的 Park 则给出了不同意见,认为 Dolly 最终会成为 ChatGPT 这类通用工具的功能伴侣。“人们会从通用工具中学习如何使用和提示生成式 AI,而 Dolly 这类模型则负责帮助用户处理更具体、更专业的特定工作用例。”

 

另外,也有评论指出,Dolly-like LLM 的一个能力是可以用来编写代码,特别是 SQL 代码。这可能会导致非 SQL 专家能够在 Databricks lakehouse 上设置和运行查询。 

 

这可以从两方面来理解:第一,SQL 开发人员可以使用它来提高工作效率,第二,你不需要那么多 SQL 开发人员。Dolly 可以减少 Databricks 对 SQL 程序员的需求。将这种想法扩展到 Snowflake 和所有其他数据仓库环境,SQL 技能在未来可能会变得不那么有价值。

 

参考链接:

https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm

https://www.infoworld.com/article/3693349/why-did-databricks-open-source-its-llm-in-the-form-of-dolly-2-0.html

2023-04-16 12:205979

评论

发布
暂无评论
发现更多内容

金兔迎福报、新春第一炮【2022 中国开源年度报告】!

腾源会

开源

解锁极狐GitLab 自动化功能:Webhook 触发 Pipeline 与计划流水线

极狐GitLab

DevOps pipeline ChatOps webhook ChatGPT

官宣:计算中间件 Apache Linkis 正式毕业成为 Apache 顶级项目

腾源会

开源

喜讯!云起无垠实力入选多项中国网络安全行业全景图

云起无垠

全息电网 数字孪生智慧电网Web3D运维系统

2D3D前端可视化开发

智慧电网 数字电网 智能电网 数字孪生智慧电网 智慧电网三维可视化

信用卡APP评测系列——工银e生活5.0打造个人生活服务平台,引领用户美好生活

易观分析

金融 银行 信用卡

Zebec 上线投票治理机制,全新流支付生态正在起航

股市老人

沿着数字中国的大江大河,领略云上三峡

脑极体

华为云 三峡

提名倒计时! | 2022 龙蜥社区优秀贡献者

OpenAnolis小助手

技术 操作系统 龙蜥社区 开源贡献者 奖项报名

抖音春晚直播观看人数破1.3亿,火山引擎技术助力“新年俗”新体验

火山引擎边缘云

云原生 CDN 边缘计算 抖音 视频云

Zebec 上线投票治理机制,全新流支付生态正在起航

鳄鱼视界

深度剖析 Linux 伙伴系统的设计与实现

bin的技术小屋

Linux 内存管理 Linux内核 内存分配 Linux内核源码

快速入门pandas进行数据挖掘数据分析[多维度排序、数据筛选、分组计算、透视表](一)

汀丶人工智能

Python 数据挖掘 数据分析 pandas

青云 KubeSphere 与 OpenCloudOS 完成技术兼容互认证

OpenCloudOS

云原生 操作系统 KubeSphere

gcc属性__attribute__((naked))使用场景

SkyFire

GCC 内嵌汇编

Zebec 投票治理机制上线,全新流支付生态正在起航

西柚子

2/8 19:00 直播 | StarRocks 实战系列第一期--部署&导入

StarRocks

数据库

基于 Flink+Pravega 的游戏服务器监控与调节系统设计

Apache Flink

大数据 flink 实时计算

大文件传输软件的优势有哪些?-镭速传输

镭速

我发现买不起自己出版的图书了,这到底是咋回事?

冰河

程序员 并发编程 高并发 架构师 编程开发

【1.27-2.3】写作社区优秀技术博文一览

InfoQ写作社区官方

热门活动 优质创作周报

案例研究:让线上故障沉淀为团队的经验

石云升

极客时间 2月月更 技术领导力实战笔记

Jackson 的 DeserializationFeature.FAIL_ON_UNKNOWN_PROPERTIES

HoneyMoose

湖仓一体电商项目(十八):业务实现之编写写入DWD层业务代码

Lansonli

数据湖 湖仓一体电商项目

D触发器 (D-FF)详解

timerring

FPGA

活动预告 | 2023 QCon 全球软件开发大会 - AI 基础架构论坛

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

写给go开发者的gRPC教程-protobuf基础

凉凉的知识库

golang 微服务 gRPC protobuf 微服务框架

跬智信息 (Kyligence) 入选2022年度上海市优质大数据服务供应商目录

Kyligence

大数据 数据分析

第三届腾讯Light·技术公益创造营正式启动:聚焦三大议题,探索技术公益可持续路径​

OpenCloudOS

开源

架构训练营模块四作业

gigifrog

架构训练营

Databricks来搅局了:0门槛克隆ChatGPT,完全开源可随意修改商用_开源_核子可乐_InfoQ精选文章