HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

叫板 ChatGPT?Stability AI 开源语言大模型 StableLM,参数仅为 GPT-3 百分之四,却能实现超高性能

  • 2023-04-21
    北京
  • 本文字数:1494 字

    阅读完需:约 5 分钟

叫板ChatGPT?Stability AI 开源语言大模型 StableLM,参数仅为GPT-3百分之四,却能实现超高性能

4 月 20 日,AI 作画神器 Stable Diffusion 背后公司 Stability AI 发布了新的开源语言模型 StableLM。

这套模型的 Alpha 版分 30 亿和 70 亿参数两个版本,后续还有 150 亿到 650 亿参数的更多模型变体。

开发人员可以出于商用或研究等用途,自由体验、使用和微调 StableLM 基础模型,但须遵守 CC BY-SA-4.0 许可条款。



“一只随意样式的鹦鹉,扁平设计,矢量风格” — Stable Diffusion XL


2022 年,Stability AI 公开发布了 Stable Diffusion。这套革命性的图像模型,标志着不同于专有 AI 的透明、开放、可扩展替代方案已经出现。


随着 StableLM 模型套件的推出,Stability AI 继续践行着让每个人都能用上基础 AI 技术的基本宗旨。StableLM 模型能够生成文本和代码,并将为一系列下游应用程序提供支持。项目的意义,在于展示小规模高效模型如何通过适当训练提供出色的性能。


StableLM 的发布,建立在 Stability AI 与非营利性研究机构 EleutherAI 的早期开源语言模型的经验之上。这里的早期开源模型包括 GPT-J、GPT-NeoX 和 Pythia 套件,并在 The Pile 开源数据集上进行训练。近期众多开源语言模型同样以这些努力成果为基础,例如 Cerebras-GPT 和 Dolly-2 等。


StableLM 利用 The Pile 上的新实验数据集进行训练,但模型规模增大了 3 倍,包含 1.5 万亿个内容 token。


Stability AI 表示,将在适当的时候发布关于数据集的细节信息。这套数据集的高丰富度,使得 StableLM 在会话和编码任务中表现出惊人的高性能,且继续保持着相对较小的参数量——只有 3 亿至 70 亿之间(与之对应,GPT-3 拥有 1750 亿个参数)。


Stability AI 还发布了一系列经过指令微调的研究模型。这 5 套经过开源数据集微调的模型均为对话智能体,分别为 Alpaca、GPT4All、Dolly、ShareGPT 以及 HH。目前这些模型仅供研究用途,基于非商用 CC BY-NC-SA 4.0 发布,且遵循斯坦福大学的 Alpaca 许可。


以下各图,为 70 亿参数微调模型生成的对话示例:





Stability AI 表示,“语言模型将构成我们数字经济的支柱,我们希望每个人都能为模型设计提出意见。以 StableLM 为代表的这批开源模型,也再次践行了我们对于打造透明、可访问、支持性 AI 技术的承诺”:


  • 透明。通过模型开源以提高透明度并建立社区信任。研究人员可以“深入了解”模型以验证其性能、研究可解释性技术、识别潜在风险并协助制定保障措施。公共和私营部门能够针对自己的应用场景调整(「微调」)这些开源模型,且无需共享敏感数据或放弃对 AI 功能的控制权。


  • 可访问性。在设计中考虑到边缘用例,确保日常用户能够在本地设备上运行的模型。利用这些模型,开发人员可以构建与各类常见硬件相兼容的独立应用程序,而无需依赖于少数一、两家企业的专有服务。通过这种方式,AI 的经济利益将被真正分享给广大用户和开发者社区。相较于神秘的闭源模型,更开放、允许细粒度访问和广泛研究的开源模型将为学术社区提供更好的可解释性和安全技术。


  • 支持性。Stability AI 之所以构建模型,是为了向用户提供支持、而非将其取代。Stability AI 专注于打造高效、专业且实用的 AI 性能,而不是追求建立起如神般全知全能的人工智能。Stability AI 开发的工具能够为普通人和普通企业赋能,帮助他们释放创造力、提高生产力并开辟新的经济机会。


这些模型目前已经发布了 Stability AI 的 GitHub 代码仓库上(https://github.com/stability-AI/stableLM/)。


此外,Stability AI 将启动基于人类反馈的强化学习(RLHF)众包计划,并与 Open Assistant 等社区合作,共同为 AI 助手创建一套开源数据集。


参考链接:

https://stability.ai/blog/stability-ai-launches-the-first-of-its-stablelm-suite-of-language-models

2023-04-21 12:586624
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 532.8 次阅读, 收获喜欢 1976 次。

关注

评论

发布
暂无评论
发现更多内容

架构师日记-从数据库发展历程到数据结构设计探析 | 京东云技术团队

京东科技开发者

数据库 京东云 企业号 5 月 PK 榜

如果重写SpringBoot,我们会做哪些不同的选择?

canonical

开源 低代码 架构设计 springboot spring ioc

低代码平台中的GraphQL引擎

canonical

开源 低代码 领域驱动模型DDD 中台架构 graphql 低代码平台

低代码平台需要什么样的ORM引擎?(2)

canonical

开源 mybatis 低代码 jpa ORM

可逆计算:下一代软件构造理论

canonical

低代码 软件架构 函数式编程 领域驱动模型DDD 中台架构 低代码平台

低代码平台中的自动化测试

canonical

开源 低代码 自动化测试 自动化测试框架 低代码平台

从可逆计算看Delta Oriented Programming

canonical

开源 低代码 软件产品线工程 可变性管理 可逆计算

为什么说百度AMIS框架是一个优秀的设计

canonical

开源 前端架构 低代码 低代码平台 百度AMIS

采用Excel作为设计器的开源中国式报表引擎:NopReport

canonical

开源 低代码 报表 BI 报表 中国式报表

如何在不修改基础产品源码的情况下实现定制化开发

canonical

开源 低代码 定制化 迭代增量开发 可扩展性

系统学Java,看这篇Java综合笔记万字总结就够了!纯干货分享

Java你猿哥

Java spring 面试 ssm 多线程与高并发

BSN-DDC基础网络详解(十一):官方门户OpenAPI说明及开发资料汇总

BSN研习社

Github上标星98K!火爆全网的性能调优实战手册,出自腾讯T4大佬

做梦都在改BUG

Java 性能优化 性能调优

企业应该知道的几种网络安全防护措施!

行云管家

网络安全 网络 信息

云原生背景下如何配置 JVM 内存

做梦都在改BUG

Java 容器 云原生 JVM

你管这破玩意叫缓存穿透?还是缓存击穿?

做梦都在改BUG

Java 数据库 redis 缓存穿透 缓存击穿

解耦远不止依赖注入

canonical

架构设计 解耦 依赖注入

什么是声明式编程

canonical

函数式 声明式 命令式

中移链合约常用开发介绍(四)工程树目录

BSN研习社

Y组合子的一个启发式推导

canonical

函数式编程 函数式 Lambda演算 Y组合子 不动点

XDSL:通用的领域特定语言设计

canonical

开源 低代码 dsl 领域特定语言 领域语言工作台

从可逆计算看开源低代码平台Skyve的设计

canonical

开源 低代码 架构设计 低代码平台 扩展机制

小微企业运维用哪款软件好?有免费的吗?

行云管家

运维 安全运维 小微企业

背靠香港影视集团星光文化,StarNFT问世了

小哈区块

这份阿里逆天的Redis手册,于内卷中首次亮相了

Java你猿哥

Java redis 面试 Redis 核心技术与实战 redis 底层原理

Paxos的魔法学研究报告

canonical

paxos协议 共识算法 分布式, 分布式算法 深入理解分布式共识算法

性能优化多重要?凭借华为791页Mysql金字塔性能调优手册,进阿里

做梦都在改BUG

Java MySQL 性能优化 性能调优

低代码平台需要什么样的ORM引擎?(1)

canonical

开源 低代码 ORM 低代码平台 Spring JPA

支持GraalVM原生编译的开源低代码平台:Nop Platform

canonical

开源 低代码 GraalVM Quarkus 低代码平台

从张量积看低代码平台的设计

canonical

开源 低代码 架构设计 低代码平台 领域模型

不是单例的单例——巧用ClassLoader

PPPHUANG

单例模式 ClassLoader ContextClassLoader Java web

叫板ChatGPT?Stability AI 开源语言大模型 StableLM,参数仅为GPT-3百分之四,却能实现超高性能_AI&大模型_刘燕_InfoQ精选文章