QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

OpenAI 终于松口,史上最强 NLP 模型 GPT-2 决定部分开源

  • 2019-05-05
  • 本文字数:956 字

    阅读完需:约 3 分钟

OpenAI终于松口,史上最强NLP模型GPT-2决定部分开源

被称为“史上最强NLP模型”的 GPT-2 终于迎来了部分开源。


照例先放上 GitHub 地址:https://github.com/openai/gpt-2


还记得 GPT-2 首次亮相的时候,由于 OpenAI 没有将之开源的计划,很快被技术社区声讨,各种说法铺天盖地,讨论的重心从不开源的决定是否正确,转移到模型本身是否被过誉。


不知道是因为受不了来自技术社区的压力,还是模型已经更加完善了,OpenAI 决定通过分阶段开放以及合作伙伴共享两种方式对 GPT-2 模型进行开源。



在 OpenAI 的官方博客上,也有一段附加的文字对这次的开放进行了解释:


首先,阶段性发布会随着时间的推移逐步发布一系列模型。分阶段发布 GPT-2 的目的是给人们时间来评估这些模型的特性,讨论它们的社会影响,并在每个阶段之后评估发布的影响。


作为分阶段发布策略的下一步,OpenAI 表示将发布 GPT-2 的 345M 参数版本。与 117M 版本相比,该模型的性能有所提高,但在生成连贯文本的便捷性方面,它还不及 1.5B 版本。此外,官方认为 345M 版本的误用风险会高于 117M 的版本,但大大低于 1.5B 版本的误用风险。


在做出 345M 版本发行的决定时,OpenAI 也考虑到了一些其他因素,包括:不同模型大小的易用性(由不同用户使用)、不同大小的模型生成的文本质量、文本生成过程中人类的角色等等,官方也明确表示对其中一些变量仍然不确定,并继续欢迎有关如何制定适当的语言模型发布决策的意见。


而合作伙伴共享的版本也是 OpenAI 多次与外部研究人员、技术公司和决策者进行对话的结果。


OpenAI 目前正在与学术机构、非营利组织和行业实验室建立研究伙伴关系,重点是增强社会对 GPT-2 这类大型语言模型的准备。共享 GPT-2 的 762M 和 1.5B 版本,目的也是促进对该语言模型的输出检测、偏差分析和缓解以及误用潜力分析的研究。除了观察 GPT-2 模型对外界的影响,与利益相关者进行对话,进行内部分析,这些研究伙伴关系将是 OpenAI 对更大模型发布决策的关键。


根据官方博客介绍,这次发布还包括了一个包含所有 4 种模型大小的 GPT-2 输出的数据集,以及用于培训 GPT-2 的 WebText 语料库的子集。输出数据集包含大约 250,000 个模型/超参数对样本,这足以帮助更多的研究人员对上述三个主题进行定量和定性分析。除了这些数据集,OpenAI 还对模型的一些与检测相关的属性进行了基线分析,目的是希望其他人能够在此基础上快速构建模型。


2019-05-05 10:506033
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 281.6 次阅读, 收获喜欢 1302 次。

关注

评论

发布
暂无评论
发现更多内容

经典Android开发教程!腾讯T3团队整理,附小技巧

欢喜学安卓

android 程序员 面试 移动开发

软件工程师的10个认知模型

俞凡

认知

平安社区建设解决方案.智慧小区平台系统建设

源中瑞区块链BaaS平台为企业一键部署区块链应用

13530558032

亚马逊云科技宣布Amazon WAF 在北京区域和宁夏区域正式上线

亚马逊云科技 (Amazon Web Services)

【Jetpack篇】协程+Retrofit网络请求状态封装实战(2)

付十一

Android进阶 JetPack

肝到头秃!阿里爆款的顶配版Spring Security笔记

Java 程序员 架构 面试 计算机

SpringCloud Gateway 路由断言

中原银行

函数式接口 reactor SpringCloud Gateway

Linux学习经验分享:搞定这六点,Linux命令So easy!

学无止境的阿奔

Linux 分布式 运维 C/C++

redis面试知识点和内存算法了解

【Jetpack篇】协程+Retrofit网络请求状态封装实战

付十一

Android进阶 JetPack

网络攻防学习笔记 Day56

穿过生命散发芬芳

网络攻防 6月日更

收藏!阿里P9耗时28天,总结出来了“618、双十一”活动高并发系统设计手册

Java 程序员 架构 面试 高并发

什么是网络流量劫持?

网络安全学海

网络安全 安全 渗透测试 安全漏洞 网络攻防

NeoFetch - Linux 使用命令行查看系统信息

HoneyMoose

用Python手动实现LRU算法

IT蜗壳-Tango

6月日更 算法训练营 算法训练营2021第0期

模型化生存

俞凡

认知

Ubuntu 安装 NTP 服务

HoneyMoose

重磅!北京区域已经推出第三个可用区啦

亚马逊云科技 (Amazon Web Services)

前端工程化的思考

金科优源汇

拥抱数字娱乐家庭新生态,亚马逊云科技赋能智象“蛟龙出海” | 精选案例

亚马逊云科技 (Amazon Web Services)

Swarm云算力矿机分币系统搭建,chia矿机系统源码

JAVA原生线程池源码解析及使用建议( 程序员必看!)

Java 面试 BAT

什么是NQI?质量基础设施“一站式”服务平台我来帮你搭建

源中瑞-龙先生

NQI 质量基础设施“一站式”

TDH8.0使用必读2: 10种数据模型全支持 未来属于多模型大数据平台

星环科技

区块链创新食品溯源--让舌尖上的安全看的见

13530558032

企微私域经营

soho

四份深入源码层面笔记,学完后让你彻底精通Spring Cloud!

Java架构追梦

Java 架构 面试 微服务 SpringCloud

星环科技边缘计算平台Sophon Edge通过EC Ready边缘服务权威评测!

星环科技

建信金科大咖访谈:人工智能技术应用与展望

金科优源汇

Jenkins 控制台输出中的奇怪字符

HoneyMoose

OpenAI终于松口,史上最强NLP模型GPT-2决定部分开源_AI&大模型_陈思_InfoQ精选文章