写点什么

零一万物回应“套壳 Llama”争议:基于 GPT 研发,对模型和训练的理解做了大量工作

  • 2023-11-14
    北京
  • 本文字数:1958 字

    阅读完需:约 6 分钟

大小:290.29K时长:01:39
零一万物回应“套壳Llama”争议:基于GPT研发,对模型和训练的理解做了大量工作

11 月 14 日,李开复旗下 AI 企业零一万物开源大模型Yi-34B被指责完全使用 LLaMA 的架构 ,只对两个张量 (Tensor) 名称进行修改。

 

对此,零一万物表示:GPT 是一个业内公认的成熟架构,Llama 在 GPT 上做了总结。零一万物研发大模型的结构设计基于 GPT 成熟结构,借鉴了行业顶尖水平的公开成果,由于大模型技术发展还在非常初期,与行业主流保持一致的结构,更有利于整体的适配与未来的迭代。同时零一万物团队对模型和训练的理解做了大量工作,也在持续探索模型结构层面本质上的突破。

 

此事起源于贾扬清在朋友圈的一个吐槽,贾扬清提到,有个“大厂新模型 exactly 就是 LLaMA 的架构,但是为了表示不一样,把代码里面的名字从 LLaMA 改成了他们的名字,然后换了几个变量名。然后,海外有工程师直接指了这一点出来... 还有人在 HF 上面放了个把名字改回去的 checkpoint,说好了,现在你们可以直接用 LLaMA 的代码来 load 这个 checkpoint 了”。



一时间,大家纷纷猜测这个基于 Llama 魔改的大模型到底是哪个。贾扬清随后专门留言表示不是自己的老东家阿里的。后来,有人扒到Hugging Face社区的Yi-34B项目下讨论区的留言,留言指出,“除了两个张量被重新命名外,Yi 完全使用了 Llama 的架构。”

 


有网友评论称,“如果他们使用了确切的 Meta LLaMA 结构、代码库和所有相关资源,则还需要遵守 LLaMA 规定的许可协议。要求以 LLaMA 形式正式发布 Yi 模型是有问题的,因为它破坏了 Yi 许可条款的可执行性。”


后续:


11 月 15 日,零一万物公众号发布了对 Yi-34B 训练过程的说明,李开复在朋友圈也转发了该说明,并表示,“01.AI 起步受益于开源,也贡献开源,从社区中虚心学习,我们会持续进步。”

说明原文如下:


就零一万物的观察和分析,大模型社区在技术架构方面现在是一个处于接近往通用化逐步收拢的阶段,基本上国际主流大模型都是基于 Transformer 的架构,做 attention,activation,normalization,positional embedding 等部分的改动,LLaMA、Chinchilla、Gopher 等模型的架构和 GPT 架构大同小异,全球开源社区基于主流架构的模型变化非常之多,生态呈现欣欣向荣,国内已发布的开源模型也绝大多数采用渐成行业标准的 GPT/LLaMA 的架构。然而,大模型持续发展与寻求突破口的核心点不仅在于架构,而是在于训练得到的参数。


模型训练过程好比做一道菜,架构只是决定了做菜的原材料和大致步骤,这在大多数人的认知中也逐步形成共识。要训练出好的模型,还需要更好的“原材料”(数据)和对每一个步骤细节的把控(训练方法和具体参数)。由于大模型技术发展还在非常初期,从技术观点来说,行业共识是与主流模型保持一致的模型结构,更有利于整体的适配与未来的迭代。


零一万物在训练模型过程中,沿用了 GPT/LLaMA 的基本架构,由于 LLaMA 社区的开源贡献,让零一万物可以快速起步。零一万物从零开始训练了 Yi-34B 和 Yi-6B 模型,并根据实际的训练框架重新实现了训练代码,用自建的数据管线构建了高质量配比的训练数据集(从 3PB 原始数据精选到 3T token 高质量数据)。除此以外,在 Infra 部分进行算法、硬件、软件联合端到端优化,实现训练效率倍级提升和极强的容错能力等原创性突破。这些科学训模的系统性工作,往往比起基本模型结构能起到巨大的作用跟价值。


零一万物团队在训练前的实验中,尝试了不同的数据配比科学地选取了最优的数据配比方案,投注大部分精力调整训练方法、数据配比、数据工程、细节参数、baby sitting(训练过程监测)技巧等。这一系列超越模型架构之外,研究与工程并进且具有前沿突破性的研发任务,才是真正属于模型训练内核最为关键、能够形成大模型技术护城河 know-how 积累。在模型训练同时,零一万物也针对模型结构中的若干关键节点进行了大量的实验和对比验证。举例来说,我们实验了 Group Query Attention(GQA)、Multi-Head Attention(MHA)、Vanilla Attention 并选择了 GQA,实验了 Pre-Norm 和 Post-Norm 在不同网络宽度和深度上的变化,并选择了 Pre-Norm,使用了 RoPE ABF 作为 positional embedding 等。也正是在这些实验与探索过程中,为了执行对比实验的需要,模型对部分推理参数进行了重新命名。


在零一万物初次开源过程中,我们发现用和开源社区普遍使用的 LLaMA 架构会对开发者更为友好,对于沿用 LLaMA 部分推理代码经实验更名后的疏忽,原始出发点是为了充分测试模型,并非刻意隐瞒来源。零一万物对此提出说明,并表达诚挚的歉意,我们正在各开源平台重新提交模型及代码并补充 LLaMA 协议副本的流程中,承诺尽速完成各开源社区的版本更新。


我们非常感谢社区的反馈,零一万物在开源社区刚刚起步,希望和大家携手共创社区繁荣,在近期发布 Chat Model 之后,我们将择期发布技术报告,Yi Open-source 会尽最大努力虚心学习,持续进步。


开源社区讨论参考:

https://huggingface.co/01-ai/Yi-34B/discussions/11#6553145873a5a6f938658491

2023-11-14 17:165623

评论 4 条评论

发布
用户头像
李老师,真TMD的丢人啊。。。。
2023-11-15 10:27 · 北京
回复
用户头像
抄操作系统,数据库,CPU,浏览器。。。啥都抄,难道已经成中国特色传统了?
2023-11-15 08:17 · 浙江
回复
现在连代码编辑器都抄了。。。。
2023-11-15 10:28 · 北京
回复
用户头像
有没有可能是LLaMA抄零一万物?
2023-11-14 19:22 · 北京
回复
没有更多了
发现更多内容

Burp Suite:黑客与白帽子最常用的安全测试工具详解

测吧(北京)科技有限公司

测试

客户在哪儿AI让ToB全面了解竞争对手、赢得竞争

客户在哪儿AI

ToB营销 ToB增长 ToB销售

软件测试学习笔记丨XML响应断言

测试人

软件测试

常见接口安全测试工具介绍:ZAP、Burp Suite、SQLMap 等知名安全测试工具

测吧(北京)科技有限公司

测试

SD-WAN能否优化SaaS访问体验?

Ogcloud

SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SDWAN

ISP代理与住宅代理的主要区别

IPIDEA全球HTTP

技术 ISP 代理IP

Web 开发者必备:最推荐的工具清单

Liam

程序员 前端 Web

拼多多商品详情数据接口全解析:获取商品信息的高效途径

tbapi

拼多多 拼多多商品详情数据接口 拼多多API 拼多多商品数据采集

【YashanDB知识库】字段加上索引后,SQL查询不到结果

YashanDB

yashandb 崖山数据库 崖山DB

闲鱼开发者必读:闲鱼商品详情数据接口完全指南

tbapi

闲鱼API 闲鱼商品详情数据接口 闲鱼商品数据采集 闲鱼平台API接口 闲鱼商品详情API

第59期|GPTSecurity周报

云起无垠

Paste for Mac(剪切板历史管理工具) v4.1.2中文版

Mac相关知识分享

对话天润融通首席科学家:大模型的首要任务是为客户创造商业价值

天润融通

人工智能

软件测试学习笔记丨Cookie处理

测试人

软件测试

直播预约丨《指标体系建设实战》第四期:如何构建全面的指标管理体系

袋鼠云数栈

大数据 指标体系 指标管理 指标中台 指标建设

InfoQ对话天润融通CTO|AI时代,开发者的机遇与挑战?

天润融通

人工智能

Charles for Mac(HTTP协议抓包工具) v5.0b12版

Mac相关知识分享

Sketch for mac(专业矢量绘图设计软件)v99.1中文版

Mac相关知识分享

设计工具

Microsoft Remote Desktop Beta for Mac(微软远程连接工具

Mac相关知识分享

线程池遇到父子任务,有大坑,要注意!

快乐非自愿限量之名

数据库 线程池

Microsoft NTFS for Mac by Tuxera 2022 for macNTFS磁盘格式读写

Mac相关知识分享

Mac软件 软件下载

网络加速解决方案:实现企业网络高效访问

Ogcloud

网络加速 CDN加速 企业组网 海外网络加速

Linux多线程

不在线第一只蜗牛

Linux 运维 多线程 服务器

Sentieon | 应用教程:唯一分子标识符(UMI)

INSVAST

基因测序 基因数据分析 生信服务

从IDC数据中心到云再到智算中心,苏州IDC决胜算力新时代

苏州服务器托管

数据中心

天润融通微藤大模型,如何助力市场部构建企业增长飞轮?

天润融通

足球与AI,开创足球预测新纪元

Geek_a17c4b

数据挖掘 机器学习 深度学习 AI 足球

开发国际化的体育直播平台:现成源码与定制开发的选择

软件开发-梦幻运营部

【YashanDB知识库】用户密码带@字符时exp和imp无法使用

YashanDB

yashandb 崖山数据库 崖山DB

如何选择适合您团队的缺陷跟踪工具?

爱吃小舅的鱼

缺陷跟踪管理 缺陷管理软件推荐

软件测试学习笔记丨接口请求体-xml

测试人

软件测试

零一万物回应“套壳Llama”争议:基于GPT研发,对模型和训练的理解做了大量工作_AI&大模型_褚杏娟_InfoQ精选文章