整理 | 华卫、核子可乐

刚刚，人工智能顶会 NeurIPS 公布了今年的两篇 Best Paper，其中一篇便是字节跳动团队与北京大学共同提出的新成果，而论文一作是此前因“破坏大模型训练”被字节开除并被要求赔偿公司侵权损失 800 万元及合理支出 2 万元的实习生田柯宇，通讯作者是字节跳动 AI Lab 研究员袁泽寰和王立威。

图源 NeurIPS ：https://neurips.cc/virtual/2024/poster/94115

据悉，这篇获奖论文还是进入 Neurips 2024 的第 6 高分论文（7,8,8,8）。

消息传出不久，AI 圈里便炸开了锅，一众网友都直呼戏剧性，颇有小说“爽文”的味道。

更 drama 的是，昨日有许多论文被录 Oral、 Spotlight 、Poster 的研究者们称收到了来自字节豆包 team 的邮件，邀请他们在 NeurIPS 大会进行现场交流。

网友对于此事的评价则不一，“下一步该是创业了”、“优秀也无法成为作恶的通行证”、“这不是他一个人的 paper”。

“破坏大模型训练”事件前因

整件事最初起源于 10 月网上流传的一则消息：某字节跳动实习生利用 AI 模型共享平台 Hugging Face 的漏洞，往商业化模型中注入破坏代码，牵涉到“8000 多张 H100 的 GPU 集群”、“一个多月的训练结果全是错的”。

10 月 19 日，字节发布公告对这件事进行了澄清，表示确有商业化技术团队实习生发生严重违纪行为，涉事实习生已于 2024 年 8 月被公司辞退，并将其行为同步给行业联盟和所在学校，交由校方处理。

根据字节的澄清公告，涉事实习生恶意干扰的，是商业化技术团队研究项目的模型训练任务，但并不影响商业化的正式项目及线上业务，也不涉及字节跳动大模型等其他业务；网传“涉及 8000 多卡、损失上千万美元”严重夸大。

11 月 5 日，字节还专门发布了面向内部全员的《企业纪律与职业道德委员会通报》，对这件事件进行了更详细地披露。通报称，2024 年 6 月至 7 月，集团商业产品与技术部门前实习员工田某某，因对团队资源分配不满，通过编写、篡改代码等形式恶意攻击团队研究项目的模型训练任务，造成资源损耗。字节方已与其解除实习协议，同步阳光诚信联盟及企业反舞弊联盟，并同步至其就读学校处理。

近日，有消息称，字节已将该实习生诉至法院，并请求法院判令其赔偿公司侵权损失 800 万元及合理支出 2 万元、公开赔礼道歉，北京市海淀区人民法院已受理此案。

而这起事件的当事人田柯宇，其个人的领英主页上一直写着：勿信谣勿传谣。

“获奖成果超越了 transformers 模型

早在今年 4 月，田柯宇的这篇获奖论文成果，就登上了 GitHub 和 Paperwithcode 热度榜单，并受到业内的广泛关注，目前已获得 4.5k 的 Star。

开源代码：https://github.com/FoundationVision/VAR

开源模型：https://huggingface.co/FoundationVision/var

GPT 系列及多种其他自回归大语言模型的出现，预示着 AI 领域已经迎来新的纪元。这些模型在通用性和多功能性方面表现出极强的智能水平，尽管其仍存在幻觉等问题，但仍被认为是向着通用人工智能（AGI）迈出了坚实的一步。

与此同时，计算机视觉领域则一直在努力开发大型自回归模型，VQGAN 和 DALL-E 等开创性项目都展示了自回归模型在图像生成方面的潜力，但这些模型的规模定律仍未得到充分探索，性能也长期显著落后于扩散模型。

与大语言模型的卓越成就相比，自回归模型在计算机视觉领域的作用似乎颇为有限。而该论文提出的视觉自回归建模（VAR）首次使 GPT 类自回归模型在图像生成领域超越了扩散 transformers 模型。

据介绍，该研究重新思考了应如何“排序”图像：人类大多是以分层的方式感知或创作图像，即首先捕捉全局结构，而后捕捉局部细节。这种多尺度、由粗到细的方式表明图像同样具有“顺序”。VAR 代表一种新的范式，尝试将图像领域的自回归学习重新定义为由粗至细的“下一尺度预测”或“下一分辨率预测”，而不再是传统意义上标准的光栅扫描“下一 token 预测”。

其方法先是将图像编码为多尺度 token 图，然后自回归过程从 1 x 1 token 图开始，再逐步扩大分辨率。在每一步中，Transformer 都会根据所有先前的 token 图预测下一个分辨率更高的 token 图。这种更加简单直观的方法，允许自回归（AR）transformers 快速学习视觉分布，且具有良好的泛化能力。

VAR 直接使用类似 GPT-2 的 Transformer 架构进行视觉自回归学习。在 ImageNet 256 x 256 基准测试中，VAR 将 Fréchet 初始距离 (FID) 从 18.65 改进至 1.73，初始得分（IS）从 80.4 提高至 350.2，显著提高了自回归模型基准，且推理速度提高达 20 倍。值得注意的是，VAR 在 FID/IS、数据效率、推理速度及可扩展性方面均超过了 Diffusion Transformer（DiT，Stable Diffusion 3.0 及 Sora 等领先扩散系统的奠基项目）。

对 VAR 模型的扩展也表现出与大语言模型相似的 Scaling Law，其线性相关系数接近 -0.998。VAR 还进一步展现了补图、扩图及编辑等下游任务中的零样本泛化能力。这些结果表明，VAR 已经初步继承了大语言模型的两个重要特性：Scaling Law 与零样本泛化。

被 NeurlPS 收录的含金量

根据 GitHub 上的介绍，今年 9 月，这篇 VAR 的成果论文就被收入 NeurIPS 2024 的 Oral 。一直以来，Oral 被认为是顶会中难度系数较大的论文级别，将会有在 NeurIP 大会做口头报告的机会。

NeurIPS 全称神经信息处理系统大会（The Conference on Neural Information Processing Systems），是人工智能（AI）、机器学习（ML）和数据科学领域最负盛名且最具影响力的会议之一，论文录用及评选标准十分严格。

今年，NeurIPS 一共收到了 15671 篇有效论文投稿，相比去年的 12343 篇增长了 27%，但录用率比去年的 26.1% 还低，仅为 25.8%。被录用论文具体包括 Oral 61 篇（0.39%）、 Spotlight 326 篇（2.08%）、Poster 3650 篇（23.29%），其中评审最低分为 2.2、最高分 8.7。

公开资料显示，田柯宇本科毕业于北京航空航天大学软件学院，研究生就读于北京大学，研究兴趣为深度学习的优化与算法。自 2021 年起，开始在字节跳动实习研究，具体包括超参数优化、强化学习算法、自监督的新型算法。

在此次获评 NeurIPS 的 Best Paper 之前，田柯宇就已经有多篇论文中稿顶会，还多次担任 PR, NeurIPS, ICML, ICLR, CVPR 等期刊会议审稿人。被引次数最多的论文《Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling》，还获得了 ICLR 2023 的 Spotlight。

参考链接：

https://arxiv.org/abs/2404.02905

创作场景

被字节索赔 800 万实习生夺 NeurIPS 最佳论文，豆包 team 邀同届获奖人现场 chat！网友：字节要钱还是要人？

“破坏大模型训练”事件前因

“获奖成果超越了 transformers 模型

被 NeurlPS 收录的含金量