QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

被字节索赔 800 万实习生夺 NeurIPS 最佳论文,豆包 team 邀同届获奖人现场 chat!网友:字节要钱还是要人?

  • 2024-12-04
    北京
  • 本文字数:2568 字

    阅读完需:约 8 分钟

大小:1.23M时长:07:09
被字节索赔 800 万实习生夺 NeurIPS 最佳论文,豆包 team 邀同届获奖人现场 chat!网友:字节要钱还是要人?

整理 | 华卫、核子可乐


刚刚,人工智能顶会 NeurIPS 公布了今年的两篇 Best Paper,其中一篇便是字节跳动团队与北京大学共同提出的新成果,而论文一作是此前因“破坏大模型训练”被字节开除并被要求赔偿公司侵权损失 800 万元及合理支出 2 万元的实习生田柯宇,通讯作者是字节跳动 AI Lab 研究员袁泽寰和王立威。



图源 NeurIPS :https://neurips.cc/virtual/2024/poster/94115


据悉,这篇获奖论文还是进入 Neurips 2024 的第 6 高分论文 (7,8,8,8)。



消息传出不久,AI 圈里便炸开了锅,一众网友都直呼戏剧性,颇有小说“爽文”的味道。



更 drama 的是,昨日有许多论文被录 Oral、 Spotlight 、Poster 的研究者们称收到了来自字节豆包 team 的邮件,邀请他们在 NeurIPS 大会进行现场交流。



网友对于此事的评价则不一,“下一步该是创业了”、“优秀也无法成为作恶的通行证”、“这不是他一个人的 paper”。



“破坏大模型训练”事件前因


整件事最初起源于 10 月网上流传的一则消息:某字节跳动实习生利用 AI 模型共享平台 Hugging Face 的漏洞,往商业化模型中注入破坏代码,牵涉到“8000 多张 H100 的 GPU 集群”、“一个多月的训练结果全是错的”。


10 月 19 日,字节发布公告对这件事进行了澄清,表示确有商业化技术团队实习生发生严重违纪行为,涉事实习生已于 2024 年 8 月被公司辞退,并将其行为同步给行业联盟和所在学校,交由校方处理。


根据字节的澄清公告,涉事实习生恶意干扰的,是商业化技术团队研究项目的模型训练任务,但并不影响商业化的正式项目及线上业务,也不涉及字节跳动大模型等其他业务;网传“涉及 8000 多卡、损失上千万美元”严重夸大。


11 月 5 日,字节还专门发布了面向内部全员的《企业纪律与职业道德委员会通报》,对这件事件进行了更详细地披露。通报称,2024 年 6 月至 7 月,集团商业产品与技术部门前实习员工田某某,因对团队资源分配不满,通过编写、篡改代码等形式恶意攻击团队研究项目的模型训练任务,造成资源损耗。字节方已与其解除实习协议,同步阳光诚信联盟及企业反舞弊联盟,并同步至其就读学校处理。


近日,有消息称,字节已将该实习生诉至法院,并请求法院判令其赔偿公司侵权损失 800 万元及合理支出 2 万元、公开赔礼道歉,北京市海淀区人民法院已受理此案。


而这起事件的当事人田柯宇,其个人的领英主页上一直写着:勿信谣勿传谣。


“获奖成果超越了 transformers 模型


早在今年 4 月,田柯宇的这篇获奖论文成果,就登上了 GitHub 和 Paperwithcode 热度榜单,并受到业内的广泛关注,目前已获得 4.5k 的 Star。


开源代码:https://github.com/FoundationVision/VAR


开源模型:https://huggingface.co/FoundationVision/var



GPT 系列及多种其他自回归大语言模型的出现,预示着 AI 领域已经迎来新的纪元。这些模型在通用性和多功能性方面表现出极强的智能水平,尽管其仍存在幻觉等问题,但仍被认为是向着通用人工智能(AGI)迈出了坚实的一步。


与此同时,计算机视觉领域则一直在努力开发大型自回归模型,VQGAN 和 DALL-E 等开创性项目都展示了自回归模型在图像生成方面的潜力,但这些模型的规模定律仍未得到充分探索,性能也长期显著落后于扩散模型。


与大语言模型的卓越成就相比,自回归模型在计算机视觉领域的作用似乎颇为有限。而该论文提出的视觉自回归建模(VAR)首次使 GPT 类自回归模型在图像生成领域超越了扩散 transformers 模型。


据介绍,该研究重新思考了应如何“排序”图像:人类大多是以分层的方式感知或创作图像,即首先捕捉全局结构,而后捕捉局部细节。这种多尺度、由粗到细的方式表明图像同样具有“顺序”。VAR 代表一种新的范式,尝试将图像领域的自回归学习重新定义为由粗至细的“下一尺度预测”或“下一分辨率预测”,而不再是传统意义上标准的光栅扫描“下一 token 预测”。


其方法先是将图像编码为多尺度 token 图,然后自回归过程从 1 x 1 token 图开始,再逐步扩大分辨率。在每一步中,Transformer 都会根据所有先前的 token 图预测下一个分辨率更高的 token 图。这种更加简单直观的方法,允许自回归(AR)transformers 快速学习视觉分布,且具有良好的泛化能力。


VAR 直接使用类似 GPT-2 的 Transformer 架构进行视觉自回归学习。在 ImageNet 256 x 256 基准测试中,VAR 将 Fréchet 初始距离 (FID) 从 18.65 改进至 1.73,初始得分(IS)从 80.4 提高至 350.2,显著提高了自回归模型基准,且推理速度提高达 20 倍。值得注意的是,VAR 在 FID/IS、数据效率、推理速度及可扩展性方面均超过了 Diffusion Transformer(DiT,Stable Diffusion 3.0 及 Sora 等领先扩散系统的奠基项目)。


对 VAR 模型的扩展也表现出与大语言模型相似的 Scaling Law,其线性相关系数接近 -0.998。VAR 还进一步展现了补图、扩图及编辑等下游任务中的零样本泛化能力。这些结果表明,VAR 已经初步继承了大语言模型的两个重要特性:Scaling Law 与零样本泛化。


被 NeurlPS 收录的含金量


根据 GitHub 上的介绍,今年 9 月,这篇 VAR 的成果论文就被收入 NeurIPS 2024 的 Oral 。一直以来,Oral 被认为是顶会中难度系数较大的论文级别,将会有在 NeurIP 大会做口头报告的机会。


NeurIPS 全称神经信息处理系统大会(The Conference on Neural Information Processing Systems),是人工智能(AI)、机器学习(ML)和数据科学领域最负盛名且最具影响力的会议之一,论文录用及评选标准十分严格。


今年,NeurIPS 一共收到了 15671 篇有效论文投稿,相比去年的 12343 篇增长了 27%,但录用率比去年的 26.1% 还低,仅为 25.8%。被录用论文具体包括 Oral 61 篇(0.39%)、 Spotlight 326 篇(2.08%)、Poster 3650 篇(23.29%),其中评审最低分为 2.2、最高分 8.7。


公开资料显示,田柯宇本科毕业于北京航空航天大学软件学院,研究生就读于北京大学,研究兴趣为深度学习的优化与算法。自 2021 年起,开始在字节跳动实习研究,具体包括超参数优化、强化学习算法、自监督的新型算法。


在此次获评 NeurIPS 的 Best Paper 之前,田柯宇就已经有多篇论文中稿顶会,还多次担任 PR, NeurIPS, ICML, ICLR, CVPR 等期刊会议审稿人。被引次数最多的论文《Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling》,还获得了 ICLR 2023 的 Spotlight。


参考链接:


https://arxiv.org/abs/2404.02905

2024-12-04 16:567962

评论

发布
暂无评论
发现更多内容

☕【JVM技术探索】深入分析各种锁(锁膨胀)运作流程

洛神灬殇

JVM 锁升级 6月日更 锁分析

多云部署又添新「云」,EMQ X Cloud 正式支持腾讯云部署

EMQ映云科技

阿里云 IoT 华为云 云平台 #腾讯云

腾讯安全姬生利:《数据安全法》下,云上数据安全最佳实践

腾讯安全云鼎实验室

数据安全 云安全 数据安全法

银行业运维指标体系建设实战

云智慧AIOps社区

智能运维

云开发是啥?看看它在编程导航项目的实践

程序员鱼皮

Java JavaScript 大前端 后端 云开发

58集团 x StarRocks:全面升级数据分析能力,满足多场景业务分析需求

StarRocks

数据库 数据分析 OLAP 58同城 StarRocks

为什么大家都在用WebRTC?

anyRTC开发者

音视频 WebRTC 语音通话 视频通讯

网络为本,博睿数据NPMD用20%的投入实现80%的功能

博睿数据

博睿数据 数据链DNA NPMD

【Linux】使用 systemd 管理 frp 服务

赖猫

Linux 后端

Flink 和 Iceberg 如何解决数据入湖面临的挑战

Apache Flink

flink

机器数及特点

若尘

计算机组成原理 6月日更

批量把Excel数据自动录入系统

木头

自动录入 批量录入 自动填表

ROS CDK | 云上资源自动化部署新模式

郭旭东

阿里云 ROS 基础设施即代码 IaC

前端 JavaScript 复制粘贴的奥义——Clipboard 对象概述

编程三昧

JavaScript 大前端

网络攻防学习笔记 Day52

穿过生命散发芬芳

网络攻防 6月日更

北京多部门联合整治违规应用:过度收集用户信息该重罚

石头IT视角

唯品会:在 Flink 容器化与平台化上的建设实践

Apache Flink

flink

5分钟速读之Rust权威指南(二十七)Rc<T>

wzx

rust

基于jira的需求交付效率统计

好孩子

Jira

网络态势感知是什么?

郑州埃文科技

小红书 x StarRocks:实现数据服务平台统一化,简化数据链路,提升高并发极速查询能力

StarRocks

数据库 数据分析 广告系统 小红书 StarRocks

工作年限、成长路线、进阶技术。怎样才能成为架构师?

Linux服务器开发

Linux服务器开发 Linux后台开发 软件架构师 服务器架构师 C++架构师

剪视频一点都不难,多款超实用剪辑软件全方位评测!

懒得勤快

短视频 视频剪辑 视频制作

管理者如何避免主观偏见

石云升

职场经验 管理经验 6月日更

Redis入门四:数据持久化

打工人!

redis redis持久化 6月日更

2021年,想要成为年薪百万的Java架构师需要掌握哪些技术?

Java架构师迁哥

如何用视频云技术,搞一个爆红的 “反应视频” 项目?

阿里云CloudImagine

阿里云 RTC 英特尔 视频处理 视频制作

JavaScript 数组操作必须熟练运用的 10 个方法

devpoint

JavaScript array reduce 6月日更

墨奇,以“一手之力” 证明你就是你

E科讯

1小时学会不打代码制作一个网页精美简历(1)

1_bit

大前端 低代码 iVX 低代码开发平台

RestTemplate打印日志的正确姿势

编号94530

spring 日志 log RestTemplate

被字节索赔 800 万实习生夺 NeurIPS 最佳论文,豆包 team 邀同届获奖人现场 chat!网友:字节要钱还是要人?_AI&大模型_华卫_InfoQ精选文章