AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

被字节索赔 800 万实习生夺 NeurIPS 最佳论文,豆包 team 邀同届获奖人现场 chat!网友:字节要钱还是要人?

  • 2024-12-04
    北京
  • 本文字数:2568 字

    阅读完需:约 8 分钟

大小:1.23M时长:07:09
被字节索赔 800 万实习生夺 NeurIPS 最佳论文,豆包 team 邀同届获奖人现场 chat!网友:字节要钱还是要人?

整理 | 华卫、核子可乐


刚刚,人工智能顶会 NeurIPS 公布了今年的两篇 Best Paper,其中一篇便是字节跳动团队与北京大学共同提出的新成果,而论文一作是此前因“破坏大模型训练”被字节开除并被要求赔偿公司侵权损失 800 万元及合理支出 2 万元的实习生田柯宇,通讯作者是字节跳动 AI Lab 研究员袁泽寰和王立威。



图源 NeurIPS :https://neurips.cc/virtual/2024/poster/94115


据悉,这篇获奖论文还是进入 Neurips 2024 的第 6 高分论文 (7,8,8,8)。



消息传出不久,AI 圈里便炸开了锅,一众网友都直呼戏剧性,颇有小说“爽文”的味道。



更 drama 的是,昨日有许多论文被录 Oral、 Spotlight 、Poster 的研究者们称收到了来自字节豆包 team 的邮件,邀请他们在 NeurIPS 大会进行现场交流。



网友对于此事的评价则不一,“下一步该是创业了”、“优秀也无法成为作恶的通行证”、“这不是他一个人的 paper”。



“破坏大模型训练”事件前因


整件事最初起源于 10 月网上流传的一则消息:某字节跳动实习生利用 AI 模型共享平台 Hugging Face 的漏洞,往商业化模型中注入破坏代码,牵涉到“8000 多张 H100 的 GPU 集群”、“一个多月的训练结果全是错的”。


10 月 19 日,字节发布公告对这件事进行了澄清,表示确有商业化技术团队实习生发生严重违纪行为,涉事实习生已于 2024 年 8 月被公司辞退,并将其行为同步给行业联盟和所在学校,交由校方处理。


根据字节的澄清公告,涉事实习生恶意干扰的,是商业化技术团队研究项目的模型训练任务,但并不影响商业化的正式项目及线上业务,也不涉及字节跳动大模型等其他业务;网传“涉及 8000 多卡、损失上千万美元”严重夸大。


11 月 5 日,字节还专门发布了面向内部全员的《企业纪律与职业道德委员会通报》,对这件事件进行了更详细地披露。通报称,2024 年 6 月至 7 月,集团商业产品与技术部门前实习员工田某某,因对团队资源分配不满,通过编写、篡改代码等形式恶意攻击团队研究项目的模型训练任务,造成资源损耗。字节方已与其解除实习协议,同步阳光诚信联盟及企业反舞弊联盟,并同步至其就读学校处理。


近日,有消息称,字节已将该实习生诉至法院,并请求法院判令其赔偿公司侵权损失 800 万元及合理支出 2 万元、公开赔礼道歉,北京市海淀区人民法院已受理此案。


而这起事件的当事人田柯宇,其个人的领英主页上一直写着:勿信谣勿传谣。


“获奖成果超越了 transformers 模型


早在今年 4 月,田柯宇的这篇获奖论文成果,就登上了 GitHub 和 Paperwithcode 热度榜单,并受到业内的广泛关注,目前已获得 4.5k 的 Star。


开源代码:https://github.com/FoundationVision/VAR


开源模型:https://huggingface.co/FoundationVision/var



GPT 系列及多种其他自回归大语言模型的出现,预示着 AI 领域已经迎来新的纪元。这些模型在通用性和多功能性方面表现出极强的智能水平,尽管其仍存在幻觉等问题,但仍被认为是向着通用人工智能(AGI)迈出了坚实的一步。


与此同时,计算机视觉领域则一直在努力开发大型自回归模型,VQGAN 和 DALL-E 等开创性项目都展示了自回归模型在图像生成方面的潜力,但这些模型的规模定律仍未得到充分探索,性能也长期显著落后于扩散模型。


与大语言模型的卓越成就相比,自回归模型在计算机视觉领域的作用似乎颇为有限。而该论文提出的视觉自回归建模(VAR)首次使 GPT 类自回归模型在图像生成领域超越了扩散 transformers 模型。


据介绍,该研究重新思考了应如何“排序”图像:人类大多是以分层的方式感知或创作图像,即首先捕捉全局结构,而后捕捉局部细节。这种多尺度、由粗到细的方式表明图像同样具有“顺序”。VAR 代表一种新的范式,尝试将图像领域的自回归学习重新定义为由粗至细的“下一尺度预测”或“下一分辨率预测”,而不再是传统意义上标准的光栅扫描“下一 token 预测”。


其方法先是将图像编码为多尺度 token 图,然后自回归过程从 1 x 1 token 图开始,再逐步扩大分辨率。在每一步中,Transformer 都会根据所有先前的 token 图预测下一个分辨率更高的 token 图。这种更加简单直观的方法,允许自回归(AR)transformers 快速学习视觉分布,且具有良好的泛化能力。


VAR 直接使用类似 GPT-2 的 Transformer 架构进行视觉自回归学习。在 ImageNet 256 x 256 基准测试中,VAR 将 Fréchet 初始距离 (FID) 从 18.65 改进至 1.73,初始得分(IS)从 80.4 提高至 350.2,显著提高了自回归模型基准,且推理速度提高达 20 倍。值得注意的是,VAR 在 FID/IS、数据效率、推理速度及可扩展性方面均超过了 Diffusion Transformer(DiT,Stable Diffusion 3.0 及 Sora 等领先扩散系统的奠基项目)。


对 VAR 模型的扩展也表现出与大语言模型相似的 Scaling Law,其线性相关系数接近 -0.998。VAR 还进一步展现了补图、扩图及编辑等下游任务中的零样本泛化能力。这些结果表明,VAR 已经初步继承了大语言模型的两个重要特性:Scaling Law 与零样本泛化。


被 NeurlPS 收录的含金量


根据 GitHub 上的介绍,今年 9 月,这篇 VAR 的成果论文就被收入 NeurIPS 2024 的 Oral 。一直以来,Oral 被认为是顶会中难度系数较大的论文级别,将会有在 NeurIP 大会做口头报告的机会。


NeurIPS 全称神经信息处理系统大会(The Conference on Neural Information Processing Systems),是人工智能(AI)、机器学习(ML)和数据科学领域最负盛名且最具影响力的会议之一,论文录用及评选标准十分严格。


今年,NeurIPS 一共收到了 15671 篇有效论文投稿,相比去年的 12343 篇增长了 27%,但录用率比去年的 26.1% 还低,仅为 25.8%。被录用论文具体包括 Oral 61 篇(0.39%)、 Spotlight 326 篇(2.08%)、Poster 3650 篇(23.29%),其中评审最低分为 2.2、最高分 8.7。


公开资料显示,田柯宇本科毕业于北京航空航天大学软件学院,研究生就读于北京大学,研究兴趣为深度学习的优化与算法。自 2021 年起,开始在字节跳动实习研究,具体包括超参数优化、强化学习算法、自监督的新型算法。


在此次获评 NeurIPS 的 Best Paper 之前,田柯宇就已经有多篇论文中稿顶会,还多次担任 PR, NeurIPS, ICML, ICLR, CVPR 等期刊会议审稿人。被引次数最多的论文《Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling》,还获得了 ICLR 2023 的 Spotlight。


参考链接:


https://arxiv.org/abs/2404.02905

2024-12-04 16:561

评论

发布
暂无评论

mac VM虚拟机中文版 VMware Fusion Pro 13 密钥激活 附 安装教程

Rose

VMware Fusion Pro 13 VM虚拟机破解版 VMware Fusion激活秘钥 Mac虚拟机下载

软件测试|一文教你Python实现不同数据类型互转

霍格沃兹测试开发学社

Screaming Frog SEO Spider mac(网络爬虫开发工具) 19.3中文激活版

mac

苹果mac Windows软件 SEO工具 Screaming Frog

ps插件:alpaca增效工具 (完美替代AI创成式填充)

iMac小白

alpaca下载 alpaca增效工具

敏捷专题:新一代的汽车软件研发

DevOps和数字孪生

敏捷 仿真建模 汽车行业

软件测试|数据可视化神器——pyecharts教程(二)

霍格沃兹测试开发学社

做好这4点,面试嘎嘎猛~

王磊

Java 面试

为什么idea建议使用“+”拼接字符串 | 京东云技术团队

京东科技开发者

IDEA StringBuilder 字符串拼接

软件测试|一文弄懂Python集合相关操作

霍格沃兹测试开发学社

软件测试|Python数据可视化神器——pyecharts教程(三)

霍格沃兹测试开发学社

SaaS 出海,如何搭建国际化服务体系?(二)

LigaAI

经验总结 To B业务 出海 SaaS 产品 SaaS 增长

校园跑腿

图颜有信

Kafka基本原理、生产问题总结及性能优化实践 | 京东云技术团队

京东科技开发者

消息队列 Kafk

基于开源IM即时通讯框架MobileIMSDK:RainbowChat-iOS端v8.0版已发布

JackJiang

网络编程 即时通讯 IM

软件测试|Python列表的使用,你都会了吗?(一)

霍格沃兹测试开发学社

「直播回放」使用 PLC + OPC + TDengine,快速搭建烟草生产监测系统

TDengine

tdengine 时序数据库

大数据与 AI 的双向奔赴|创原会畅聊云原生第12期·作者光临

华为云原生团队

云计算 容器 云原生 分享 创原会

韩山师范学院学子获第四届“火焰杯”软件测试开发选拔赛全国奖项

测试人

软件测试

当我们在谈论构造函数注入的时候我们在谈论什么 | 京东物流技术团队

京东科技开发者

Java 面向对象 构造函数 依赖注入 函数注入

软件测试|超好用超简单的Python GUI库——tkinter

霍格沃兹测试开发学社

一文讲透DevOps理论体系的演进 | 京东云技术团队

京东科技开发者

DevOps 自动化 DevOps工具

软件测试|Python数据可视化神器——pyecharts教程(一)

霍格沃兹测试开发学社

AI赋能,轻松出爆文!AI新闻创作新时代,你准备好了吗?

飞桨PaddlePaddle

新闻 AIGC 新闻写作

LRTimelapse for mac(延时摄影视频制作) 6.5.2中文激活版

mac

苹果mac Windows软件 lrTimelapse 延时摄影视频制作软件

ARBT质押挖矿DAPP系统开发(源码搭建)

l8l259l3365

软件测试|把datetime拍在沙滩上的pendulum模块

霍格沃兹测试开发学社

软件测试|Python列表的使用,你都会了吗?(二)

霍格沃兹测试开发学社

聊聊性能测试的左移右移

老张

性能测试 稳定性保障 质量门禁

ScreenFlow 10 for mac屏幕录像软件

展初云

Mac 屏幕录像 ScreenFlow

被字节索赔 800 万实习生夺 NeurIPS 最佳论文,豆包 team 邀同届获奖人现场 chat!网友:字节要钱还是要人?_AI&大模型_华卫_InfoQ精选文章