写点什么

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer

作者:Daniel Dominguez

  • 2025-04-06
    北京
  • 本文字数:954 字

    阅读完需:约 3 分钟

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer

OpenAI 发布 SWE-Lancer 基准测试,用于评估 AI 大语言模型在现实世界自由职业软件工程任务中的表现。该基准测试的数据集包含来自 Upwork 的 1400 多个任务,总价值高达 100 万美元。这些任务既包括独立的编码活动,也包括管理决策,复杂程度和报酬各有不同,充分模拟了现实世界中的自由职业场景。


SWE-Lancer 通过严格的评估方法来反映软件工程的经济价值和复杂性。它采用经过专业工程师验证的先进的端到端测试方法来评估模型在实际环境中的表现。尽管 AI 大语言模型近期取得了显著进展,但初步结果显示,这些模型在应对基准测试中的多数任务时仍然面临严峻挑战。


基准测试涵盖了多种任务,如应用程序逻辑开发、UI/UX 设计以及服务器端逻辑实现,确保能够对模型能力进行全面的评估。SWE-Lancer 还为研究人员提供了一个统一的 Docker 镜像和公共评估拆分,用以促进 AI 模型评估过程中的协作和透明度。


该项目旨在推动对 AI 在软件工程领域经济影响的研究,特别是潜在的生产力提升和对劳动力市场的影响。通过将模型性能与货币价值联系起来,SWE-Lancer 展现了 AI 在软件工程中的实际影响,并凸显了持续优化 AI 技术的重要性。


在基准测试中表现最好的模型是 Claude 3.5 Sonnet,在独立编码任务中的成功率为 26.2%,这表明 AI 能力仍有很大的提升空间。许多模型在需要深度上下文理解或评估多个提案的任务方面表现不佳,这表明未来的模型可能需要更复杂的推理能力。


一些评论表示对 SWE-Lancer 的实际应用表示怀疑,认为可能只对特定群体有吸引力,另一些人则认为这是理解 AI 对软件工程社会经济影响的关键一步,与行业向 AI 驱动的生产力工具发展的整体趋势相契合,正如 Gartner 2027 所预测的软件工程智能平台的广泛采用。


用户 Alex Bon 表示:


终于有机会让 AI 证明它也能在零工经济中生存下来了!


独立黑客 Jason Leow 则表示:


我喜欢这个发展方向。用全栈问题进行测试,将其与市场价值联系起来,这正是日常开发工作所面临的东西。我一直觉得旧的基准测试有些不太对劲。


SWE-Lancer 为评估 AI 在自由职业软件工程中的应用提供了一个重要的框架,揭示了 AI 在实际应用中的挑战与机遇。基准测试的结果凸显了进一步研究和开发的必要性,以便提升 AI 模型在现实世界软件工程任务中的表现。


查看英文原文

https://www.infoq.com/news/2025/03/openai-swe-benchmark/

2025-04-06 10:005411

评论

发布
暂无评论

Qt|图片旋转缩放操作

中国好公民st

c++ qt 9月月更

活动回顾 | 基于英特尔技术的端到端音视频优化

网易云信

音视频技术

Elasticsearch聚合学习之二:区间聚合

程序员欣宸

elasticsearch 9月月更

三个案例,带你体验SQL的神奇特性

华为云开发者联盟

数据库 后端 sql 企业号九月金秋榜

政务服务平台建设的难点怎样解决

Geek_99967b

小程序 小程序容器

倒计时 1 天|洞察数字化转型新机遇,共论云上数据分析新观点

Kyligence

数据分析 指标管理

复享光学承担的上海市2022年度科学仪器领域项目获批立项

硬科技星球

数据脱敏前沿实践分享,筑造数据安全边界 | 极客星球

MobTech袤博科技

加密 数据安全

数据治理(十六):Ranger管理HDFS安全

Lansonli

数据治理 9月月更

[Go WebSocket] 多房间的聊天室(五)用多个小锁代替大锁,提高效率

HullQin

Go golang 后端 websocket 9月月更

双“简”合璧:极简 Kubernetes 上使用极简服务网格

Flomesh

Service Mesh 服务网格

不止于《幻塔》,云底座护航完美世界迎接行业新时代

阿里云弹性计算

游戏 ECS

亿铸科技聚焦国产存算一体AI大算力芯片,28纳米工艺实现10倍能效比

硬科技星球

京东前端二面高频react面试题

Geek_07a724

前端 React

基于 iframe 的微前端框架 —— 擎天

vivo互联网技术

前端框架 微前端 项目管理工具 iframe

Java虚拟机之垃圾收集算法

派大星

9月月更

Ansible如何使用Filter插件转换数据

山河已无恙

9月月更

移动App开发的痛点怎样解决

Geek_99967b

小程序

【云原生】Kubernetes编排工具精讲

陈橘又青

云原生 9月月更

Java进阶(十八)Java实现定时器(Timer)

No Silver Bullet

Java 定时器 9月月更

一站式数字藏品收款系统开发解决方案

开源直播系统源码

NFT 元宇宙 数字藏品 数字藏品系统

ABAP Netweaver 和 ABAP Platform 这两个名词的辨析

汪子熙

SAP abap Netweaver 思爱普 9月月更

Java 8 的异步利器:CompletableFuture源码解析(建议精读)

Java快了!

java;

研发效能之环境管理

laofo

DevOps cicd 研发效能 持续集成 持续交付

Python基础(四) | 程序控制结构

timerring

Python. 9月月更

JavaScript 这几个“神(qi)奇(pa)“设计也是醉了......

掘金安东尼

JavaScript 前端 9月月更

Nacos 和 Apollo中的 长轮询 定时机制,太好用了

Java快了!

Nacos 和 Apollo中的

【火热招募】一文看懂华为云IoT Edge边缘计算开发者大赛技术亮点

华为云开发者联盟

IoT 边缘计算 华为云 企业号九月金秋榜

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer_AI&大模型_InfoQ精选文章