写点什么

OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首

作者:GruAI

  • 2024-09-09
    北京
  • 本文字数:692 字

    阅读完需:约 2 分钟

大小:357.16K时长:02:01
OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首

在 9 月 3 日,Gru.ai 在 SWE-Bench-Verified 评估最新发布的数据中以 45.2% 的高分排名第一。SWE-Bench-Verified 是 OpenAI 联合 SWE 发布测试集,旨在更可靠的评估 AI 解决实际软件问题的能力。该测试集经由人工验证打标,被认为是评估 AI 软件工程能力的最权威标准。



本次参评登顶的 Coding Agent 是来自 Gru.ai 的 Bug Fix Gru。根据 Gru 团队的博客,他们提供给 Bug Fix Gru 完整的运行环境及丰富的开发工具,这是获取高分的基础,而工作流程,多模态支持,Rag 能力的添加都有效提高了得分。值得关注的是,Gru 团队着重提到了他们有一个评估流程来评估任何改动带来的影响。


Gru.ai 是一家提供软件工程 Agent(智能体)的公司,提供四种 Agent:

  • Assistant Gru:帮助用户解决独立的技术问题,该产品可直接在网站注册使用。

  • Test Gru:基于用户代码补全单测的 Agent,目前该产品仅面相企业开放。

  • Bug Fix Gru:基于 Github Issue,直接提交 Patch,目前该产品仅面向企业开放。

  • Babel Gru:基于技术文档生成软件,目前该产品仍处于实验室阶段。


Gru 在今年一月披露了一笔 550 万美金的融资,投资方为云九资本和峰瑞资本。在 2023 年到 2024 年两年间,国际上大量的资金涌入代码 Agent 领域,如 Devin、Cosine.sh、Factory、Codium.ai 等,但国内针对软件工程领域 AI 的投资仍然较少。Gru 团队拥有丰富的软件工程和 AI 实践经验,CEO 张海龙曾是开源中国及 Coding.net 创始人。


随着资金和大公司的视线逐步从大模型转向上层应用,AI 行业的主要进步方向已经开始转向处理复杂精密的任务,而非简单的生成文本内容。而 Gru.ai 的成功登顶,标志着国人团队在 Agent 领域的工程技术能力处于第一梯队。

2024-09-09 14:595636

评论

发布
暂无评论
发现更多内容

我在AIGC和数字中台方面的架构升级设计

大东(AIP内容运营专员)

PoseiSwap 将向 Zepoch 节点持有者发放新一轮空投,生态启动在即

威廉META

免费搭建一个有脾气的聊天机器人,1行Python代码就够了!

程序员晚枫

Python 微信 机器人

C++中fork函数的使用及原理

芯动大师

高效联调,可靠发布!华为云推出CodeArts Release发布管理服务

YG科技

【分布式技术专题】「分布式技术架构」实践见真知,手把手教你如何实现一个属于自己的RPC框架(架构技术引导篇)

洛神灬殇

RPC 架构分析 分布式服务

Nautilus Chain 推出全新 Layer3 DID 公民身份,限量 10 万枚免费发放

鳄鱼视界

PoseiSwap 将向 Zepoch 节点持有者发放新一轮空投,生态启动在即

BlockChain先知

Java程序性能分析:开篇之jps

javalover123

Java 性能优化 性能 后端

华为云应用运维管理平台获评中国信通院可观测性评估先进级

YG科技

应用在虚机和容器场景下如何优雅上下线

YG科技

2023-07-01:redis过期策略都有哪些?LRU 算法知道吗?

福大大架构师每日一题

redis 福大大架构师每日一题

【深入了解系统性能优化】「实战技术专题」全方面带你透彻探索服务优化技术方案(系统服务调优)

洛神灬殇

JVM Java虚拟机 技术推荐 技术调优 开发实战

Go 语言 context 都能做什么?

AlwaysBeta

Go Context go面试题

豫园股份基于低代码敏捷式开发的实践与落地

明道云

华为云Serverless核心技术与最佳实践

平平无奇爱好科技

华为云新一代iPaaS全域融合集成平台全新升级!

YG科技

Python潮流周刊#9:如何在本地部署开源大语言模型?

Python猫

Python

PoseiSwap 将向 Zepoch 节点持有者发放新一轮空投,生态启动在即

大瞿科技

产品质量管理利器,华为云发布CodeArts Defect缺陷管理服务

平平无奇爱好科技

企业应用可观测性利器!华为云CodeArts APM发布

平平无奇爱好科技

PoseiSwap 将向 Zepoch 节点持有者发放新一轮空投,生态启动在即

股市老人

Nautilus Chain 推出全新 Layer3 DID 公民身份,限量 10 万枚免费发放

威廉META

PoseiSwap 将向 Zepoch 节点持有者发放新一轮空投,生态启动在即

西柚子

亿级日活业务稳如磐石,华为云CodeArts PerfTest发布

平平无奇爱好科技

PixelForce - AI绘画释放产品魅力

原力在线

PoseiSwap 将向 Zepoch 节点持有者发放新一轮空投,生态启动在即

鳄鱼视界

Nautilus Chain 推出全新 Layer3 DID 公民身份,限量 10 万枚免费发放

BlockChain先知

Nautilus Chain 推出全新 Layer3 DID 公民身份,限量 10 万枚免费发放

股市老人

OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首_AI 工程化_InfoQ精选文章