飞天发布时刻:2024年 Forrester 公有云平台Wave™评估报告解读 了解详情
写点什么

OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首

作者:GruAI

  • 2024-09-09
    北京
  • 本文字数:692 字

    阅读完需:约 2 分钟

大小:357.16K时长:02:01
OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首

在 9 月 3 日,Gru.ai 在 SWE-Bench-Verified 评估最新发布的数据中以 45.2% 的高分排名第一。SWE-Bench-Verified 是 OpenAI 联合 SWE 发布测试集,旨在更可靠的评估 AI 解决实际软件问题的能力。该测试集经由人工验证打标,被认为是评估 AI 软件工程能力的最权威标准。



本次参评登顶的 Coding Agent 是来自 Gru.ai 的 Bug Fix Gru。根据 Gru 团队的博客,他们提供给 Bug Fix Gru 完整的运行环境及丰富的开发工具,这是获取高分的基础,而工作流程,多模态支持,Rag 能力的添加都有效提高了得分。值得关注的是,Gru 团队着重提到了他们有一个评估流程来评估任何改动带来的影响。


Gru.ai 是一家提供软件工程 Agent(智能体)的公司,提供四种 Agent:

  • Assistant Gru:帮助用户解决独立的技术问题,该产品可直接在网站注册使用。

  • Test Gru:基于用户代码补全单测的 Agent,目前该产品仅面相企业开放。

  • Bug Fix Gru:基于 Github Issue,直接提交 Patch,目前该产品仅面向企业开放。

  • Babel Gru:基于技术文档生成软件,目前该产品仍处于实验室阶段。


Gru 在今年一月披露了一笔 550 万美金的融资,投资方为云九资本和峰瑞资本。在 2023 年到 2024 年两年间,国际上大量的资金涌入代码 Agent 领域,如 Devin、Cosine.sh、Factory、Codium.ai 等,但国内针对软件工程领域 AI 的投资仍然较少。Gru 团队拥有丰富的软件工程和 AI 实践经验,CEO 张海龙曾是开源中国及 Coding.net 创始人。


随着资金和大公司的视线逐步从大模型转向上层应用,AI 行业的主要进步方向已经开始转向处理复杂精密的任务,而非简单的生成文本内容。而 Gru.ai 的成功登顶,标志着国人团队在 Agent 领域的工程技术能力处于第一梯队。

2024-09-09 14:595706

评论

发布
暂无评论
发现更多内容

食品行业MES系统

万界星空科技

mes 食品MES 食品行业 食品加工

开放可控的企业级大数据平台建设大揭秘

袋鼠云数栈

新东方 x TiDB丨从 v1.0 到最新版,选择和升级 TiDB 的全面考量

TiDB 社区干货传送门

TiDB数据库placement-rules使用指南

TiDB 社区干货传送门

集群管理 管理与运维 新版本/特性发布 新版本/特性解读 7.x 实践

TiDB 字符集原理和最佳实践

TiDB 社区干货传送门

AI英语作文陪练APP的技术难点

北京木奇移动技术有限公司

AI教育 软件外包公司 AI作文

喜报!华夏银行联合乘云数字获评 "中国信通院可观测性实践典型案例"

乘云数字DataBuff

可观测性 智能运维

乡村振兴积分系统(源码+文档+部署+讲解)

深圳亥时科技

如何平衡向量检索速度和精度?深度解读HNSW算法

Zilliz

向量检索 KNN算法 HNSW

drainer同步到tidb延迟问题记录

TiDB 社区干货传送门

集群管理 管理与运维 故障排查/诊断

案例分析"assertion failed"

TiDB 社区干货传送门

2024华为云开源开发者论坛召开,20+技术大咖解读开源生态发展

华为云开发者联盟

边缘计算 kubeedge Karmada #云原生 AI 大底座

去哪儿KAFKA性能优化-如何节省2000核CPU?

Qunar技术沙龙

性能优化 后端

2024升级版反向海淘代购系统:解锁全球购物新体验

代码忍者

反向海淘代购系统

商业化大前端在性能优化领域的探索与实践

快手技术

性能优化 大前端 快手

关于 tiup 在线源切换处理

TiDB 社区干货传送门

集群管理 管理与运维 7.x 实践

防止漏洞扫描之保护 tidb 10080 端口

TiDB 社区干货传送门

实践案例

OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首_AI 工程化_InfoQ精选文章