写点什么

OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首

作者:GruAI

  • 2024-09-09
    北京
  • 本文字数:692 字

    阅读完需:约 2 分钟

大小:357.16K时长:02:01
OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首

在 9 月 3 日,Gru.ai 在 SWE-Bench-Verified 评估最新发布的数据中以 45.2% 的高分排名第一。SWE-Bench-Verified 是 OpenAI 联合 SWE 发布测试集,旨在更可靠的评估 AI 解决实际软件问题的能力。该测试集经由人工验证打标,被认为是评估 AI 软件工程能力的最权威标准。



本次参评登顶的 Coding Agent 是来自 Gru.ai 的 Bug Fix Gru。根据 Gru 团队的博客,他们提供给 Bug Fix Gru 完整的运行环境及丰富的开发工具,这是获取高分的基础,而工作流程,多模态支持,Rag 能力的添加都有效提高了得分。值得关注的是,Gru 团队着重提到了他们有一个评估流程来评估任何改动带来的影响。


Gru.ai 是一家提供软件工程 Agent(智能体)的公司,提供四种 Agent:

  • Assistant Gru:帮助用户解决独立的技术问题,该产品可直接在网站注册使用。

  • Test Gru:基于用户代码补全单测的 Agent,目前该产品仅面相企业开放。

  • Bug Fix Gru:基于 Github Issue,直接提交 Patch,目前该产品仅面向企业开放。

  • Babel Gru:基于技术文档生成软件,目前该产品仍处于实验室阶段。


Gru 在今年一月披露了一笔 550 万美金的融资,投资方为云九资本和峰瑞资本。在 2023 年到 2024 年两年间,国际上大量的资金涌入代码 Agent 领域,如 Devin、Cosine.sh、Factory、Codium.ai 等,但国内针对软件工程领域 AI 的投资仍然较少。Gru 团队拥有丰富的软件工程和 AI 实践经验,CEO 张海龙曾是开源中国及 Coding.net 创始人。


随着资金和大公司的视线逐步从大模型转向上层应用,AI 行业的主要进步方向已经开始转向处理复杂精密的任务,而非简单的生成文本内容。而 Gru.ai 的成功登顶,标志着国人团队在 Agent 领域的工程技术能力处于第一梯队。

2024-09-09 14:595465

评论

发布
暂无评论
发现更多内容

Java核心基础——反射

老农小江

Java 基础

一站式接口测试服务体系建设

DrawDe朱

接口自动化 自动化测试平台

架构师训练营第 1 期 - 第七周总结

Todd-Lee

极客大学架构师训练营

三、设计模式

Geek_28b526

工作1-3年的程序员,应该具备怎么样的技术能力?该如何提升?

Java架构师迁哥

目标检测之YOLOv2

Dreamer

Java键值对排序

ilovealt

Java

第15周作业

Vincent

极客时间 极客大学

第二章学习笔记

博博

架构师训练营第 1 期 - 第七周作业

Todd-Lee

极客大学架构师训练营

架构师训练营 1 期第 7 周:性能优化(一)- 作业

piercebn

极客大学架构师训练营

Spring Data Jpa deleteAll大概了解

ilovealt

Java jpa

Netty源码解析 -- PoolChunk实现原理

binecy

源码 Netty 内存布局

Spring+多线程+集合+MVC+数据结构算法 +MyBatis源码学习笔记分享

Java架构之路

Java 程序员 架构 面试 编程语言

GitHub上最火的SpringCloud微服务商城系统项目,附全套教程

Java架构之路

Java 程序员 架构 面试 编程语言

单例模式样例

jorden wang

读完Java名著《Effective Java》: 我整理了这50条技巧

Java架构之路

Java 程序员 架构 面试 编程语言

囚徒困境:跳脱思维的牢笼

多元思维力-晓陶

认知 思维 多元思维力

第二章课后习题

博博

week3 代码重构 学习总结

杨斌

一定要偷偷学,偷偷进步!腾讯内部首发Java多线程、高并发、设计模式“满级”笔记

Java架构追梦

Java 架构 面试 设计模式 多线程与高并发

爆火!阿里P9用500多页手册搞定双十一高并发秒杀系统,绝了

996小迁

Java 架构 面试 高并发 秒杀系统

Week3 - 代码重构

evildracula

学习 架构

LeetCode题解:231. 2的幂,位运算取二进制中最右边的1,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

Fedora32安装和卸载openjdk11

ilovealt

Linux Openjdk

全链路压测在信用卡行业的实践

DrawDe朱

全链路压测

查漏补缺:166个最常用的Linux命令,哪些你还不知道?

小Q

Java Linux 程序员 操作系统 开发

架构师训练营 1 期第 7 周:性能优化(一)- 总结

piercebn

极客大学架构师训练营

架构师训练营第三周作业

邢永春

「架构师训练营」第 3周作业

小黄鱼

极客大学架构师训练营

第7周总结

alpha

极客大学架构师训练营

OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首_AI 工程化_InfoQ精选文章