写点什么

OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首

作者:GruAI

  • 2024-09-09
    北京
  • 本文字数:692 字

    阅读完需:约 2 分钟

大小:357.16K时长:02:01
OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首

在 9 月 3 日,Gru.ai 在 SWE-Bench-Verified 评估最新发布的数据中以 45.2% 的高分排名第一。SWE-Bench-Verified 是 OpenAI 联合 SWE 发布测试集,旨在更可靠的评估 AI 解决实际软件问题的能力。该测试集经由人工验证打标,被认为是评估 AI 软件工程能力的最权威标准。



本次参评登顶的 Coding Agent 是来自 Gru.ai 的 Bug Fix Gru。根据 Gru 团队的博客,他们提供给 Bug Fix Gru 完整的运行环境及丰富的开发工具,这是获取高分的基础,而工作流程,多模态支持,Rag 能力的添加都有效提高了得分。值得关注的是,Gru 团队着重提到了他们有一个评估流程来评估任何改动带来的影响。


Gru.ai 是一家提供软件工程 Agent(智能体)的公司,提供四种 Agent:

  • Assistant Gru:帮助用户解决独立的技术问题,该产品可直接在网站注册使用。

  • Test Gru:基于用户代码补全单测的 Agent,目前该产品仅面相企业开放。

  • Bug Fix Gru:基于 Github Issue,直接提交 Patch,目前该产品仅面向企业开放。

  • Babel Gru:基于技术文档生成软件,目前该产品仍处于实验室阶段。


Gru 在今年一月披露了一笔 550 万美金的融资,投资方为云九资本和峰瑞资本。在 2023 年到 2024 年两年间,国际上大量的资金涌入代码 Agent 领域,如 Devin、Cosine.sh、Factory、Codium.ai 等,但国内针对软件工程领域 AI 的投资仍然较少。Gru 团队拥有丰富的软件工程和 AI 实践经验,CEO 张海龙曾是开源中国及 Coding.net 创始人。


随着资金和大公司的视线逐步从大模型转向上层应用,AI 行业的主要进步方向已经开始转向处理复杂精密的任务,而非简单的生成文本内容。而 Gru.ai 的成功登顶,标志着国人团队在 Agent 领域的工程技术能力处于第一梯队。

2024-09-09 14:595529

评论

发布
暂无评论
发现更多内容

Go语言内存管理三部曲(一)内存分配原理

网管

内存管理 内存布局 Go 语言

五年Java开发经验,4面阿里成功拿下offer,分享一下个人面经!

Java架构之路

Java 程序员 面试 算法 编程语言

医院HIS故障,险引发人命关天大危机,竟被程序员轻松解决!

Marilyn

架构师训练营第 1 期 第 4 周作业

李循律

极客大学架构师训练营

商业智能(Business Intelligence)系统的使用及设计原则

Marilyn

敏捷开发 快速开发 商业智能

标本兼治,程序员用它整体提升公司效率

Marilyn

敏捷开发 快速开发

架构师训练营 1 期第 4 周:系统架构 - 作业

piercebn

极客大学架构师训练营

低代码开发平台,来自“未来”的软件开发方案

Marilyn

敏捷开发

JAVA代码生成器,快速开发平台之魂

Marilyn

Java 敏捷开发 快速开发 开发工具

GitHub 上开源了一个很邪恶的项目!女生勿近,18香警告...

程序员生活志

快速开发平台,程序员“老师傅”必备

Marilyn

敏捷开发 快速开发 开发工具

MySQL-技术专题-性能优化—索引篇

洛神灬殇

JAVA & VUE ,分离式开发平台建造思路

Marilyn

Java Vue 敏捷开发

Go发起HTTP2.0请求流程分析(前篇)

Gopher指北

HTTP HTTP2.0 Go 语言

Vidyo的解决方案到底是什么?有哪些特点?

dwqcmo

音视频 集成架构 解决方案 智能硬件

摆脱复杂烧脑的程序代码,利用快速开发平台轻轻松松做软件

Marilyn

敏捷开发 快速开发

spring-boot-route(十三)整合RabbitMQ

Java旅途

Java Spring Boot RabbitMQ

大企内部软件系统反复故障难以解决,业内人士:唯有彻底更换

Marilyn

敏捷开发 快速开发 开发工具

智能时代,快速开发平台将成为主流软件开发工具

Marilyn

敏捷开发

企业开发遇到瓶颈,何不换个新思路?快速开发了解一下

Marilyn

敏捷开发 快速开发

JVM-技术专题-深入理解内存结构

洛神灬殇

Java JVM

阿里内部《Java架构进阶宝典》,总结了基础、进阶、架构三个阶段的知识点

Java架构之路

Java 程序员 面试 算法 编程语言

XJR企业级软件快速开发平台规范

Marilyn

程序员 敏捷开发 软件设计

有一说一,大型信息化企业的软件系统,还是用自研的好

Marilyn

敏捷开发 快速开发 开发工具 软件设计

用友政务表格技术应用开发实践:预算一体化产品核心功能搭建

葡萄城技术团队

SpreadJS 用友

Redis Sharding集群跟一致性哈希有什么瓜葛?

Man

一致性哈希 Jedis redis cluster

阿里面试官纯手打:金九银十跳槽必会Java核心知识点笔记整理

Java架构追梦

Java 数据库 架构 面试 微服务

深入分析软件快速开发平台与传统软件开发方案的优缺点

Marilyn

敏捷开发

快速开发平台,高集成易扩展,进入软件疾速开发新世代

Marilyn

敏捷开发 快速开发 开发工具

为什么巨头都在布局SaaS生态?

ToB行业头条

SASS

TensorFlow 篇 | TensorFlow 2.x 基于 Keras 的模型保存及重建

Alex

tensorflow keras model save model restore tensorflow hub

OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首_AI 工程化_InfoQ精选文章