AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

AI 辅助编程工具引入了全新的错误类型

  • 2025-01-22
    北京
  • 本文字数:2543 字

    阅读完需:约 8 分钟

大小:1014.02K时长:05:46
AI 辅助编程工具引入了全新的错误类型

与代码一样,机器产生的错误往往不同于人类犯下的错误。

 

当所有人都在谈论“AI”如何帮助人们解决错误时,我来分享一下 LLM 辅助编程工具是怎样给我造了一个 2024 年我找起来最费劲儿的错误吧。

 

我不会带你一起经历我“激动人心”的调试之旅,没那么多废话,咱们直奔主题。这是我在处理一些导入语句时微软 Copilot 给我引入的错误:

 

from django.test import TestCase as TransactionTestCase
复制代码

Python 的“import as”

 

这里具体是什么意思呢?先给不熟悉 Python 的读者讲一下背景,import 中的 as 关键字允许你为导入的实体赋予不同的名称。它可用于避免命名冲突,或者让代码看起来更简洁。

 

以下是 as 关键字的一些合理的用法:

# 为简洁/习惯用法:import numpy as np

# 为避免命名冲突/引入清晰度:from django.test import TestCase as DjangoTestCasefrom unittest import TestCase as RegularTestCase
复制代码

但是,上面的错误不属于这些合理的用法。事实上,这是 as 最邪恶的用法。

 

问题出在哪儿?django.test 包含多个不同的测试类,包括 TestCase 和 TransactionTestCase,它们的语义略有不同。上面那行代码导入了其中一个,但用的是另一个的名字。

 

错误解析

 

在这个例子中,两个 TestCase(正如其中一个的名称所暗示的那样)在数据库事务方面有着略微不同的语义。

 

  • TestCase 类将每个测试包装在一个事务中,并在每次测试后回滚该事务,从而提供测试隔离。

  • TransactionTestCase 类(有点令人惊讶,取决于你如何阅读这个名称)没有隐式事务管理,这使其成为依赖于应用程序的 DB 事务管理或测试其部分内容的理想测试选项。

 

那么,这里的错误在于,如果你依赖 TransactionTestCase 的语义,但实际上正在运行 Django 的默认 TestCase(因为这个奇怪的导入),那么你最终会遇到突然失败的测试。这就是发生在我身上的情况。

 

我生命中的两个小时

 

我不会让你再经历一遍我在这两个小时的调试中所遇到的一系列故障了,或者那些让我失败的测试,或者再具体讲一遍我为了避免再次陷入这个陷阱而采取的所有步骤。

 

简单总结下:在确定我的测试失败是因为数据库事务没有按应有的方式运行后,我首先在自己的代码中寻找问题,然后怀疑 Django 中存在错误,最后才发现了如上所述的这个问题。

 

我为什么开始怀疑 Django?嗯……因为我确信自己使用的是 TransactionTestCase,但从测试的行为来看,很明显 TransactionTestCase 的行为与文档中承诺的不一样。这让我怀疑 Django 中存在某种微妙的错误,然后一遍又一遍检查 Django 的源代码来排查。

 

为什么这个错误这么难发现?

 

你可能认为这个问题很容易发现,那是因为我已经在本文的第一行中给出了答案。相信我,真要自己动手去找就是另一回事了。我们来看看为什么会这样。

 

首先,请弄清楚一件事,虽然我在提交之前确实运行了测试,但我并没有在 Copilot 引入这一行后立即运行它们。所以当我终于拿到一个失败的测试时,我大约需要对比两整屏幕的文本的差异。

 

然后,我们来看看别名的使用位置。请注意,这里只是读取了 TransactionTestCase,并且精心编写的注释现在会进一步误导你,让你相信这就是你正在查看的内容。

 

class IngestViewTestCase(TransactionTestCase):# 我们使用 TransactionTestCase 的原因如下:# >Django 的 TestCase 类将每个测试包装在一个事务中,并在每次测试后回滚该事务,以提供测试隔离。这意味着程序实际上从未提交过任何事务,因此你的 on_commit() 回调将永远不会运行。# >[..]# >克服限制的另一种方法是使用 TransactionTestCase# >而不是 TestCase。这意味着你的事务已提交,并且回调将正常运行。但是[..]速度明显变慢了[..]
复制代码

 

别名误导了我,让我以为 TransactionTestCase 的用法是正确的。再加上解释 TransactionTestCase 用法的详细注释,让我浪费了很多时间去深入研究 Django 内部,而不是怀疑导入本身。

 

一个非人为错误

 

不过,让这个错误找起来这么费劲的最重要因素是,错误实在太奇怪了。

 

请注意,尽管问题是新引入的,但我花了大约两个小时来调试它。(因为我还没有提交,并且已经确定之前的提交没有问题,所以我可以运行 git diff 来查看发生了什么变化)。

 

事实上,我确实多次运行了 git diff 和 git diff --staged。但是谁会想到查看导入语句呢?导入语句是你觉得最不可能出现错误的地方。在这里你只会发现一堆最无聊、最无趣和最难变化的代码。

 

调试的前提是建立某种理解,任何理解都基于假设。一个合理的假设(LLM 出现之前)是,上述代码不可能存在,因为谁会写这样的东西?

 

你确定是 Copilot 吗?

 

是的……

 

不幸的是,我没有视频证据或对 copilot 的 MITM 请求日志来证明这一点。但 8 个月后,我依旧可以根据某些条件重现这个情况:

from django.test import Te... # copilot autocomplete finishes this as:from django.test import TestCase as TransactionTestCase
复制代码

因为我知道这个导入语句下方的代码包含 TransactionTestCase 的一些用途,但没有 TestCase 的用途,所以我可以明白一台经过填空训练的机器是怎样输出这么一行代码的。也就是说,对于某些合理的定义,这是合理的。

 

但人类没有合理的理由来写出这样的一行代码。它不是惯用的,它不是一种常见的模式,也不是一个好主意。这就让 copilot 成为了唯一合理的嫌疑人。

 

Copilot 引发的“坠机事故”

 

AI 辅助编程工具引入了全新的错误类型。

 

经验丰富的开发人员了解自己的故障模式,以及其他人的故障模式(如初级开发人员)。但 AI 为这种组合增加了一种新的故障。它自信地制造了我们从未预料到的错误,比如上面的 import 语句。

 

当我们依赖 AI 辅助编程时,我们遇到的错误并不总是我们自然而然就能预料到的。相反,它们反映了 AI 的某些怪癖,为我们的工作流程引入了新的不可预测性。对我个人而言,工具总体来说还是利大于弊,但重点在于要注意 AI 可能引入的新类型的错误。

 

那么标题中的“Copilot 引发的坠机事故”是什么意思呢?好吧,这有点像个玩笑。这个错误是由 Copilot 引入的,但这里程序并没有真的崩溃(我从未提交过这段代码)。但考虑到“Copilot”这个词的意思就是“副驾驶”,所以继续使用飞机失事的比喻实在太诱人了。

 

原文链接:

 

https://www.bugsink.com/blog/copilot-induced-crash/

2025-01-22 10:186832

评论

发布
暂无评论

保姆级教程,小白也能2周搞定3个月的Web开发任务!

博文视点Broadview

比POSTMAN更好用!在国产接口调试工具APIPOST中使用Mock

Proud lion

大前端 后端 Postman 开发工具 接口文档

如何支持亿级用户分流实验?AB实验平台在爱奇艺的实践

爱奇艺技术产品团队

测试 开发 精准测试 AB testing实战

阿里P8大牛耗费三年整理的:Java架构之完美设计实战PDF

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

APP DIFF自动化解决方案

爱奇艺技术产品团队

测试 开发 精准测试 Diff i技术会

阿里内部推出Spring响应式微服务Boot2Cloud文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

膜拜!阿里内部都在强力进阶学习springboot实战派文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

堡垒机和防火墙的三大区别分析-行云管家

行云管家

网络安全 防火墙 信息安全 数据安全 堡垒机

金九银十给我疯狂内卷!GitHub再现星标86K面试手册,37K!妥妥的

Java~~~

Java 架构 面试 算法 JVM

终于有人把操作系统,CPU,基础知识,网络一次讲清楚了,绝绝子

Java~~~

Java 架构 面试 TCP 网络

你还在认为TypeScirpt 是 AnyScript ?

程序员海军

typescript 大前端 javascri

最佳实践 | 单元测试+回归测试在SRS代码提交中的实践总结

腾讯云音视频

SRS

小数据与业务的毛细血管

boshi

大数据 深度思考

今天我们来谈谈Golang的同步等待组

Regan Yue

Go 语言 8月日更 同步等待组

使用接口文档快照机制,让接口文档不在频繁变动

CodeNongXiaoW

大前端 测试 后端 接口文档

算法推荐规制!《互联网信息服务算法推荐管理规定(征求意见稿)》公开征求意见

郑州埃文科技

惊!阿里大佬珍之若宝的最强高并发pdf,竟然被上传GitHub开源

Java 编程 架构 面试 程序人生

Alibaba新产!Spring+SpringBoot+SpringCloud全家桶进阶小册

Java~~~

Java spring 架构 面试 Spring Cloud

模块六作业

燕燕 yen yen

架构实战营

基于 Formily 的表单设计器实现原理分析 ​

全象云低代码

JavaScript 低代码开发 表单设计

秋招开局痛击!迷惑的阿里三面反手一个感谢信,最终被字节捞起

编程susu

Java 编程 面试 计算机 技术宅

👊【SpringCloud技术专题】超级详细的Gateway网关的技术指南

码界西柚

网关 SpringcloudGateway SpringCloud Gateway 8月日更

开源应用中心|这款纯手工打造的开源博客平台,大佬们都在用!

开源

疫情小区离你有多远,百度地图告诉你

百度开发者中心

最佳实践 百度地图

超实用?HUAWEI高工总结出15W字的图解计算机操作系统指南手册

Java~~~

Java 架构 面试 TCP 网络

字节再次出圈!GitHub上爆火一星期的算法刷题手册竟出自这人之手

Java~~~

Java 架构 面试 算法 数据结构与算法

这一次!我在百度告诉你,当你请求百度时都发生了什么...

程序员 架构 面试 计算机

是的你没看错,HTTP3来了

程序那些事

HTTP 程序那些事 http3

阿里P8大牛终于整理完了564页大话java性能优化神仙文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

常用正则表达式最强汇总(含Python代码举例讲解+爬虫实战)

Python研究者

8月日更

Shopee物流业务核心数据库架构演变——权衡取舍的艺术

Shopee技术团队

架构 #数据库 #物流 #供应链 #Shopee

AI 辅助编程工具引入了全新的错误类型_AI&大模型_Klaas van Schelven_InfoQ精选文章