速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

ChatGPT 又遇“克星”!OpenAI 发布全新 AI 内容识别工具,成功率 26%

  • 2023-02-20
    北京
  • 本文字数:1017 字

    阅读完需:约 3 分钟

ChatGPT又遇“克星”!OpenAI发布全新AI内容识别工具,成功率26%

过去几个月,由人工智能实验室OpenAI发布的对话式大型语言模型ChatGPT在全球范围内掀起狂热之风。为了帮助用户判断哪些内容是由 ChatGPT 生产的,包括 OpenAI、斯坦福大学等多家机构开始研究相应的AI内容识别工具

 

近日,OpenAI 推出一个经过训练的分类器,用以区分文本是否是由 AI 编写的。据其介绍,该分类器虽然不可能可靠地检测所有 AI 编写的文本,但能够通过提供信息来减少 AI 生成式文本是由人工编写的误判:例如,执行自动虚假内容营销,利用 AI 工具进行学术欺诈,以及将 AI 聊天机器人定位为人类。

 

据悉,该分类器是一种语言模型,该模型对基于同一主题的人工编写文本和 AI 编写文本的数据集进行不断调整。OpenAI 从人工编写的各种来源收集数据集,例如预训练数据以及提交到 InstructionGPT 的各种人工的演示,将每个文本分为提示和响应。根据提示,可以从分类器以及其他组织训练的各种不同语言模型中生成响应。OpenAI 调整了 Web App 的置信度阈值,可以保持较低的误报率。换句话说,只有分类器非常有把握的时候,才会将文本标记为可能是 AI 编写的。

 

目前,该分类器的准确性还很低。据悉,OpenAI 对英语文本“Challenge Set”进行了评估,分类器正确地将 26% AI 编写的文本(真阳性)识别为“可能是 AI 编写的”,而错误地将 9% 人工编写的文本标记为 AI 编写的(假阳性)。

 

OpenAI 表示,目前该分类器仍存在局限性,所以不应该将它作为主要决策工具,而应该作为确定文本来源的其他方法的补充。具体来说:

  1. 分类器在短文本(1,000 个字符以下)上非常不可靠。甚至更长的文本有时也会被错误标记。

  2. 有时,人工编写的文本会被错误但自信地标记为 AI 编写。

  3. 建议仅对英语文本使用分类器。它在其他语言中的表现明显较差,代码不是很有效。

  4. 无法可靠地识别已经十分确定的文本。例如,无法预测前 1,000 个素数的列表是 AI 还是人写的,因为谁来写都是一样的。

  5. 编辑 AI 编写的文本可以避开分类器。虽然所有类似的分类器可以通过成功的检测来更新算法并重新训练,但目前还不清楚这种检测是否可以具有长期优势。

  6. 众所周知,基于神经网络的分类器除了训练数据外的其它的校准效果很差。如果输入的文本与训练集中的非常不一样,分类器多半会得到错误的预测。

 

OpenAI 认为,分类器的可靠性,通常会随着输入文本长度的增加而提高。与 OpenAI 此前发布的分类器相比,新的分类器对来自最新 AI 系统编写的文本会更加有效。


参考链接:

https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text/


2023-02-20 15:574950

评论

发布
暂无评论
发现更多内容

主流实时流处理计算框架Flink初体验

百思不得小赵

大数据 flink 7月月更

这样的商城系统全开源免费商用,还要什么自行车!

CRMEB

【Python技能树共建】requests-html库初识

梦想橡皮擦

7月月更

6年技术迭代,阿里全球化出海&合规的挑战和探索

阿里技术

阿里巴巴 最佳实践 方法论 全球化

云原生到底是什么?它会是未来发展的趋势吗?

Albert Edison

7月月更

兼容10个浏览器HTML头部配置

写程序的小王叔叔

html 浏览器 浏览器插件 7月月更

hive数据导入:文件导入

怀瑾握瑜的嘉与嘉

大数据 hive 7月月更

超90万个K8S实例可被发现暴露在公网上,14%位于中国

SEAL安全

安全

面试必答题“聊聊Java中线程的生命周期状态”如何破?

博文视点Broadview

密码学进阶(一):浅谈常见的七种加密算法及实现

No Silver Bullet

加密 文本摘要 数字签名 7月月更

《你的灯亮着吗》开始解决问题前,得先知道“真问题”是什么

图灵教育

2022上半年英特尔有哪些“硬核创新”?看这张图就知道了!

科技之家

Ubuntu环境编译OpenJDK11源码

程序员欣宸

Java Openjdk 6月月更

无需zookeeper安装kafka集群(kakfa3.0版本)

字母哥哥

大数据 kafka 消息队列

软件产品管理平台有哪些?12个最佳产品管理工具盘点

爱吃小舅的鱼

产品经理 产品管理 PingCode

【LeetCode】找树左下角的值Java题解

Albert

LeetCode 7月月更

Fiori 应用通过 Adaptation Project 的增强方式分享

汪子熙

前端开发 SAP Fiori SAP UI5 7月月更

从MLPerf谈起:如何引领AI加速器的下一波浪潮

OneFlow

人工智能 深度学习 加速器

8款最佳实践,保护你的 IaC 安全!

SEAL安全

安全 IaC

学会使用LiveData和ViewModel,我相信会让你在写业务时变得轻松🌞

编程的平行世界

JetPack Andriod

2022 · 让我带你Jetpack架构组件从入门到精通 — Lifecycle

编程的平行世界

an'droid android jetpack

远程办公如何保持高效协同,实现项目稳定增长 |社区征文

三掌柜

初夏征文 7月月更

架构实战营 模块九:设计电商秒杀系统

热猫

架构实战营 毕业总结

热猫

DBPack 赋能 python 微服务协调分布式事务

峨嵋闲散人

分布式事务 分库分表 读写分离 seata dbmesh

当你真的学会DataBinding后,你会发现“这玩意真香”!

编程的平行世界

JetPack andiod

数据中台咋就从“小甜甜”变成了“牛夫人”?

雨果

数据中台

手把手带你快速入门Electron

是乃德也是Ned

7月月更

投稿开奖丨轻量应用服务器征文活动(5月)奖励公布

阿里云弹性计算

nginx OSS MySQL 数据库 轻量征文

rxjs Observable of 操作符的单步调试分析

汪子熙

typescript 前端开发 angular RXJS 7月月更

Go Web 编程入门:一探 GoConvey 测试库

宇宙之一粟

Go web Go 语言 7月月更

ChatGPT又遇“克星”!OpenAI发布全新AI内容识别工具,成功率26%_文化 & 方法_凌敏_InfoQ精选文章