写点什么

ChatGPT 又遇“克星”!OpenAI 发布全新 AI 内容识别工具,成功率 26%

  • 2023-02-20
    北京
  • 本文字数:1017 字

    阅读完需:约 3 分钟

ChatGPT又遇“克星”!OpenAI发布全新AI内容识别工具,成功率26%

过去几个月,由人工智能实验室OpenAI发布的对话式大型语言模型ChatGPT在全球范围内掀起狂热之风。为了帮助用户判断哪些内容是由 ChatGPT 生产的,包括 OpenAI、斯坦福大学等多家机构开始研究相应的AI内容识别工具

 

近日,OpenAI 推出一个经过训练的分类器,用以区分文本是否是由 AI 编写的。据其介绍,该分类器虽然不可能可靠地检测所有 AI 编写的文本,但能够通过提供信息来减少 AI 生成式文本是由人工编写的误判:例如,执行自动虚假内容营销,利用 AI 工具进行学术欺诈,以及将 AI 聊天机器人定位为人类。

 

据悉,该分类器是一种语言模型,该模型对基于同一主题的人工编写文本和 AI 编写文本的数据集进行不断调整。OpenAI 从人工编写的各种来源收集数据集,例如预训练数据以及提交到 InstructionGPT 的各种人工的演示,将每个文本分为提示和响应。根据提示,可以从分类器以及其他组织训练的各种不同语言模型中生成响应。OpenAI 调整了 Web App 的置信度阈值,可以保持较低的误报率。换句话说,只有分类器非常有把握的时候,才会将文本标记为可能是 AI 编写的。

 

目前,该分类器的准确性还很低。据悉,OpenAI 对英语文本“Challenge Set”进行了评估,分类器正确地将 26% AI 编写的文本(真阳性)识别为“可能是 AI 编写的”,而错误地将 9% 人工编写的文本标记为 AI 编写的(假阳性)。

 

OpenAI 表示,目前该分类器仍存在局限性,所以不应该将它作为主要决策工具,而应该作为确定文本来源的其他方法的补充。具体来说:

  1. 分类器在短文本(1,000 个字符以下)上非常不可靠。甚至更长的文本有时也会被错误标记。

  2. 有时,人工编写的文本会被错误但自信地标记为 AI 编写。

  3. 建议仅对英语文本使用分类器。它在其他语言中的表现明显较差,代码不是很有效。

  4. 无法可靠地识别已经十分确定的文本。例如,无法预测前 1,000 个素数的列表是 AI 还是人写的,因为谁来写都是一样的。

  5. 编辑 AI 编写的文本可以避开分类器。虽然所有类似的分类器可以通过成功的检测来更新算法并重新训练,但目前还不清楚这种检测是否可以具有长期优势。

  6. 众所周知,基于神经网络的分类器除了训练数据外的其它的校准效果很差。如果输入的文本与训练集中的非常不一样,分类器多半会得到错误的预测。

 

OpenAI 认为,分类器的可靠性,通常会随着输入文本长度的增加而提高。与 OpenAI 此前发布的分类器相比,新的分类器对来自最新 AI 系统编写的文本会更加有效。


参考链接:

https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text/


2023-02-20 15:575112

评论

发布
暂无评论
发现更多内容

高仿瑞幸小程序 08 创建第一个云函数

曾伟@喵先森

小程序 微信小程序 大前端 移动

需求是被挖掘还是被创造出来的?

Neco.W

产品 互联网 需求

我为什么要开启InfoQ写作

Nick

ThreadLocal到底会不会内存泄漏?实战直接告诉你答案!

刘超

Java 多线程 ThreadLocal

Tomcat安全配置

wong

Tomccat security

前浪的经验:区块链软件,一定也要去中心化

WasmEdge

比特币 区块链 智能合约 以太坊 加密货币

初探Electron,从入门到实践

葡萄城技术团队

大前端 Electron SpreadJS

Android10版本引发的生产故障及安全知识归纳

大刘

android https TLS 加解密

AtomicStampedReference是怎样解决CAS的ABA问题

捉虫大师

Java

故障的传播方式与隔离办法

Wales Kuo

由纪念日想到杨德昌

Elizen

随笔 电影

线程通信知识点扫盲!

Simon郎

Java 后端 多线程

怀念小时候吗?

安静的下雪天

个人感想

全面解读信创行业 关注国产操作系统

统小信uos

操作系统

原创 | 使用JUnit、AssertJ和Mockito编写单元测试和实践TDD (六)测试哪些内容:Right-BICEP

编程道与术

Java 编程 软件测试 TDD 单元测试

一文读懂阿里云通信的产品体系、技术架构与智能化应用场景实践

阿里云Edge Plus

人工智能 云通信 短信 语音 智能联络中心

定在下午面试的那位候选人,说他不来了

Geek_6rptuk

团队管理 面试 简历优化 招聘

一杯茶的时间,上手 React 框架开发

图雀社区

Reac

油管博主路透 3080Ti 参数、黄教主烤箱中拿出 DGX A100 预热发布会

神经星星

人工智能 互联网巨头 gpu 互联网 英伟达

如何快速更改qcow2镜像文件

奔跑的菜鸟

云计算

谈谈控制感(3):让孩子更好地成长

史方远

心理学 控制感 教育

Flink Weekly | 每周社区动态更新

Apache Flink

大数据 flink 流计算 实时计算

什么是工作

史方远

随想 工作

选择适合自己的 OLAP 引擎

程序员小陶

大数据 开源 OLAP

物联网技术栈之网关技术

老任物联网杂谈

物联网网关

全球经济动荡下,超流币逆袭而来!

极客编

ZigBee3.0 节点入网流程分析

taox

网络协议

游戏夜读 | 关卡设计为什么难?

game1night

猿灯塔-Phaser 使用介绍

猿灯塔

终于有一款组件可以全面超越Apache POI

葡萄城技术团队

前后端分离 服务端 GrapeCity Documents

回顾经典,Netflix的推荐系统架构

王喆

人工智能 学习 推荐系统 netflix

ChatGPT又遇“克星”!OpenAI发布全新AI内容识别工具,成功率26%_文化 & 方法_凌敏_InfoQ精选文章