InfoQ Geekathon 大模型技术应用创新大赛 了解详情
写点什么

机器学习准确性浅谈

  • 2019-10-21
  • 本文字数:1769 字

    阅读完需:约 6 分钟

机器学习准确性浅谈

本博文将简单谈谈与机器学习准确性和偏见相关的问题。


首先,我们看一下最近一篇 ACLU(美国公民自由协会)博客中对 ACLU 开展面部识别实验的一些评论。ACLU 利用 Rekognition 技术,在 25000 张公开的逮捕照片基础上构建了一个面部数据库,然后用所有现任国会议员的公开照片在该数据库中执行面部相似性搜索。结果发现,在 80% 置信度下,535 次搜索中 28 次错误匹配;错误判断率(有时也称为“误报率”)为 5%,准确率为 95%。ACLU 尚未详细公布他们使用的数据集、方法或结果,因此我们只能分析他们已公开的信息。通过他们的声明,我们得到了以下见解:


  1. Rekognition 中面部识别 API 的默认置信度阈值为 80%,对于宽泛的常规使用案例(例如,在社交媒体中识别名人,或在照片应用程序中识别相像的家庭成员),这样的置信度表现不错,但是在公共安全使用案例中,这样的置信度不太合适。ACLU 使用的 80% 置信度阈值过低,无法保证准确的个体识别;在这样的置信度下,我们很有可能看到误报。 如果使用案例对面部相似度匹配的精确要求非常高(如我们的公开文档中所述),我们建议使用 99% 的置信度。为了说明置信度阈值对误报率的影响,我们基于包含学术界 850000 多张常用面孔的数据集创建了一个面孔集合,并执行了一项测试。然后,我们用与 ACLU 博客中所讲的类似方法,在这个集合中搜索了所有美国国会成员(包括参议院和众议院成员)的公开照片。将置信度设置为 99%(根据我们文档中的建议)后,错误判断率降低到了 0%,注意,我们比较的面孔语料库比 ACLU 大得多(面孔数是 ACLU 测试中的 30 倍)。这说明了对于运用技术来解决公共安全问题的人士来说,选择合适的置信度有多么重要,这样可以把误报率(如果有)降到最低。

  2. 在现实的公共安全和执法情景中,Amazon Rekognition 几乎专门用于缩小审查范围,来帮助加快人工审查速度并让相关人员能够结合自身判断力来考虑各种方案(而不是完全独立地做决策),这对寻找走失的儿童、打击人口拐卖,以及预防犯罪大有助益。 Rekognition 一般只是个体识别过程中的第一环。在其他使用案例中(例如,社交媒体),没必要进行像上面那样仔细的检查,因此置信度阈值可以低一些。

  3. 导致 Rekognition 结果存在极大偏差的原因,除了设置的置信度阈值过低之外,还包括使用的面部数据库未能准确代表对应人员,也就是数据库本身就存在偏差。 在 ACLU 的案例中,他们使用的是由嫌疑犯“大头照”组成的面部数据库,这极大影响了 Rekognition 比对结果的准确性。

  4. 基于云的机器学习应用程序(例如 Rekognition)的优势在于,随着我们基于更多数据改善算法,它们也会不断改进。 这些改进能为客户带来立竿见影的收益。 我们将继续专注于自身使命:把 Rekognition 打造成超准确识别人物、对象和场景的强大工具。当然,这一定要确保识别的结果中不存在任何影响准确性的偏见。 通过运用 Rekognition 来打击人口拐通过运用 Rekognition 来打击人口拐卖、寻回走失的儿童、减少移动支付欺诈,以及提升安全性,我们已经为客户和全世界创造了巨大价值,我们也热切期盼着未来能够继续利用 Rekognition 为客户和社会大众创造更大价值。

  5. 对于面部识别,人们有一种普遍误解,认为人工识别面部的能力强于机器。 实际上,美国国家标准技术研究所 (NIST) 近期分享的一份面部识别技术研究结果显示,即便是比 Rekognition 一流技术落后至少两年的面部识别技术,其效果也优于人工识别。


下面对 ACLU 结果误判的情况做一下总结。 面临新的技术进步,所有人都必须清楚了解它实用的一面和不实用的一面。就使用机器学习来识别食物,以及使用机器学习来根据面部匹配结果考虑是否有必要采取执法行动而言,两者存在差异。后者相当严肃,所需的置信度要比前者高得多。在将匹配结果用于执法用途的情景中,我们仍然建议客户采用不低于 99% 的置信度,并且除了这些匹配结果,各机构还应考虑其他有意义的参考信息。不过,机器学习的确是很有价值的工具,能够为执法结构带来很大助益。虽然我们担心它的结果可能有误,但就拿烤箱来说,我们总不能因为掌握不好火候而烤糊披萨,就把烤箱扔掉吧。合理的做法应该是,政府权衡并为执法机构指定适当的“火候”(或置信度),来协助他们开展公共安全工作。


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/thoughts-on-machine-learning-accuracy/


活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2019-10-21 08:00516

评论

发布
暂无评论
发现更多内容

2 w字长文带你深入理解线程池

Java架构师迁哥

区块链有了几个新“标准”!

CECBC

区块链 版权保护

美国区块链政策大盘点

CECBC

区块链 政策 货币

HTTPDNS开源 Android SDK,赋能更多开发者参与共建

移动研发平台EMAS

android 阿里云 开源 httpdns 移动研发平台

数据结构与算法系列之递归(GO)

书旅

数据结构与算法 Go 语言

云图说|多模态AI开发套件HiLens Kit:超强算力彰显云上实力

华为云开发者联盟

人工智能 开发者 物联网 机器人 华为云

双11购物节国外剁手党同狂欢 阿里云视频云电商直播实时字幕

阿里云视频云

云直播 直播 直播带货 语音识别

《精通Tomcat:Java Web应用开发、框架分析与案例实战》.pdf

田维常

tomcat

Pulsar Summit Asia 2020 | 主题演讲:大咖呈现,紧扣社区

Apache Pulsar

大数据 开源

Dubbo-go Client端调用服务过程

apache/dubbo-go

dubbo dubbo-go dubbogo

亲测三遍!8步搭建一个属于自己的网站

华为云开发者联盟

MySQL Linux 开发者 网站 华为云

阿里大牛说:你凭什么搞不懂SpringBoot,Cloud,Nginx与Docker

小Q

Java 学习 编程 架构 面试

架构师训练营第八周

我是谁

极客大学架构师训练营

文科妹子都会用 GitHub,你这个工科生还等什么

沉默王二

GitHub

企业级软件的核心价值

Philips

敏捷开发 企业应用

握草!美团P8整理的280页超详细Docker实战文档简直太香了,让你对如日中天的Docker有更深入的了解。

Java架构之路

Java 程序员 架构 面试 编程语言

IMC总决赛精彩对战应接不暇,英特尔酷睿极致性能燃爆比赛现场!

E科讯

手把手教你本地 k8s 集群搭建云原生 Tekton CICD 流水线

比伯

Java 大数据 编程 架构 计算机

一个技术总监的忠告:精通那么多技术,你为何还是受不到重用?

四猿外

程序人生 技术管理 加薪 职场成长 源码阅读

低代码开发平台核心功能设计——组件自定义交互实现

徐小夕

大前端 编辑器 H5 大屏可视化 lowcode

接口文档生成详细教程

测试人生路

接口文档

JVM真香系列:方法区、堆、栈之间到底有什么关系

田维常

Java JVM 堆栈 方法区 Java虚拟机

加快脑动脉瘤检测,AI来了

华为云开发者联盟

人工智能 学习 算法 华为云 医疗AI

java-File对象

Isuodut

数字投票时代即将到来

CECBC

数字投票

LeetCode题解:剑指 Offer 22. 链表中倒数第k个节点,双指针,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

轻松云上揽胜中华,靠的就是这份聪明的“地图”!

华为云开发者联盟

MySQL 数据库 postgresql AI 地图

这份笔记我必啃完!美团T9首发内部JVM高级特性笔记,差距不止一点点

Java架构追梦

Java 源码 架构 面试 JVM

祝贺 StreamNative 团队成员 Jennifer 当选 Apache Pulsar PMC 成员

Apache Pulsar

大数据 开源 Apache Pulsar

【Swift实现代码】iOS架构模式之MVP

码爷

ios swift 架构

Flutter Bloc模式

码爷

flutter ios 程序员

  • 扫码添加小助手
    领取最新资料包
机器学习准确性浅谈_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章