写点什么

使用 Amazon Textract 和 Amazon Comprehend Medical 实现无服务器化的医疗文档分析(二)

2020 年 1 月 09 日

使用 Amazon Textract 和 Amazon Comprehend Medical 实现无服务器化的医疗文档分析(二)

实际测试

Amazon Textract 接受三种数据类型:


  • jpeg

  • png

  • pdf


通过 AWS 管理控制台上传

  1. 使用拥有 Amazon S3 上传权限的用户登录 AWS 管理控制台

  2. 进入到相应的 S3 存储桶 (medical-report-analysis-<unique_identifier>)

  3. 进入到 input 目录,点击“上传”并选择相应的文件


通过 AWS CLI 上传

  • 运行如下命令进行上传:


Python


aws s3 cp <medical report>.png s3://medical-report-analysis-<unique_identifier>/input/<medical report>.png
复制代码


关于如何配置 AWS CLI,参考如下链接:


验证结果

在相应目录中会看到对应的输出文件,如下:


  • input:.png

  • manual:/manual.txt

  • medical:/medicalreport.txt

  • phi:/phi.txt

  • raw:

  • /medicalraw.txt

  • /raw.json

  • result:

  • /medicalresult.txt


如下示例:



小结

通过使用 Amazon Textract 和 Amazon Comprehend Medical,可以大大简化医学报告整理和针对性内容采集的工作量,医疗行业客户可以把更多精力致力于医学研究。


场景限制

  • 整体架构目前只能用于 AWS Global 账号体系,AWS China 暂时还没有这两个服务。

  • 目前 Amazon Textract 和 Amazon Comprehend Medical 都暂时只支持对于英语文本的语义分析。

  • 目前 Amazon Comprehend Medical 对于输入文档有 20,000 字节的大小限制。如果输入文档较大的话暂时无法直接使用 Amazon Comprehend Medical 对文档进行自动化语义分析。但是在使用 Amazon Textract 进行原始文档识别输出成序列化文档之后,可以通过 AWS 管理控制台将内容手动粘贴到 Amazon Comprehend Medical 中进行分析。

  • 在使用 Amazon Textract 中,目前默认识别为 Form 的格式;而 Amazon Textract 还有一种 Table 格式暂时不在这篇分享中展开。

  • 类似场景如果需要在中国实现,可以和 AWS 的业务拓展联系,AWS 有非常完善的合作伙伴生态体系来提供各种解决方案。


优化考虑

  • 在定义 AWS Lambda 函数的 AWS IAM 权限的时候,为了简化实现,我们给了两个函数相对较宽松的权限设定;如果要实现更细颗粒度的安全管控,可以对相应 AWS IAM 角色的策略文档进行细化修改,针对于特定资源特定操作实现最小颗粒度的白名单操作。

  • 在之前 Amazon S3 存储桶的配置步骤里,我们启用了 Amazon S3 的版本控制来满足输入输出文件的多版本控制;如果希望细化结果输出为不同时期不同结果的话,可以在代码里加上相应的时间定义和输出文件格式的修改来实现这个目的。

  • 在此场景中,Amazon Textract 对于文档内容提取和识别的自信度设置为 70%,Amazon Comprehend Medical 对于文本进行语义分析的自信度设置为 60%;在将该架构运用于生产中之前,针对实际文档的清晰度和结构完整性的不同,以及对于内容输出的准确性高低差异,可以相应地在代码里调整这两个值以满足最符合实际场景的要求。


参考文档


作者介绍:


!



### [](https://amazonaws-china.com/cn/blogs/china/tag/%E5%8A%B3%E4%BD%B3%E7%90%A6/)
AWS中国团队的解决方案架构师,负责基于AWS的云计算方案架构咨询和设计,同时致力于AWS云服务在国内教育行业的应用和推广。在加入AWS之前,他曾服务与英孚教育,微软等跨国公司。劳佳琦平时热爱足球和音乐,同时也乐于和他人分享自己的各种经历。
复制代码


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/serverless-medical-document-analysis-with-amazon-textract-and-amazon-comprehend-medical/


2020 年 1 月 09 日 15:57123

评论

发布
暂无评论
发现更多内容

“3+3”看华为云FusionInsight如何引领“数据新基建”持续发展

华为云开发者社区

数据库 新基建 华为云

亿级大表分库分表实战总结(万字干货,实战复盘)

比伯

Java 编程 程序员 架构 计算机

刷Github时发现了一本阿里大神的算法笔记!标星70.5K

Java架构师迁哥

React Fiber 是什么?

局外人

react.js 前端 React

关于linux操作系统中的buff/cache

程序员架构进阶

Linux cache buffer

#不吐不快# IT职场里的奇葩经历

InfoQ写作平台官方

职场搞笑 活动专区 奇葩的经历

牛批!2w字的Java集合框架面试题精华集(2020最新版),赶紧收藏。

Java架构之路

Java 程序员 架构 面试 编程语言

从“小众”到“首选”,推动云原生产业落地华为云作用几何?

华为云开发者社区

云计算 架构 容器

多线程问的太深入不知道怎么回答,从volatile开始给你讲清楚

小Q

Java 学习 面试 volatile 多线程

数字货币交易所功能,场外OTC交易所开发公司

13530558032

数字货币钱包开发费用,区块链钱包开发优势

13530558032

云算力挖矿模式系统开发,云算力平台搭建

13530558032

usdt区块链支付系统开发,承兑支付平台搭建

WX13823153201

usdt区块链支付系统开发

拒招中国程序员后,开源平台 GitLab 又开始大规模封杀开发者账户

Java架构师迁哥

亿级大表分库分表实战总结(万字干货,实战复盘)

云流

学习 编程 架构 计算机网络

MySQL全面瓦解—子查询和组合查询

比伯

Java 编程 程序员 架构 计算机

USDT币支付系统开发搭建,区块链承兑商支付平台

13530558032

Alibaba首发的《Java技术成长笔记》,渴望提升自己的程序员的必备宝典!

Java架构之路

Java 程序员 架构 面试 编程语言

「Spring Boot 2.4 新特性」一键构建Docker镜像

AI乔治

Java Docker 架构

《精通lambda表达式:Java多核编程》.pdf

田维常

Lambda

遥感影像处理有高招,“专治”各类花式并发的述求!

华为云开发者社区

容器 k8s 遥感

覆盖全网的阿里微服务架构有多牛:K8S+实战+笔记+项目教程

马士兵老师

Java 程序员 微服务 Spring Cloud 阿里云 K8S

anyRTC AI降噪|让声音更清晰

anyRTC开发者

人工智能 AI 音视频 WebRTC RTC

企业工作流设计原则及注意事项

力软.net/java开发平台

工作流

五面进军饿了么!复盘总结11月上半月大厂面试真题,押题命中率高达95%以上

Java架构追梦

Java 阿里巴巴 架构 面试经历 面试题总结

影响王兴的一本书

池建强

读书笔记 无限游戏 王兴

从红黑树的本质出发,彻底理解红黑树!

996小迁

Java 架构 面试 程序人生

成年人的世界都不容易-看看做到年薪50万的程序员,到底有多累?

Java架构师迁哥

SQL数据库:子查询和关联子查询

正向成长

SQL子查询 SQL关联查询

【乘风破浪的开发者】丁一超:从AI实战营出发探索未知的AI世界

华为云开发者社区

华为 AI modelarts

这套JVM核心知识你要全都会,月薪还不过18K可以直接跳槽了

小Q

Java 学习 架构 面试 JVM

微服务架构下如何保证事务的一致性

微服务架构下如何保证事务的一致性

使用 Amazon Textract 和 Amazon Comprehend Medical 实现无服务器化的医疗文档分析(二)-InfoQ