实际测试
Amazon Textract 接受三种数据类型:
jpeg
png
pdf
通过 AWS 管理控制台上传
使用拥有 Amazon S3 上传权限的用户登录 AWS 管理控制台
进入到相应的 S3 存储桶 (medical-report-analysis-<unique_identifier>)
进入到 input 目录,点击“上传”并选择相应的文件
通过 AWS CLI 上传
运行如下命令进行上传:
Python
关于如何配置 AWS CLI,参考如下链接:
验证结果
在相应目录中会看到对应的输出文件,如下:
input:.png
manual:/manual.txt
medical:/medicalreport.txt
phi:/phi.txt
raw:
/medicalraw.txt
/raw.json
result:
/medicalresult.txt
如下示例:
小结
通过使用 Amazon Textract 和 Amazon Comprehend Medical,可以大大简化医学报告整理和针对性内容采集的工作量,医疗行业客户可以把更多精力致力于医学研究。
场景限制
整体架构目前只能用于 AWS Global 账号体系,AWS China 暂时还没有这两个服务。
目前 Amazon Textract 和 Amazon Comprehend Medical 都暂时只支持对于英语文本的语义分析。
目前 Amazon Comprehend Medical 对于输入文档有 20,000 字节的大小限制。如果输入文档较大的话暂时无法直接使用 Amazon Comprehend Medical 对文档进行自动化语义分析。但是在使用 Amazon Textract 进行原始文档识别输出成序列化文档之后,可以通过 AWS 管理控制台将内容手动粘贴到 Amazon Comprehend Medical 中进行分析。
在使用 Amazon Textract 中,目前默认识别为 Form 的格式;而 Amazon Textract 还有一种 Table 格式暂时不在这篇分享中展开。
类似场景如果需要在中国实现,可以和 AWS 的业务拓展联系,AWS 有非常完善的合作伙伴生态体系来提供各种解决方案。
优化考虑
在定义 AWS Lambda 函数的 AWS IAM 权限的时候,为了简化实现,我们给了两个函数相对较宽松的权限设定;如果要实现更细颗粒度的安全管控,可以对相应 AWS IAM 角色的策略文档进行细化修改,针对于特定资源特定操作实现最小颗粒度的白名单操作。
在之前 Amazon S3 存储桶的配置步骤里,我们启用了 Amazon S3 的版本控制来满足输入输出文件的多版本控制;如果希望细化结果输出为不同时期不同结果的话,可以在代码里加上相应的时间定义和输出文件格式的修改来实现这个目的。
在此场景中,Amazon Textract 对于文档内容提取和识别的自信度设置为 70%,Amazon Comprehend Medical 对于文本进行语义分析的自信度设置为 60%;在将该架构运用于生产中之前,针对实际文档的清晰度和结构完整性的不同,以及对于内容输出的准确性高低差异,可以相应地在代码里调整这两个值以满足最符合实际场景的要求。
参考文档
创建 Amazon S3 存储桶:https://docs.aws.amazon.com/zh_cn/AmazonS3/latest/gsg/CreatingABucket.html
创建 AWS IAM 客户托管策略:https://docs.aws.amazon.com/zh_cn/IAM/latest/UserGuide/tutorial_managed-policies.html
创建向 AWS 服务委派权限的角色:https://docs.aws.amazon.com/zh_cn/IAM/latest/UserGuide/id_roles_create_for-service.html
创建 AWS Lambda 函数:https://docs.aws.amazon.com/zh_cn/lambda/latest/dg/getting-started-create-function.html
配置 Amazon S3 事件通知:https://docs.aws.amazon.com/zh_cn/AmazonS3/latest/dev/NotificationHowTo.html
配合使用 AWS Lambda 和 Amazon S3:https://docs.aws.amazon.com/zh_cn/lambda/latest/dg/with-s3.html
Amazon Textract:https://docs.aws.amazon.com/textract/latest/dg/what-is.html
Amazon Comprehend Medical:https://docs.aws.amazon.com/zh_cn/comprehend/latest/dg/comprehend-medical.html
作者介绍:
本文转载自 AWS 技术博客。
评论