在最近的一则新闻中,Amazon 宣布正式发布Amazon Textract,这是一种完全托管的、基于机器学习的服务,它可以从文本和结构化文档数据中提取内容。使用 Amazon Textract,客户能以自动化的方式处理文档工作流、索引和目录等重要信息,以便在下游应用程序中使用这些信息。该服务能够在几小时内处理完数百万个文档页面。
Amazon 正寻求将智能文档提取业务推向更大众的市场,以获取更丰富的商业成果。Amazon 主管机器学习的副总裁Swami Sivasubramanian解释:
Amazon Textract 的强大之处在于,它可以从几乎任何文档中精确地提取文本和结构化数据,而不需要任何机器学习经验。除了与其他 AWS 服务的集成之外,围绕 Amazon Textract 进行开发的多方合作社区,能使客户从他们的文件集合中获得更多的实际意义、更高效的操作、更安全合规、更多自动化数据输入和更快速的商业决策。
Amazon Textract 在识别关键字段或内容方面,超越了传统的光学字符识别(OCR)技术。而与之不同的是,可以使用 Textract API 来提取 PDF、图像、文本和表格等多种文件格式,然后再传递给Amazon Comprehend、Amazon Comprehend Medical和Amazon Translate,以更智能的方式提取内容。
从 Textract 提取的数据采用 JSON 格式,包括诸如页码、节、标签和数据类型等元数据。之后,内容和元数据都可以加载到数据库和数据分析服务中,包括 Amazon Elasticsearch Service、 Amazon DynamoDB和Amazon Athena,供会计、审计和合规性审核等领域的其他应用程序使用。
为了衡量数据提取过程的准确性,Textract 为它识别出来的每个数据属性返回一个以百分比表示的置信值。这让开发人员可以为不准确之处做出标记,并将此信息传递给他人执行进一步验证。此外,还提供了边界框坐标定位,以确定数据具体是从何处提取的。
Amazon 已经拥有一些使用 Textract 服务的客户,包括普华永道(PwC)、Healthfirst、Informed Inc、UiPath 和《环球邮报》等公司。《环球邮报》利用 Textract 提高了其记者的工作效率,并从他们此前并未得到充分利用的庞大数据集中,发挥了更大优势。《环球邮报》数字和数据科学的董事总经理 Michael O’Neill 解释:
作为一家新闻媒体公司,我们依赖于大量 PDF 文件或来源于扫描的文件,比如 FOI(信息自由请求),这些文件的重要信息包含在我们以前无法访问的表格中。这些文件没有得到充分利用,因为记者无法轻松访问这些信息,甚至不知道它们的存在。通过使用 Amazon Textract,我们能够从 PDF 格式的表格中提取信息,并轻松地将数据输出到 CSV 中,这样记者就可以对这些文档进行搜索查询,从而轻松便捷地访问这些文档。这使我们的记者获取信息的效率提高了十倍。
有关Amazon Textract 的更多信息,请参阅其产品附带文档。
原文链接:
Amazon Enters Enterprise Content Management Space, Announces General Availability of Textract
评论