在最近的一则新闻中，Amazon宣布正式发布Amazon Textract，这是一种完全托管的、基于机器学习的服务，它可以从文本和结构化文档数据中提取内容。使用Amazon Textract，客户能以自动化的方式处理文档工作流、索引和目录等重要信息，以便在下游应用程序中使用这些信息。该服务能够在几小时内处理完数百万个文档页面。

Amazon正寻求将智能文档提取业务推向更大众的市场，以获取更丰富的商业成果。Amazon主管机器学习的副总裁Swami Sivasubramanian解释：

Amazon Textract的强大之处在于，它可以从几乎任何文档中精确地提取文本和结构化数据，而不需要任何机器学习经验。除了与其他AWS服务的集成之外，围绕Amazon Textract进行开发的多方合作社区，能使客户从他们的文件集合中获得更多的实际意义、更高效的操作、更安全合规、更多自动化数据输入和更快速的商业决策。

Amazon Textract在识别关键字段或内容方面，超越了传统的光学字符识别（OCR）技术。而与之不同的是，可以使用Textract API来提取PDF、图像、文本和表格等多种文件格式，然后再传递给Amazon Comprehend、Amazon Comprehend Medical和Amazon Translate，以更智能的方式提取内容。

从Textract提取的数据采用JSON格式，包括诸如页码、节、标签和数据类型等元数据。之后，内容和元数据都可以加载到数据库和数据分析服务中，包括 Amazon Elasticsearch Service、 Amazon DynamoDB和Amazon Athena，供会计、审计和合规性审核等领域的其他应用程序使用。

为了衡量数据提取过程的准确性，Textract为它识别出来的每个数据属性返回一个以百分比表示的置信值。这让开发人员可以为不准确之处做出标记，并将此信息传递给他人执行进一步验证。此外，还提供了边界框坐标定位，以确定数据具体是从何处提取的。

Amazon已经拥有一些使用Textract服务的客户，包括普华永道（PwC）、Healthfirst、Informed Inc、UiPath和《环球邮报》等公司。《环球邮报》利用Textract提高了其记者的工作效率，并从他们此前并未得到充分利用的庞大数据集中，发挥了更大优势。《环球邮报》数字和数据科学的董事总经理Michael O’Neill解释：

作为一家新闻媒体公司，我们依赖于大量PDF文件或来源于扫描的文件，比如FOI（信息自由请求），这些文件的重要信息包含在我们以前无法访问的表格中。这些文件没有得到充分利用，因为记者无法轻松访问这些信息，甚至不知道它们的存在。通过使用Amazon Textract，我们能够从PDF格式的表格中提取信息，并轻松地将数据输出到CSV中，这样记者就可以对这些文档进行搜索查询，从而轻松便捷地访问这些文档。这使我们的记者获取信息的效率提高了十倍。

有关Amazon Textract的更多信息，请参阅其产品附带文档。

原文链接：

Amazon Enters Enterprise Content Management Space, Announces General Availability of Textract

创作场景

Amazon 进军企业内容管理领域，宣布正式发布 Textract