2019年4月4日，我们宣布开源一个新的项目Avro2TF。该项目提供了一种可伸缩的基于spark的机制，可以有效地将数据转换为供TensorFlow使用的格式。使用这种技术，开发人员可以更专注于构建模型而不是转换数据，从而提高生产率。

LinkedIn的深度学习数据管道

在LinkedIn，深度学习已成功应用于多个与推荐和搜索相关的人工智能系统。我们从这个项目中学到的重要经验之一是深深地感受到提供良好的深度学习平台的重要性，这有助于我们的建模工程师变得更加高效和多产。Avro2TF是为了降低数据处理复杂性和提高高级建模速度这个目标做出的努力。除了推进深度学习技术，LinkedIn多年来一直在分享很多领域关于机器学习(ML)方面的创新(例如，推荐系统、可伸缩的机器学习系统等)。因为效率和准确性至上，所以我们有许多不同的ML方法来处理每天产生的大量的数据。

为了有效地支持深度学习和推进机器学习民主化的愿景(通过Pro-ML这样的项目)，我们必须首先解决数据处理步骤的问题。我们的ML算法(例如LinkedIn的大规模个性化引擎Photon-ML)使用的大部分数据集都是Avro格式的。Avro数据集中的每个记录本质上都是一个稀疏向量，并且可以被大多数现代分类器轻松使用。然而，领先的深度学习库TensorFlow无法直接使用Avro这种格式。主要的阻碍因素是稀疏向量的格式与TensorFlow所期望的格式不同。我们相信这不是LinkedIn独有的问题。许多公司拥有大量类似稀疏向量格式的ML数据，而Tensor（张量）格式对许多公司来说仍然相对较新。

LinkedIn的数据通常很大，格式也与传统的深度学习库不同。这就带来了重大的挑战，因为许多管道都包含混合的数据处理逻辑和建模逻辑。它影响了构建新的深度学习模型的灵活性。根据用户对LinkedIn ML垂直团队的反馈，我们需要一个可伸缩的解决方案，专注于可伸缩的数据转换。更具体地说，我们需要一个将LinkedIn数据类型(例如稀疏向量、密集向量等)转换为深度学习格式(即张量)的机制。

Avro2TF弥补了这一差距，为ML工程师提供了一个不错的解决方案，让他们可以专注于不同的深度学习算法。它为建模者提供了一个简单的配置，以便从现有的训练数据中获取张量。张量数据本身不是自包含的。为了加载到TensorFlow，张量数据需要携带元数据。为了弥补这一差距，Avro2TF还提供分布式元数据收集工作。在LinkedIn内部，Avro2TF是一个名为TensorFlowIn的系统的组成部分，该系统可以帮助用户轻松地将数据输入到TensorFlow建模过程中。

TensorFlowIn是一个与TonY、TensorFlow和Spark兼容的深度学习训练库。它包含端到端训练相关的实用程序和框架。上面的图给出了TensorFlowIn的高级概览。由于大规模的数据处理是一个重要的步骤，这不仅对许多LinkedIn应用程序至关重要，而且对更大的人工智能社区也很有用，所以我们在收到积极的内部反馈后决定开放这个引擎的源代码。

Avro2TF项目细节

下面简要介绍Avro2TF的一些实现特性。

输入数据要求：我们支持Spark可以读取的所有数据格式，包括LinkedIn、Avro和ORC中最流行的格式。对于分类或稀疏特性，我们要求它们以NTV (name-term-value)格式表示。
输出张量支持的数据类型：在Avro2TF中，输出张量支持的数据类型(dtype)为：int、long、float、double、string、boolean和bytes。我们还提供了一个特殊的数据类型sparseVector来表示分类/稀疏特性。一个sparseVector的张量类型有两个字段：索引和值。
Avro2TF配置：在顶层，配置文件包含关于张量的信息，这些张量将提供给深度学习训练框架使用。对于每个指定的张量，它包含两种信息：
输入特征信息，判断应该使用哪些现有特征来构造张量。
输出张量信息，包括期望输出张量的名称、类型和形状。

Avro2TF数据管道：它处理特征提取、特征转换(在LinkedIn，这仅在Pro-ML不涉及的有限用例中)、张量元数据和特征映射生成、将字符串转换为数值索引和张量序列化。

Avro2TF现在是开源的

在LinkedIn成功使用Avro2TF之后，我们已经将该技术作为开源软件发布。你可以在这里找到Avro2TF的官方GitHub页面。

我们还发布了Avro2TF的官方教程，可以在项目wiki页面上找到。

创作场景

LinkedIn 开源 Avro2TF: TensorFlow 的开源特性转换引擎