本文要点

目前还没有用Java开发机器学习应用程序的标准
JSR 381的提出就是为了填补这项空白
Amazon的Deep Java Library（DJL）是这个新标准的其中一种实现
VisRec是JSR 381的一部分，用于图像的视觉识别
DJL包含许多预训练的模型

近年来，人们对机器学习的兴趣稳步增长。具体来说，现在，企业在各种各样的场景中使用机器学习进行图像识别。它在汽车工业、医疗保健、安全、零售、仓库、农场和农业的自动化产品跟踪、食品识别，甚至通过手机摄像头进行实时翻译等方面都有应用。借助机器学习和视觉识别，机器可以从MRI和CT扫描结果中发现癌症和COVID-19。

如今，这些解决方案主要是用Python开发的，使用了开源和专有的ML工具包，每个工具包都有自己的API。尽管Java在企业中很流行，但是Java中没有任何标准是针对机器学习应用程序开发的。JSR-381的提出就是为了填补这项空白，它为Java应用程序开发人员提供了一套标准的、灵活的、Java友好的、面向视觉识别（VisRec）应用程序（如图像分类和对象检测）的API。JSR-381有几个依赖于TensorFlow、MXNet和DeepNetts等机器学习平台的实现。其中一个实现是基于Deep Java Library（DJL）的，这是一个由Amazon开发的开源库，用于使用Java构建机器学习应用。DJL通过绑定必要的图像处理例程，提供了流行机器学习框架（如TensorFlow、MXNet和PyTorch）的钩子，对于JSR-381的用户来说，这是一个灵活而简单的选项。

在本文中，我们将演示Java开发人员如何使用JSR-381 VisRec API在不到10行代码内利用DJL的预训练模型实现图像分类或对象检测。我们还通过两个例子演示了用户如何在10分钟内使用预先训练好的机器学习模型。让我们开始吧！

使用预训练的模型识别手写数字

识别手写数字是一个有用的应用，也是视觉识别的一个“hello world”示例。对人类来说，识别手写数字似乎很容易。得益于我们大脑中视觉和模式匹配子系统的处理能力和协作，我们通常可以从潦草的手写文件中正确地识别出数字。然而，由于可能存在许多变化，这个看似简单的任务对于机器来说是难以置信的复杂。这是机器学习，特别是视觉识别的一个很好的用例。JSR 381 库中有一个很好的示例，使用JSR-381 VisRec API正确地识别出了手写数字。这个示例将手写数字与MNIST手写数字数据集进行比较，后者是一个包含超过6万幅图像的公开数据库。预测图像所代表的内容称为图像分类。我们的示例查看一副新图像，并确定它具体是哪个数字的概率。

对于这项任务，VisRec API提供了一个ImageClassifier接口，可以使用泛型参数具体化为输入图像的特定Java类。它还提供了一个classie()方法，该方法执行图像分类并返回所有可能的图像类别与概率的Map。根据VisRec API的约定，每个模型都提供一个静态的builder()方法，它返回一个对应的builder对象，并允许开发者配置所有相关的设置，例如imageHeight、imageWidth。

在我们的手写数字示例中，要定义一个图像分类器，就需要使用inputClass(BufferedImage.class) 配置输入句柄。你可以通过它指定使用哪个类来表示图像。你可以使用imageHeight(28)和imageWidth(28) 将图像尺寸调整到28x28，模型最初训练时就用的这个大小。

分类器对象构建完成后，将输入图像输入到分类器以识别图像。

File input = new File("../jsr381/src/test/resources/0.png");
// 使用mlp文件夹里的预训练模型
Path modelPath = Paths.get("../jsr381/src/test/resources/mlp");
ImageClassifier<BufferedImage> classifier =
       NeuralNetImageClassifier.builder()
           // 输入时一个图像文件，应该作为BufferImage进行处理
           .inputClass(BufferedImage.class)
           // 图像尺寸应该调整到28 x 28
           .imageHeight(28)
           .imageWidth(28)
           .importModel(modelPath)
           .build();
// 执行推断并获取分类结果
Map<String, Float> result = classifier.classify(input);
// 打印结果
for (Map.Entry<String, Float> entry : result.entrySet()) {
   System.out.println(entry.getKey() + ": " + entry.getValue());
}

执行上述代码会产生以下输出：

0: 0.9997633
2: 6.915607E-5
5: 2.7744078E-5
6: 6.1097984E-5
9: 3.8322916E-5

对于图像中的数字，该模型识别出五种可能的选项，以及每个选项的概率。分类器以99.98%的压倒性概率正确地预测了数字0。
推而广之，如果需要检测出同一副图像中的多个不同的对象该怎么办？

使用预训练的单帧检测器（SSD）模型识别物体

单帧检测器（SSD）是一种利用一个深度神经网络从图像中检测物体的机制。本例使用预先训练好的SSD模型识别图像中的对象。对象检测是一项比较具有挑战性的视觉识别任务。除了对图像中的对象进行分类外，对象检测还可以识别图像中对象的位置。它还可以在关注对象周围绘制一个边框并添加一个类别（文本）标签。

SSD机制是机器学习领域的一项最新进展，它检测对象的速度非常快，与此同时，还能保持与需要更大计算量的模型相媲美的准确性。要了解关于SSD模型的更多信息，可以阅读博文“理解SSD MultiBox——深度学习中的实时对象检测”以及《深入机器学习》这本书里的这个练习。

使用DJL的JSR-381实现，用户可以访问预先训练好的、开箱即用的SSD模型实现。DJL使用ModelZoo来简化模型部署。下面的代码块使用ModelZoo.loadModel()加载一个预先训练好的模型，实例化一个对象检测器类，并将这个模型应用到一副示例图像上。

// 定义一个满足用户需求的模型查找标准
Criteria<BufferedImage, DetectedObjects> criteria =
        Criteria.builder()
                .setTypes(BufferedImage.class, DetectedObjects.class)
                // 查找一个对象检测模型
                .optApplication(Application.CV.OBJECT_DETECTION)
                .build();
// 加载模型，创建一个SimpleObjectDectector对象
try (ZooModel<BufferedImage, DetectedObjects> model = ModelZoo.loadModel(criteria)) {
   // SimpleObjectDetector是一个负责检测对象的高级JSR-381 API
   SimpleObjectDetector objectDetector = new SimpleObjectDetector(model);
   // 加载图像
   BufferedImage input =
       BufferedImageUtils.fromUrl(
           "https://djl-ai.s3.amazonaws.com/resources/images/dog_bike_car.jpg");
   // 检测对象
   Map<String, List<BoundingBox>> result = objectDetector.detectObject(input);
   for (List<BoundingBox> boundingBoxes : result.values()) {
       for (BoundingBox boundingBox : boundingBoxes) {
           System.out.println(boundingBox.toString());
       }
   }
}

下面是一副可供我们使用的新图像。

在这幅图像上运行代码将产生如下结果：

BoundingBox{id=0, x=124.0, y=119.0, width=456.45093, height=338.8393, label=bicycle, score=0.9538524}
BoundingBox{id=0, x=469.0, y=78.0, width=225.19464, height=92.147675, label=car, score=0.99991035}
BoundingBox{id=0, x=128.0, y=201.0, width=210.51933, height=341.7647, label=dog, score=0.9375212}

如果你希望给从图像上检测到的每个对象添加边框，只需几行代码即可。要了解更多信息，请参见完整的GitHub示例。该模型对三个关注对象（自行车、汽车和狗）进行分类，在每个对象周围画一个边框，并提供一个由概率反映的置信度。

值得注意的是，预训练模型的检测精度取决于用于训练模型的图像。模型的精度可以通过再训练来提高，也可以使用一组更能代表最终应用程序的图像开发一个自定义的模型。然而，这种方法非常耗时，并且需要使用大量的训练数据。对于许多ML应用程序，使用预先训练好的模型建立基线通常是值得的。这可以节省大量收集、准备数据和从头训练模型的时间。

未来展望

在这篇文章中，我们仅仅了解了使用JSR-381 API的DJL实现可以做些什么。你可以使用ModelZoo中预先训练好的模型库探索和实现更多的模型，或者引入自己的模型。

感兴趣的读者可以检出DJL，这是一个由Amazon的Java开发人员为Java社区构建的开源库。我们试图简化Java中机器学习的开发和部署。欢迎加入我们！

DJL有很多用例，你可以开发一个客服问答应用程序，实现瑜伽姿势的姿态估计，或者训练你自己的模型来检测后院的入侵者。我们的Spring Boot入门套件还简化了ML与Spring Boot应用程序的集成。读者可以通过我们的介绍性博客、网站和示例库了解更多关于DJL的信息。请访问我们的Github库，在我们的Slack频道与我们合作。

参考资料

入门指南——视觉识别（VisRec）JSR #381
VisRec API JSR381 的 DJL实现
JSR381官方页面

作者简介：

Frank Liu是AWS AI软件工程师。他专注于为软件工程师和科学家打造创新型深度学习工具。在业余时间，他喜欢与朋友和家人一起徒步旅行。

Xinyu Liu是AWS AI软件开发经理。他热衷于机器学习和大规模分布式系统。

Frank Greco是Crossroads Technologies公司的创始人和首席执行官。他是高级技术顾问和企业架构师，致力于为开发人员提供云计算和AI/ML工具。他是一名Java冠军程序员、NYJavaSIG的主席，并在欧洲举办了企业机器学习国际会议。他业余时间喜欢弹吉他。

Zoran Sevarac是Deep Netts的CEO。他致力于为Java开发人员构建用户友好的深度学习工具，并创建AI Java标准。他是贝尔格莱德大学的教授和Java冠军程序员。他业余时间喜欢弹吉他。

Balaji Kamakoti是AWS AI高级产品经理。他致力于让开发者更容易使用深度学习产品。在业余时间，他喜欢打网球，弹萨罗德琴（一种无琴格的弦乐器）。

特别感谢JCP和JSR-381团队的宝贵贡献：Kevin Berendsen、Sandhya Kapoor、Werner Keil、Constantin Drabo、Ankara Parida、Melissa Mckay、Buddha Jyoti Prasad、Shreya Gupta、Amit Nagesh、Heather VanCura和Harold Ogle。

原文链接：

Machine Learning in Java With Amazon Deep Java Library

创作场景

Java 机器学习工具箱：Amazon Deep Java Library