Apple机器学习和视觉生态系统更新：Core ML、Create ML和VisionKit

在 WWDC 2023 开发者大会上，苹果公司展示了其机器学习和视觉生态系统的许多扩展和更新，包括对 Core ML 框架的更新，Create ML 建模工具的新功能，以及用于图像分割、动物体态检测和 3D 人体体态的新的视觉 API。

苹果工程师 Ben Levine 解释说，第一个有关 Core ML（运行在 iOS 设备上的机器学习框架）的改进是更快的推理引擎，不需要重新编译模型或修改任何相关代码就可以获得这种提速。Levine 没有提供与速度提升相关的数据，他说具体将取决于实际的模型和硬件。

Core ML 还扩展了其支持异步工作流的能力，新增了 Async Prediction API。以前，Core ML 支持批量预测，适用于已知工作量并且可以预先计算所有组件批次输入的情况。有了新的 Async Prediction API，你现在可以将预测分派到后台线程，这意味着你可以同时运行多个预测。此外，API 还可能支持取消预测请求，这在某些情况下可以进一步提高响应性。

例如，Levine 演示了一款使用 Core ML 对一系列图像进行着色的应用程序，并展示了新的 Async Prediction API 如何通过将推理时间减少大约一半来改善滚动体验。然而，并发推理也有需要注意的地方。具体来说，Levine 提到了由于在内存中加载多个输入和输出而增加的内存需求，这个问题必须得到解决，例如可以通过限制应用程序执行的并发操作数量。

除了 Core ML 推理能力外，苹果还通过新版的Core ML Tools（这个工具可以帮助开发人员优化机器学习模型的大小和性能）改进了模型转换选项。苹果公司表示，随着应用程序开始集成越来越多、越来越大的 ML 模型，这一点至关重要。该工具现在支持几种技术，包括权重修剪、量化和调色板化，在训练新模型时都可以使用它。

在建模方面，苹果对Create ML进行了扩展，支持多语言 BERT 嵌入和多标签图像分类。

今年，我们设计了一个新的嵌入模型，并在数十亿个标记文本示例上进行了训练。它是一个双向编码器表示变换器模型，简称 BERT。

据苹果公司称，新的 BERT 模型也可以提高单语文本分类器的准确性。

最后，新的 Augmentation API 可以在只有有限训练数据的情况下提高模型质量。数据增强是一种使用变换从现有示例生成新训练示例的技术。Augmentation API 将使开发人员能够通过组合不同的转换步骤来构建自己的增强管道。苹果公司表示，Augmentation API 使用了结果构建器，并为使用过 SwiftUI 的开发人员提供他们熟悉的结果。

最后要注意的是，苹果公司为其 VisionKit 框架增加了新功能，包括：检测动物体态并实时跟踪它们的关节；将主体从图像中提取出来并将其与背景分离；使用新的 Segmentation API 区分同一图像中的多个个体。

如果你有兴趣深入了解即将发布的 iOS 17 中所有新的 ML 和视觉功能，请查看WWDC 2023大会录制清单。

原文链接：

https://www.infoq.com/news/2023/07/coreml-createml-vision-ios-17/

2023年软件测试、人工智能和机器学习趋势

创作场景

Apple 机器学习和视觉生态系统更新：Core ML、Create ML 和 VisionKit