网络场景AI模型训练效率实践

2020 年 5 月 15 日

网络场景AI模型训练效率实践

问题


在网络场景下的 AI 模型训练的过程中,KPI 异常检测项目需要对设备内多模块、多类型数据,并根据波形以及异常表现进行分析,这样的数据量往往较大,对内存和性能要求较高。


同时,在设计优化算法时,需要快速得到训练及测试结果并根据结果来调整算法,因此进一步要求计算内存和性能达到较高的水平。


当前,本地安全 PC 性能难以满足调试要求,难点主要在于,时间序列数据以 csv 文件格式存储,需要根据时序关系以及五维关键字拆分成以五维关键字为主键的唯一时序数据,这一过程需要将同一台设备所有 KPI 文件同时读入内存,一星期 KPI 数据文件就达到 GB 级别,单单本机训练就需要 41Min。同时,每台网管设备纳管几千台设备,训练花的时间将按设备数对应倍数增加,单进程执行网管设备局点数据分析的时间将到达 Month 级别


KPI 异常检测项目希望能够根据 KPI 数据特点,显著缩短训练时间,以满足快速测试算法调优的需求。


华为解决方案


  1. 对华为NAIE训练平台现有任务机制进行拓展,任务可使用Master-Worker机制,即原来的任务变成Master控制消息分发,在其命名空间下创建N个子任务,循环处理数据

  2. 设计一套简单易用的API,尽量对业务代码无侵入


导入依赖:


我们从 naie sdk 中导入两个装饰器


定义数据:


假设我们有四个数据集实例,我们将它定义为一个列表


如上面代码所示,主程序每次接受一个列表中的元素,其余代码和单机保持一致。


after 装饰器下面的代码只会在主节点上运行一次,它执行的时机是所有的主程序运行完之后,请根据业务的需求决定是否添加。


改进效果


基于华为 NAIE 训练平台的拓展使用结果显示,显著缩短 KPI 异常检测项目的训练时间,50 个同等大小的文件夹如果在本地运行约需要 34hour,扩大训练任务节点数后(现为 30 个),50 个同等大小的文件夹在训练平台运行时间缩短为 2hour。


来自公众号:网络人工智能园地


作者:于泽阳


2020 年 5 月 15 日 16:43147

评论

发布
暂无评论
发现更多内容

架构师训练营第 1 期第 4 周学习总结

du tiezheng

极客大学架构师训练营

架构师训练营第4周课后练习

叶纪想

极客大学架构师训练营

架构师训练营 - 作业 - 第四周

Max2@12

第四周作业

Geek_ac4080

架构师训练营 第四周作业

haha

极客大学架构师训练营

架构师训练营第四周作业

xs-geek

极客大学架构师训练营

架构师训练营第四周作业

月殇

极客大学架构师训练营

第四周-系统架构-总结

刘希文

架构师训练营—第四周学习总结

Geek_shu1988

架构师训练营—第四周作业

Geek_shu1988

第四周作业总结

Geek_ce484f

极客大学架构师训练营

微服务

qh12346

如何组织一场用户故事地图工作坊

Bruce Talk

敏捷 用户故事 Product Owner 用户故事地图

深入理解JVM垃圾回收算法 - 复制算法

NORTH

深入理解JVM GC复制算法 Cheney

架构师训练营第 1 期 -- 第四周作业

发酵的死神

极客大学架构师训练营

架构师训练营第四周总结

xs-geek

极客大学架构师训练营

一个典型的大型互联网应用系统使用了哪些技术方案和手段,主要解决什么问题?(总结)

orchid9

周练习 4

何毅曦

开源界最强类Excel前端控件——LuckySheet

孙苏勇

Excel 表格控件 在线excel

第四周作业

Geek_ce484f

极客大学架构师训练营

作业一:典型的大型互联网应用系统使用了哪些技术方案和手段,主要解决什么问题?请列举描述。

静海

架构师训练营第四周总结

月殇

极客大学架构师训练营

第四周心得

睡觉表演者

极客大学架构师训练营

架构师训练营第 1 期第 4 周作业

郑凯元

极客大学架构师训练营

「架构师训练营第 1 期」第四周作业

张国荣

spring-boot笔记

solike

一个典型的大型互联网应用系统使用了哪些技术方案和手段,主要解决什么问题?

A p7+

一个典型的大型互联网应用系统使用了哪些技术方案和手段,主要解决什么问题?

Jacky.Chen

架构师训练营第四周作业

睡觉表演者

极客大学架构师训练营

作业二:第四周学习总结

静海

Netty源码解析 -- 事件循环机制实现原理

binecy

Netty nio 源码解析

网络场景AI模型训练效率实践-InfoQ