GTLC全球技术领导力峰会·上海站,首批讲师正式上线! 了解详情
写点什么

AIOps 实践场景:京东智能巡检机器人机房上岗!

2018 年 9 月 28 日

AI

随着业务量的不断增大,数据中心需要管理对象的数量、规模及复杂度都呈现指数级增长,传统人工干预、保姆式管理监控和故障处理的方式已无法满足业务需要。尽管监控系统可以掌握全方位的数据,但还是需要有人值守,这样就导致潜在隐患不能及时被发现,对告警的响应滞后。较大规模的机房,每日需要多次人工巡检,每次巡检都需要耗费不少工时,人工渐渐跟不上规模的增长和状态的快速变化。

今年 6 月,京东金融发布了一款机房智能巡检机器人。这是京东金融进军机器人产业的第一款产品,可实时保障机房稳定安全运行,提高机房和数据中心的智能化管理水平,同时大幅度降低运维成本。据说,这款机器人在 6.18 期间已经在京东金融的机房和数据中心经受了严苛的实战检验。

京东智巡机器人正式发布当天,很多媒体已经对此做了基本介绍,但研发机器人有哪些难点需要解决,巡检工作如何开展,使用效果如何,有哪些不完善的技术等方面,还未见具体报道。就此,InfoQ 采访到了京东金融的相关负责人,请他来具体聊聊这款智能巡检机器人。

InfoQ:京东金融和京东是什么关系?在 618 期间,京东金融起了什么作用?

京东金融:京东金融于 2013 年 10 月开始独立运营,目前,每天新增数据量达 800TB。

618 是包含电商、支付、金融、物流等在内的综合大战。京东金融依托科技能力,为商家和用户提供支付、技术、数据等全方面支持,是 618 的强力后盾。一方面,京东金融以过硬的技术应对 618 期间高流量、高并发的挑战,确保海量交易的支付体验和保障服务。并通过人工智能、大数据等技术,为用户提供定制化、多元化的优惠福利,以智能营销、智能客服等服务直接带动电商消费。另一方面,京东金融供应链金融为商城体系的商家们解决 618 期间的资金需求,为合作伙伴输出科技能力,让更多的金融机构、商家参与到 618 全民购物盛宴中,间接带动电商消费。

InfoQ:传统机房和数据中心的运维工作量有多少?介绍下机房和数据中心设备的基本情况?传统的人工巡检要做哪些工作?

京东金融:目前传统机房和 IDC 数据中心人工运维主要工作集中在三个方面:

  • 一是日常温度、湿度、气体,粉尘、环境异物、调试车摆放情况等环境检查;

  • 二是服务器、存储及网络设备的状态检查和维修管理;

  • 三是 UPS、电力、空调、冷站等基础运维巡检管理。

目前大量机房的设备都存在一定的问题,其中设备类型多、设备老化、故障频发以及集中爆发,给运维生产带来很大的隐患和安全问题。而很多问题又不能通过运维监测系统及时发现,所以目前都需要进行人工巡检。

一般较大的机房模块是 24 小时巡检 4 次,其中设备故障级别的巡检 2 次,以京东金融机房为例,200 组机柜一次巡检大约需要 2 个小时左右。有些机房模块要求是每隔 2 小时巡检一次。

InfoQ:为什么会想到要研发智能巡检机器人?最初是想能解决什么问题?

京东金融:目前,云计算数据中心建设规模持续增加,基础设施的运维工作量大,在智能运维管理上有强烈需求。而京东金融在 AI、IOT 及大数据积累了业界领先的算法能力,包括人脸识别、ReID、计算视觉、语音融合及数据挖掘等技术。智能巡检机器人正可以融合这些技术,满足行业需求。

从京东智巡机器人一代开始,我们团队就瞄准了特种巡检机器人这个细分领域,主要提升机房及数据中心的巡检效率和智能化管理水平,避免人工的错检和漏检,对巡检数据进行数字化管理和高效利用。另外,机房及数据中心,日常会有大量的第三方人员,出入机房进行设备检修、更换,对于安全区域及监控预警也有很强的需求,针对这一场景,京东智巡增加了智能安防、智能跟随、预约识别等功能。

InfoQ:智能巡检机器人用到了哪些技术?它如何完成机房的巡检工作?

京东金融:京东智巡机器人,主要由底盘导航运动控制、机械结构运动控制、多传感器融合、机器人系统、HMI 人机交互系统、后台管理服务平台等硬件及软件组成。

正如在前面提到的,京东智能巡检机器人应用了 SLAM 定位导航控制、计算机视觉、OCR 识别、人脸识别、ReID 识别(行人再识别),RFID 识别(射频识别),UWB 定位、边缘计算及神经网络芯片、NFC 卡证读取等技术,机器人能实现自动导航与避障、自主充电、环境信息检测(温湿度、粉尘、气体、噪声等)、设备信息检测(表面温度、指示灯状态、开关位置、仪表盘读数、屏显文字等)人员验证及跟随等功能,并可通过实时数据传输,在巡检管理后台进行远程监测和结果查询,查看生成多维分析报告和机房及设备画像信息。

京东智巡机器人,有多种工作模式,其中自动巡检工作模式如下:按照巡检计划自动执行巡检任务,自主精准导航到巡检点;通过多自由度机械臂及运动机构,在复杂场景下二次精确定位;通过搭载的视觉设备及多传感器,在机器人端完成巡检设备识别、环境感知及后处理工作;任务完成后,巡检信息上传至后台管理云平台,进行数据加工分析和保存。

InfoQ:研发智能巡检机器人有什么难点需要解决?

京东金融:

一、机器人“行走“的问题。首先,机器人底盘的定位、导航技术需要很深厚的技术积累。而且针对特定的工作场景,还需要做相应的路线规划和导航策略。有的场景,比如机房场景,需要故障场地配合做一些硬件改造。

二、 机器人“看“的问题。即使拥有强大的计算机视觉算法,但面对实际场景中光线复杂多变,被检目标种类及标准多而杂的情况,要做到全面、高效的检测效果是具有难度的。为保证机器人能“看到”所有的检测目标,机器人的形态结构也需要做到多维度、可升降调节的灵活性。

三、机器人的“协调性”问题。机器人是一个庞大的系统,任何一个功能都需要软硬件整个系统的无缝配合,机器人研发需要攻克“点”“线”“面”。系统间的交互、用户与机器人交互,都需要根据具体的场景和需求进行深入研究,在不断的演算和探索中才能得出最优的方案。

InfoQ:传统人工运维,随着经验的增加,效率和准确率都会提高,智能巡检机器人是否也具备可学习性呢?还是只具备识别功能?

京东金融:目前京东智巡机器人大规模的算法模型训练都集中在后端管理平台,模型升级后会同步机器人端,提升机器人识别处理能力,通过模型压缩和加速,大大提升了识别速度和准确率,以适应更多的场景。

机器人端目前还只是具备识别能力,我们也在开展末端模型训练这方面的技术研发工作。

InfoQ:智能巡检机器人在京东金融的具体应用如何?

京东金融:京东智巡机器人,在今年 618 接受了第一次大考,在京东金融机房完成了夜间一班次的自动巡检,京东智巡机器人各个功能模块工作达到了产品预期效果,巡检记录及结果与京东金融自动化运维平台实现了功能服务及数据的打通,同样在使用过程中也收集了新的需求和场景。

InfoQ:它的使用效果如何?和传统人工检测的差异是什么?

京东金融:京东智巡机器人的使用效果主要在设备检测、巡检记录、环境检测及热力分布上提高了巡检速度和效率,和传统人工巡检相比,在识别准确率及环境数据上弥补了现在人工检测的标准缺失,让机房巡检智能化、规范化、标准化、高效化。

InfoQ:有了智能巡检机器人之后,人以什么角色参与其中?

京东金融:目前,京东智巡检机器人应用后,运维人员的巡检频次和巡检内容会减少,新增了机器人管理人员的角色,主要工作是规划巡检计划,响应机器人预警处理,同时可根据机器人的分析数据优化机房管理。

InfoQ:智能巡检机器人有没有市场化的打算?

京东金融:京东智巡机器人,目前一代已产品化,二代产品及多款不同型号产品正在研发中,很快也会定型生产。市场化方面,京东智巡机器人将持续打磨产品,今年将推出更多型号不同行业场景的智能机器人。

InfoQ:如何看待智能巡检机器人的发展趋势?

京东金融:很多行业都存在大量检测性工作的需求,尤其是电力、通信、安防等重视安全性的行业。这类工作频次高、重复性强,但传统的人工巡检难以做到精确化、标准化、数字化。而智能巡检机器人,作为专业级服务机器人,正适合完成这类工作,有助于降低巡检工作的人力成本,提升工作效率和管理水平。

据易观发布的《中国服务机器人市场趋势预测》显示,2018 年中国服务机器人市场规模将达到 122.9 亿元人民币,同比增长 27.2%;2019 年则将继续保持高速增长,市场规模有望达到 158.4 亿元。专业级服务机器人是人工智能技术的最佳载体,专业级市场将成为服务机器人市场规模增长的主力,是潜力巨大的蓝海市场。

京东金融在推出智能巡检机器人之后,初期将主要致力于解决机房和数据中心的巡检痛点,进军金融、通信、电力等重点行业的机房巡检市场。未来还将进军电力、石油化工、银行、安防等行业市场,推出变电站巡检机器人、油气井巡检机器人等产品,让人工智能更好地服务实体经济。

活动推荐

由 InfoQ 主办的第四届 CNUTCon 全球运维技术大会,全方位、多角度向参会者阐述智能运维时代的有哪些变革,Twitter、RIOT Games、BAT、华为等国内外一线大厂有哪些新技术和新实践。目前,大会 8 折限时优惠,立减 720 元,团购更优惠!扫描下方二维码了解详情,有任何问题欢迎咨询 Joy 小同学,电话:13269078023(微信同号)。

2018 年 9 月 28 日 19:001098
AI

评论

发布
暂无评论
发现更多内容

后台产品导航栏原型设计小教程

lenka

3月日更

产品经理训练营 Week9 学习心得

Mai

B+树索引优点

一个大红包

3月日更

前端开发: 路由跳转页面详解

三掌柜

vue.js 前端 3月日更

表的约束

在即

28天写作 28天挑战 3月日更

(28DW-S8-Day27) 销售流程重整

mtfelix

28天写作

手机

ES_her0

28天写作 3月日更

JVM - 类加载机制

insight

3月日更

通过新版JDK获取更强的代码的表现力

sdutyq

Wireshark 数据包分析学习笔记Day15

穿过生命散发芬芳

Wireshark 数据包分析 3月日更

容器 & 服务:Kubernetes扩容

程序员架构进阶

Docker 容器 kubernete 28天写作 3月日更

10.3|PPT教程|内容页之图文混排

青城

算法攻关-最长公共子序列_1143

小诚信驿站

刘晓成 小诚信驿站 28天写作 算法攻关 最长公共子序列

"无密码时代"已经来临!

龙归科技

身份认证

聊聊 Python 自动化脚本部署服务器全流程(详细)

星安果

Python 自动化 服务器 部署

mybatis实现分页的几种方法

xiezhr

mybatis 分页 mybatis分页

Go训练营第5周——评论系统架构设计

Glowry

GO训练营第6、7周——可用性设计

Glowry

JDBC—往MySQL中写入Blob数据时,出现错误:com.mysql.jdbc.PacketTooBigException: Packet for query is too large (5724349 > 1048576)

打工人!

Java MySQL JDBC Blob

程序中变量的抽取的时机,变量命名,变量位置

sdutyq

GO训练营第9周——网络编程

Glowry

Github封神!2021最新阿里巴巴Java面试权威指南(华山版)震撼开源!

Java王路飞

Java 程序员 架构 面试 分布式

产品经理训练营 Week9 作业

Mai

翻译:《实用的Python编程》06_04_More_generators

codists

Python

Python 的特殊变量 __name__

HoneyMoose

GO训练营第8周——分布式缓存与事务

Glowry

收藏!这些IDE使用技巧,你都知道吗

xcbeyond

IDEA 技巧 3月日更

繁忙的三月

Tango

3月日更 IT蜗壳教学

互联网公司程序员的竞争力

sdutyq

经典排序算法分析

roseduan

算法 排序算法

github 这样用,事半功倍

hepingfly

Java GitHub 搜索 使用技巧

DNSPod与开源应用专场

DNSPod与开源应用专场

AIOps实践场景:京东智能巡检机器人机房上岗!-InfoQ