写点什么

如何处理暗数据?

  • 2020-05-15
  • 本文字数:2440 字

    阅读完需:约 8 分钟

如何处理暗数据?

有研究表明,全球数据总量每两年翻一番,各企业都在处理和存储这些海量数据。这些数据主要由结构化数据、非结构化数据等类型数据构成。企业对数据了解得越透彻,就能够越准确地判断数据的价值及风险。


结构化的数据:即有固定格式和有限长度的数据。例如填的表格就是结构化的数据,国籍:中华人民共和国,民族:汉,性别:男,这都叫结构化数据。对于 ICT 领域来说,就是以固定的格式存储到数据库里的数据(Oracle/MySQL/…)。


半结构化数据:是一些 XML 或者 HTML 的格式的,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。


非结构化的数据:就是不定长、无固定格式的数据,例如网页,邮件,有时候非常长;有时候非常短,几句话就没了;例如 Word 文档、语音,视频、图片都是非结构化的数据。现在非结构化的数据居多。


为了描述方便,我们把半结构化数据和非结构化数据,合二为一统称为“暗数据”,当然这个词不是我起的,是 AA 公司起的名字。AA(Automation Anywhere)公司于 2003 年最初由 Ankur Kothari,Mihir Shukla,Neeti Mehta 和 Rushabh Parmani 在加利福尼亚州圣何塞的 Tethys Solutions,LLC 成立。该软件公司在 10 多个国家/地区开展业务,开发适用于领先金融服务,业务流程外包,医疗保健,技术和保险公司的机器人过程自动化技术的产品。在 RPA 领域市场份额第一,全球最大的 RPA 生态,培训并认证超过 10,000 名 RPA 人员。


AA 公司统计“暗数据”占比达 80%,就像下图冰山在水下的部分。这些暗数据,导致信息是断裂的,传统的自动化不能访问。业界最头疼的就是如何处理这部分数据?

一:传统处理暗数据的方法

目前传统的公司,在处理暗数据的时候,采用的是笨办法,想办法把非结构化的数据转换成结构化数据。或者干脆,大部分公司是让这些暗数据躺在数据湖里沉睡中,没有任何用处,反而还浪费了存储和维护资源。像我们的站点数据、设备数据、网络数据、操作数据,大部分都是暗数据。我们现在花大力气在想办法结构化,这可能是最笨的办法。费时费力,结果还很差。

二:利用 AI 处理暗数据的新方法

其实单纯的 RPA 做的工作非常有限,RPA 主要是处理结构化和流程化的数据,不能处理“暗数据”。利用 AI 技术,就可以处理图片、邮件等暗数据,同时 AI 还可以随机应变的处理一些突发的流程。


下面列举了 AI 和 RPA 的差异点:


RPA处理数据的类型和能力范围AI处理数据的类型和能力范围
模仿用户的活动模仿人类思维过程,视觉,语言和模式识别
可以处理结构化和一些半结构化数据可以处理结构化,半结构化,和非结构化数据
基于规则的自动化可以通过“学习”改变其行为动作(随机应变能力)
高度确定性通过概率计算,使其具有确定性
代理协助或数字劳动模型点解决方案 - 不是广泛的能力(窄AI)


AA 这家公司把 AI 和 RPA 结合起来,处理暗数据。使用的关键技术如下:


1:语音识别:主要处理对话、录音、音频等文件。


2:NLP:主要处理文本、邮件、文档等文件。


3:计算视觉:主要处理图片、PDF 中嵌入的图片等信息。


4:机器学习 &深度学习:主要通过“学习”,处理一些异常事件,让流程能正常流转,像人一样,能灵活处理问题。

三:AA 这家公司推出的关键产品(或解决方案)

推出了 IQ-Bot 的解决方案。IQ Bot 是人工智能(AI)解决方案,业务用户可以轻松设置和使用,以更快地自动读取和处理各种复杂的文档和电子邮件。另外,IQ Bot 通过构建的自动化认知,可与 IBM Watson/Google Cloud AI/MS Cognitive Service 等 AI 解决方案集成,以弥合 RPA 与纯认知平台之间的差距。


在其主页上呈现的 IQ BOT 解决方案的示例如图,重点是想说明 IQ Bot 是一座桥梁,可以连接 RPA 和认知平台:


使用 IQ-Bot 前后对比


AI 能够以内容为中心实现流程自动化,使 AI 成为理想的 RPA 的补充技术。使用两者的组合,组织可以端到端自动化流程,例如使用 AI,解析,分类和理解语义或情绪,并将所需的行动传递给 RPA。例如:完成使用 AI 为客户撰写确认函/文本或电子邮件等案例。

四:如何把 AI 嵌入到前台的 RPA 流程中去?

1:许多流程需要理解语义。利用 AI 中的 NLP 技术理解句子的结构,语义和意图。


通过统计方法和机器学习。NLP 将文本转换为数据,反之亦然,允许人与人之间有意义的互动。它包括自然语言理解和生成,例如:保险公司处理索赔、银行抵押贷款,这些都需要补充材料,包括图片(身份证信息)、表格信息、邮件信息、文本信息等等,这些都是非结构化信息,很难直接使用 RPA 自动化,影响了这个流程的效率。文本,电子邮件,信件和图像,首先通过 NLP 和图像识别技术以便进一步处理。


2:利用计算机视觉技术自动提取,分析图片,转换成语义。


从单个图像或一系列图像(包括扫描文档)中理解有用信息,实现自动视觉理解。


3:通过 ML(Machine Learning)来实现一些灵活化处理问题的能力。


通过算法来实现人处理问题的灵活性,无需明确固定的流程,可以通过“学习”来灵活处理,具备随机应变的处理机制,避免通过系统对接传递大量数据。

五:AI 方法的借鉴意义?

这多年过去了,整个电信业界就没有搞定网络拓扑,特别是跨域和跨厂商的。我一直认为,通过采集上来的现有公开数据(不同厂商肯定有网管系统),通过数据的拼接,是可以拼出一个拓扑的。大家觉得不可能。其实想想 Google 地图,看看 Google 地图是怎么做到的?地图需要拼接的数据量肯定是网络信息的很多倍,难度也大于网络拓扑,但为什么地图能搞出来,而一个拓扑就搞不出来呢?利用数据的拼接+AI 技术,是可以把整网跨厂商的网络拓扑拼接出来的。

六:给大家介绍的 IQ Bot 的目的是打开一扇窗,让大家去寻宝

IQ Bot:认知自动化机器人,是专门负责处理暗数据,IQ Bot 发现和转换隐藏数据,以更快,更高效地自动化业务流程,同时消除人为错误。


在这个 AI 时代,如何让手里的数据发挥出价值成为在市场中杀出重围的重要的技能。企业面对内部大量的暗数据,需要建立高效的数据管理体系,学会妥善运用算法、简化流程,才能迎接这数据洪流时代。


来自公众号:网络人工智能园地


作者:高亮


2020-05-15 16:43771

评论

发布
暂无评论
发现更多内容

京东广告研发 —— 京东推荐广告排序机制演化

京东科技开发者

TapData + 实时数仓:实时数据如何赋能船舶制造业,助力数字化应用升级和科学管理运营

tapdata

大数据 实时数仓场景实践

对接HiveMetaStore,拥抱开源大数据

华为云开发者联盟

大数据 华为云 华为云开发者联盟 华为云GaussDB(DWS) 企业号2024年4月PK榜

拥抱AI技术:5月18-19日 全球金牌CSM认证课程 · Jim老师引导讨论AI & Agility话题

ShineScrum捷行

孙中亮:北斗三十周年,看北斗芯片高质量发展历程和方向

江湖老铁

HCDG北京站精彩回顾 | 鸿蒙千帆起,开启万物互联新纪元

华为云开发者联盟

鸿蒙 物联网 华为云 华为云开发者联盟 企业号2024年4月PK榜

离开工位老是忘记锁屏?试着让电脑自动完成这事吧!

京东科技开发者

高可用 - 隔离原则

京东科技开发者

5G chip showdown: QCN6274 vs QCN6224, who is the real 5G king?

wifi6-yiyi

5G wifi iiot

西安站开营!AI 编码助手通义灵码帮大学生“整活儿”

阿里云云效

阿里云 云原生 通义灵码

预测分析中的场景管理,适应不断变化的市场环境

智达方通

企业管理 全面预算管理 财务管理 预算预测分析 场景管理

信创产业发展,与开发者技术相关的有哪些

Geek_2305a8

加密世界:NFT、DeFi和游戏的热点新闻概览

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

流水线运行出错排查难?AI 来帮你

阿里云云效

阿里云 云原生 云效

Flink 作业管理器:核心功能、角色与责任详解

木南曌

flink 实时计算

开发备受欢迎的网络直播体育赛事平台,需要这些内容和功能

软件开发-梦幻运营部

企业未来都会用上云原生开发工具吗?它有什么优势

Tp_jh

AI 云原生 K8s 多集群管理

西安站开营!AI 编码助手通义灵码帮大学生“整活儿”

阿里巴巴云原生

阿里云 云原生 通义灵码

软件测试学习笔记丨Selenium执行JavaScript脚本

测试人

JavaScript 软件测试 自动化测试 测试开发

成都算筹科技有限公司

科技热闻

风险防不胜防?看YashanDB如何守护你的数据库安全(上篇)

YashanDB

选择合适的监控观测平台,为业务出海合规建设减负

观测云

监控 出海

IAM打通数字世界身份信息通道

芯盾时代

网络安全 iam 统一身份管理平台 最小权限管理

Memecoin再迎爆发:是本轮牛市大反弹的开始吗?

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

全国独家线下面授 | 杭州·大规模敏捷LeSS认证6月13-15日开班

ShineScrum捷行

less 大规模敏捷LeSS 吕毅老师

5月10-11日·大连线下·CSM认证【提前报名特惠】“全球金牌课程”CST导师亲授

ShineScrum捷行

CSM CSM认证 cst 线下授课

流水线运行出错排查难?AI 来帮你

阿里巴巴云原生

阿里云 云原生 云效

淘宝商品详情API接口:全面解析商品属性与数据

技术冰糖葫芦

api 货币化 API 接口 API 文档 API】 pinduoduo API

GaussDB SQL查询语句执行过程解析

华为云开发者联盟

数据库 华为云 华为云GaussDB 华为云开发者联盟 企业号2024年4月PK榜

指标+AI:迈向智能化,让指标应用更高效

袋鼠云数栈

指标 指标管理 指标平台 指标开发 指标+ai

如何处理暗数据?_文化 & 方法_华为云开发者联盟_InfoQ精选文章