写点什么

如何处理暗数据?

  • 2020-05-15
  • 本文字数:2440 字

    阅读完需:约 8 分钟

如何处理暗数据?

有研究表明,全球数据总量每两年翻一番,各企业都在处理和存储这些海量数据。这些数据主要由结构化数据、非结构化数据等类型数据构成。企业对数据了解得越透彻,就能够越准确地判断数据的价值及风险。


结构化的数据:即有固定格式和有限长度的数据。例如填的表格就是结构化的数据,国籍:中华人民共和国,民族:汉,性别:男,这都叫结构化数据。对于 ICT 领域来说,就是以固定的格式存储到数据库里的数据(Oracle/MySQL/…)。


半结构化数据:是一些 XML 或者 HTML 的格式的,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。


非结构化的数据:就是不定长、无固定格式的数据,例如网页,邮件,有时候非常长;有时候非常短,几句话就没了;例如 Word 文档、语音,视频、图片都是非结构化的数据。现在非结构化的数据居多。


为了描述方便,我们把半结构化数据和非结构化数据,合二为一统称为“暗数据”,当然这个词不是我起的,是 AA 公司起的名字。AA(Automation Anywhere)公司于 2003 年最初由 Ankur Kothari,Mihir Shukla,Neeti Mehta 和 Rushabh Parmani 在加利福尼亚州圣何塞的 Tethys Solutions,LLC 成立。该软件公司在 10 多个国家/地区开展业务,开发适用于领先金融服务,业务流程外包,医疗保健,技术和保险公司的机器人过程自动化技术的产品。在 RPA 领域市场份额第一,全球最大的 RPA 生态,培训并认证超过 10,000 名 RPA 人员。


AA 公司统计“暗数据”占比达 80%,就像下图冰山在水下的部分。这些暗数据,导致信息是断裂的,传统的自动化不能访问。业界最头疼的就是如何处理这部分数据?

一:传统处理暗数据的方法

目前传统的公司,在处理暗数据的时候,采用的是笨办法,想办法把非结构化的数据转换成结构化数据。或者干脆,大部分公司是让这些暗数据躺在数据湖里沉睡中,没有任何用处,反而还浪费了存储和维护资源。像我们的站点数据、设备数据、网络数据、操作数据,大部分都是暗数据。我们现在花大力气在想办法结构化,这可能是最笨的办法。费时费力,结果还很差。

二:利用 AI 处理暗数据的新方法

其实单纯的 RPA 做的工作非常有限,RPA 主要是处理结构化和流程化的数据,不能处理“暗数据”。利用 AI 技术,就可以处理图片、邮件等暗数据,同时 AI 还可以随机应变的处理一些突发的流程。


下面列举了 AI 和 RPA 的差异点:


RPA处理数据的类型和能力范围AI处理数据的类型和能力范围
模仿用户的活动模仿人类思维过程,视觉,语言和模式识别
可以处理结构化和一些半结构化数据可以处理结构化,半结构化,和非结构化数据
基于规则的自动化可以通过“学习”改变其行为动作(随机应变能力)
高度确定性通过概率计算,使其具有确定性
代理协助或数字劳动模型点解决方案 - 不是广泛的能力(窄AI)


AA 这家公司把 AI 和 RPA 结合起来,处理暗数据。使用的关键技术如下:


1:语音识别:主要处理对话、录音、音频等文件。


2:NLP:主要处理文本、邮件、文档等文件。


3:计算视觉:主要处理图片、PDF 中嵌入的图片等信息。


4:机器学习 &深度学习:主要通过“学习”,处理一些异常事件,让流程能正常流转,像人一样,能灵活处理问题。

三:AA 这家公司推出的关键产品(或解决方案)

推出了 IQ-Bot 的解决方案。IQ Bot 是人工智能(AI)解决方案,业务用户可以轻松设置和使用,以更快地自动读取和处理各种复杂的文档和电子邮件。另外,IQ Bot 通过构建的自动化认知,可与 IBM Watson/Google Cloud AI/MS Cognitive Service 等 AI 解决方案集成,以弥合 RPA 与纯认知平台之间的差距。


在其主页上呈现的 IQ BOT 解决方案的示例如图,重点是想说明 IQ Bot 是一座桥梁,可以连接 RPA 和认知平台:


使用 IQ-Bot 前后对比


AI 能够以内容为中心实现流程自动化,使 AI 成为理想的 RPA 的补充技术。使用两者的组合,组织可以端到端自动化流程,例如使用 AI,解析,分类和理解语义或情绪,并将所需的行动传递给 RPA。例如:完成使用 AI 为客户撰写确认函/文本或电子邮件等案例。

四:如何把 AI 嵌入到前台的 RPA 流程中去?

1:许多流程需要理解语义。利用 AI 中的 NLP 技术理解句子的结构,语义和意图。


通过统计方法和机器学习。NLP 将文本转换为数据,反之亦然,允许人与人之间有意义的互动。它包括自然语言理解和生成,例如:保险公司处理索赔、银行抵押贷款,这些都需要补充材料,包括图片(身份证信息)、表格信息、邮件信息、文本信息等等,这些都是非结构化信息,很难直接使用 RPA 自动化,影响了这个流程的效率。文本,电子邮件,信件和图像,首先通过 NLP 和图像识别技术以便进一步处理。


2:利用计算机视觉技术自动提取,分析图片,转换成语义。


从单个图像或一系列图像(包括扫描文档)中理解有用信息,实现自动视觉理解。


3:通过 ML(Machine Learning)来实现一些灵活化处理问题的能力。


通过算法来实现人处理问题的灵活性,无需明确固定的流程,可以通过“学习”来灵活处理,具备随机应变的处理机制,避免通过系统对接传递大量数据。

五:AI 方法的借鉴意义?

这多年过去了,整个电信业界就没有搞定网络拓扑,特别是跨域和跨厂商的。我一直认为,通过采集上来的现有公开数据(不同厂商肯定有网管系统),通过数据的拼接,是可以拼出一个拓扑的。大家觉得不可能。其实想想 Google 地图,看看 Google 地图是怎么做到的?地图需要拼接的数据量肯定是网络信息的很多倍,难度也大于网络拓扑,但为什么地图能搞出来,而一个拓扑就搞不出来呢?利用数据的拼接+AI 技术,是可以把整网跨厂商的网络拓扑拼接出来的。

六:给大家介绍的 IQ Bot 的目的是打开一扇窗,让大家去寻宝

IQ Bot:认知自动化机器人,是专门负责处理暗数据,IQ Bot 发现和转换隐藏数据,以更快,更高效地自动化业务流程,同时消除人为错误。


在这个 AI 时代,如何让手里的数据发挥出价值成为在市场中杀出重围的重要的技能。企业面对内部大量的暗数据,需要建立高效的数据管理体系,学会妥善运用算法、简化流程,才能迎接这数据洪流时代。


来自公众号:网络人工智能园地


作者:高亮


2020-05-15 16:43799

评论

发布
暂无评论
发现更多内容

区块链技术应用新阶段有五大趋势

CECBC

比特币 区块链 数字货币

案例研究之聊聊 QLExpress 源码 (三)

小诚信驿站

刘晓成 小诚信驿站 28天写作 QLExpress源码 聊聊源码

花火交易所系统开发、雷达模式系统搭建开发

W13902449729

花火交易所系统开发 雷达模式系统搭建开发

DAPP智能合约交易系统开发、DAPP系统开发的详细解释

W13902449729

DAPP智能合约交易系统开发 DAPP系统开发

小马哥刷LeetCode 1480. 一维数组的动态和

小马哥

Java 面试 数据结构与算法 28天写作

赫拉利其人其书之我见(2)

石君

28天写作 简史 科技简史

波场链DAPP软件APP开发|波场链DAPP系统开发

系统开发

分布式全链路灰度发布的探索与实践

阿里巴巴云原生

阿里云 微服务 运维 云原生 中间件

霸榜各个网站的阿里独有的高并发高并发手册:Netty、Redis、Zookeeper,看完惊呆了!

996小迁

redis zookeeper 架构 面试 Netty

理财之我见

三石

理财 28天写作

没想到,学习带给我最宝贵的东西是底气

Sandy

SpringCloud 从入门到精通 05--- 订单模块

Felix

LeetCode题解:236. 二叉树的最近公共祖先,递归,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

数智化浪潮之中,传统企业如何抓住转型机遇?

京东科技开发者

DevOps

助力ARM生态 —Dragonwell新增aarch64支持

阿里云基础软件团队

什么是区块链挖矿?区块链怎么挖矿?

v16629866266

产品风控:短信验证码的风控策略

香芋味的猫丶

短信防刷 产品安全 短信验证码 短信防轰炸 短信防火墙

第1周架构方法总结

Richard

UML 需求分析 概要设计 软件架构设计 详细设计

2020年度编程语言排行榜 C语言称霸,Java遭遇滑铁卢?

架构精进之路

编程语言 28天写作

博弈论 - 海盗分金

石云升

博弈论 28天写作 海盗分金

侵犯商业秘密罪律师提醒区块链技术与商业秘密的安全保管

CECBC

时间戳

助力金三银四跳槽季,《Java面试突击版》第四版强势来袭

Java架构之路

Java 程序员 架构 面试 编程语言

凭借这份Java超硬核面试 “备战” 手册!我刚面试完字节跳动、阿里、华为、小米等后端岗位

Java架构之路

Java 程序员 架构 面试 编程语言

学习,不是一件一蹴而就的事情

Sandy

分布式批量任务调度、自动化运维管理监控平台Taskctl

敏捷调度TASKCTL

kettle 分布式系统 海豚调度 自动化部署 ETL

腾讯十年,总结出这份Java架构师知识路线,保你稳拿40k+

Java架构追梦

Java 面试 架构师成长笔记 金三银四 全栈知识点

跪了!Alibaba内部出品贼火的Java面试手册,全面对标蚂蚁金服、头条、拼多多等

Java架构之路

Java 程序员 架构 面试 编程语言

音频特征提取方法和工具汇总

行者AI

音视频

不交“人脉”交朋友:新荣耀的底气与新机

脑极体

全面开创城市数字经济新时代

CECBC

数字经济

ArgoCD + KubeVela:以开发者为中心的 GitOps

阿里巴巴云原生

阿里云 开源 容器 云原生 k8s

如何处理暗数据?_文化 & 方法_华为云开发者联盟_InfoQ精选文章