写点什么

信息架构(IA)之不存,人工智能(AI)将焉附

2017 年 5 月 01 日

AI

本文最早发表在《 IEEE Software 》杂志。《 IEEE Software 》针对当前的战略技术问题,提供了经同行评议的详实信息,可满足企业灵活可靠运营、IT 经理人和依赖 IT 专业人士的技术领导对先进解决方案的需求。

人工智能(AI,Artificial Intelligence)正日益受到企业的重视,这些企业分布在各行各业中,具有不同的企业规模,从资金充裕的初创公司到一些久负盛名的软件企业。金融企业同样也在构建以 AI 为驱动的投资顾问【1】。此外,聊天机器人已能提供多种多样的服务,从客户服务【2】到销售助理【3】。尽管 AI 得到了广泛的关注,但是很多人并不清楚的是,事实上 AI 依赖于知识工程、信息架构(IA,Information Architecture)和高质量的数据源。一些企业回避了这些问题,宣称它们的算法能操作非结构化信息源,即能做到“理解”这些数据源、解释用户的查询以及无需预定义架构或用户介入即可展示结果。虽然在某些场景下的确能达到这样好的功效,但是对于大部分应用而言,在神经网络、机器学习和自然语言处理器能发挥出它们的魔力之前,需要人工完成大量艰巨的工作。

在 2015 年的一次会议上,使用了深度学习和神经网络技术的 DigitalGenius 得到了媒体的关注【4】。DigitalGenius 将输入的问题分类为产品信息、账户信息、行为请求、比较问题、推荐问题等类别,然后做进一步处理。这些分类操作就是 IA 的基础元素。DigitalGenius 首先构建查询的情景,然后将查询传递给其它的模块,例如产品信息系统、数据库和 API 等。为了返回正确的信息,对每个系统和数据源需要很好地做 IA。如果信息并未以任何方式结构化或是管护(curation),就不会提供任何系统能返回的内容。正因为使用了高质量、结构化的数据进行预测,DigitalGenius 得以运用 AI 技术吸引客户。

数字营销:从场景中获取正确的信息

企业需要不断改进与客户打交道的数字化手段,这是一个永无休止的循环,措施包括:通过提供相关性更好的内容改进用户的个性化体验、优化搜索的结果以返回用户的确感兴趣的内容、改进优惠和促销活动的有效性等。企业还可能想要努力增大以电子邮件形式交流的反馈率、提供更好的客户自助服务、增加对用户社区和其它社会媒体场所的参与度、通过其它各种在线机制普遍提高产品体验等。在上述的各个用例中,营销手段都是在最正确的时间上以及对客户最具意义和价值的场景中,为客户提供相关的数据或内容,所使用的方式是促销、优惠、降价、下一步最佳行动、用于向上销售和交叉销售的产品、问题解答等。

这是通过解释各种信号实现的。这些信号来自于客户与企业的当前和过往交互,其中包括:过往购买记录、实时点击流数据、与支持中心的交互、消费内容、个人喜好、购买特性、人口统计数据、商业统计数据、社会媒体信息,以及其他一些营销自动化和集成技术所捕获的“数字化肢体语言”。例如,对于技术用户和非技术用户,一个查询请求可能会分别返回不同的结果。查询系统本质上就是一个推荐系统,其中信号是搜索词,推荐内容就是结果集。对用户了解得越深入,推荐就会越精炼。要对产品做推荐,先决条件是具有干净的、结构化良好的产品数据。

个性化、用户信号和推荐

正确的推荐和真正个性化的用户体验,需要产品数据是适当结构化和组织的,需要内容过程集成到产品的用户引导(Onboarding)中,还需要做出产品、内容和用户意向信号之间的关联。用户的任务以及有助于用户完成任务的内容,这些知识是产品和内容间关系的根基所在。任务可能会是评论、指南、产品的规格说明、参考资料、指导意见、图表和图像,或是其它有助于用户做出购买决定的内容。

有一类 AI 应用允许更容易地与计算机交互,并允许计算机处理更多通常属于人类认知领域的问题。每个 AI 程序都是与信息相连接的,信息具有更好的结构化,程序就更为有效。在信息的语料库中,包含了 AI 程序试图去处理和解释的答案。为了检索而对这些信息进行结构化,这一过程称为知识工程。其中,信息的结构称为知识表示。

本体作为知识表示

在组成上,知识表示包括分类标准、受控词汇表、主题词表结构以及在术语和概念之间的所有关系。这些元素共同组成了本体。本体代表了领域中的知识和信息架构的结构,以及在特定场景下访问和检索答案的机制。本体也可以捕获真实世界逻辑关系中的“常识”知识,包括对象、过程、材料、动作和事件等。本体以这种方式构成了计算机推理的基础,即便问题的答案并未清晰地包含在语料库中,也可以从本体的事实、术语和关系中推理出答案。事实上,这使得系统在用户使用短语变体做请求时表现得更友好和宽容,并使得系统更胜任于在开发时尚未完整定义的用例。事实上,系统可以“推理”并做出逻辑演绎。

对用户信号的正确解释将使系统可以正确地表示用户场景内容,这不仅需要我们的客户数据是干净的、被适当地结构化了并集成于多个系统和过程中,而且需要系统能理解用户间关系、用户特定的任务、产品和所需的内容,所有这些都是实时动态组装的。构建这些结果和关系,并在各种后端平台和前端系统间协调架构,所生成的企业本体就会允许个性化和全渠道体验。有人可能会将其称为一种企业 IA,只是其中具有数据结构之外的更多内容。回顾一下,在本体的定义中包括真实世界中的逻辑和关系,本体可以包含过程、客户需求和内容关系的知识【5】。

为产品关系挖掘内容

消费者和工业产品需要与内容和用户场景相关联,还可以通过挖掘内容为用户场景推荐产品。如果在一个工业应用中需要完成维护液压系统,用户可能会需要零件和工具。如果使用自适应模式识别软件去挖掘液压系统的参考手册并进行维修,系统可以抽取一系列所需的工具以及相关内容。如果搜索液压修理,就会基于产品关系展示一个动态生成的产品页面,并关联到企业的产品。对于一些信息专家,这可能听上去十分复杂,实现也比较繁琐。但是,一些新兴的方法能使这些愿望趋近实现。

AI 都是高深莫测的

AI 组成的概念随技术的演进而发生演化。我的一个同事曾经这样说:“事物的工作机制在被人理解之前,就是一种人工智能”。这确实是一个很有意思的观点。我在 MIT 的一门人工智能课程中,发现了支持这一观点的材料:

AI 的另一部分……在本质上是关于应用的。其中的一些应用可能不会被称为“智能”……。例如,编译器通常会被认为是一种 AI,因为……语句是一种高级语言。但计算机如何能理解语句呢?让计算机可以理解语句的工作……曾被认为是一种 AI,现在……我们理解了编译器的工作原理,也具备了如何构建编译器的理论……那好,编译器就不再是一种 AI 了。……任何事物一旦运作起来,被会被其它领域所借鉴。因此从定义上看,没有任何 AI 的工作机制是为人所知的;换句话说,AI 都是高深莫测的。

处理能力和性能的提升解决了那些看上去十分棘手的问题。就在前不久考虑到自动驾驶汽车所需要实时处理的数据流,它还被认为在技术上是不可能实现的。语音识别也曾被认为是不可靠的,因为它需要大量与口音相关的训练。移动电话曾是需要一车厢仪器的“汽车”电话(我在上世纪八十年代就有了第一部汽车电话,不仅耗费了上千美元,而且占据了我宽敞后备箱的大部分空间)。当今,许多 AI 已被认为是理所当然的。我所使用的字处理软件都曾被看成是一个先进的 AI 应用!

简单就是隐藏复杂性

无疑 AI 是复杂的,但是这种复杂性对用户而言是隐藏的,事实上,AI 提供了一种简单直观的体验。这并非是魔法,AI 需要的是在多个不同的过程、部门和应用间可重用的基础结构。这些结构通常首先从筒仓和独立工具中开发而来。一旦从机器智能架构的整体框架上考虑问题,就能认识到 AI 的真实能力。AI 将改变商业版图,但需要对产品和内容架构、用户数据和分析方法进行投资,并协调消费者互动(Customer Engagement)生态中的各种工具。采用了这些方法的企业将在竞争中受益匪浅。

干净的数据是入场费

如何通过处理信息过载问题改进消费者互动,这是企业所面对的挑战性问题,有人建议 AI 用于解决这一挑战。在可以借助于 AI 方法之前,企业需要掌控机器学习算法输入所需的数据,这样才能从结构化和非结构化的数据中依此处理这些多样化的信号。AI 算法需要的数据应是干净的、具有良好结构化的并且是被管理的。

在很多情况下,比起金融和交易数据这样良好组织的数据源,AI 系统所分析的数据或语料库通常是更缺乏结构化的。学习算法可用于从模棱两可的查询中抽取意图,并试图理解非结构化数据输入。人们可能会使用不同的术语将他们的问题表述为短句,也可能会询问一些过于宽泛的问题。通常人们并不十分清楚自己的目标,他们不必知道自己在寻找什么。这就是为什么推销人员通常热衷于从对话中琢磨消费者的全部需求,而不是直接去询问消费者需要什么(至少好的销售人员是这样做的。)

如果用户知道自身的需求并能清楚地表达处理,或者是提供相对直观的解答时,在上述过程中加入 AI 是最为有效的。对于处理问题提问方式的各种变化、解释问题的意思,以及处理其他有助于进一步将用户意图置于场景中研究的非结构信号,AI 算法能发挥其最大作用。AI 系统由多种 AI 以及多类算法组成。即便使用 AI 系统从完全非结构化的信息中发现结构信息,依然需要具有数据层的结构。

既然 AI 系统搜索的数据是非结构化的,那么为什么我们还需要 IA?非结构化数据通常是页面、文档、评论、调查、社会媒体以及其他来源的文本。虽然数据是非结构化的,但是依然存在关联到数据源和内容的参数。社会媒体信息需要各种参数去描述用户、用户发帖、关系、发帖的时间和位置、链接、hashtag 等信息。这种情况下,信息架构问题描述了输入数据的结构,以便系统可编程去寻找感兴趣的模式。即便是在无监督机器学习(一类应用,从数据中获得信号,并非人类预定义的)的场景下,编程人员依然需要一开始就用属性和值对数据进行描述。虽然所检测到异常值和模式可能并没有预定义的类别,但是输入需要具有结构。

在考虑构成机器学习输入的大数据源时,一个常见的谬误是“无模式的”(不具有预定义的结构)数据就不需要任何的结构。当应用数据到机器学习和模式识别算法时,依然需要对数据做属性定义、规范化和清洗【6】。当企业着手引入机器学习和 AI 时,首要应该开发的是表示所有知识的企业本体,这些知识是企业部署的 AI 系统处理、分析、借助和需要的。

一些企业也许会对这种方法的价值存有异议,坚称算法可以处理任何抛向它们的东西。但是在我看来,这仅当本体在工具中是自包含时才成立。即便如此,在广泛采用的工具中所包含的内容与企业的特定需求之间,也总是存在着鸿沟。即便是针对特定行业开发的工具,不同企业发现的过程也存在着差异,这些差异需要专有词汇和情境知识关系。这是一个重要的任务,否则就会失去过程中的一个重要步骤。

很多所谓 AI 的方式其实是扩展了一些总所周知的方法,用于解决信息管理的问题,所有这些方法都需要以干净的基础数据和信息结构为出发点。标准信息管理和现实 AI 之间的差距,就在于理解这些技术中的局限性,以及这些技术对解决企业挑战的最佳适用之处。

下面,本文将介绍企业如何识别能够从 AI 中受益的用例,如何识别能提供可靠并有意义的见解的数据源用于训练和引导 AI,如何定义允许 AI 和认知计算系统持续改进的数据治理、管护和扩展过程。

识别用例

要从标准信息管理用例中区分出 AI 用例,需要考虑因素的包括组成被处理“信号”的数据源、用户所面对的任务类型,以及将要成为解决方案组成部分的系统。这些问题解决方法的差异在于数据是如何管护和输入的、如何组织要被推断和应用的原则、所需功能的复杂性以及现有已部署方案的局限性。在执行层面、程序层面治理和企业影响范围上,AI 方法需要做更大层次的投资和赞助,还将需要比典型的信息管理项目更长期的承诺。虽然一些情况下可以部署作用范围有限的 AI,但是在 ERP 规模上作为一类革命性的技术,在一些情况下完全地借助于 AI 应是整体数字转变策略的一部分,并具有适当的支持、资金和保证(一些 ERP 程序可以花费五千万美元到一亿美元,甚至更高)。虽然在这一承诺层级上没有企业会使用一系列未验证的技术,但是对于不断涌现的 AI 技术,也要分配资金去实现这些 AI 技术的验证方法。

AI 转化路线图包括对投资回报和 ROI 的持续评估,在聚焦于短期成果的同时,追求长期的目标。大部分企业正力图使用有限的方法、部门级解决方案、独立的工具和不充足的资金解决表一中列出的大多数企业所面对的问题。虽然使用有限的资源和筒仓方法可以取得一些进展,但是这些解决方法只是像以往那样扩展了业务。真正革命性应用需要从企业角度以整体看待知识,实现新的治理、度量和数据质量程序。知识用于生成决策,度量用于监控这些决策的有效性,数据质量用于为 AI 引擎提供动力。

表一中列出了 AI 技术的应用实例。

表一 AI 技术的应用实例

应用 / 问题

典型方法

工作原理

AI 的作用

全渠道零售 整合各个僵化系统 内容通常缺乏同步,系统间整合脆弱。 从渠道和设备中采收用户意图信号,智能整合不同类型的消费者互动技术 个性化和推荐引擎 根据人物角色和基于用例的内容表现对用户进行分类 假设过于初级和简单,用户选择有限,很少有期望的需求 集成多个数据源、本体和推理算法 动态内容组装 基于管护内容的有限组装 排列数量不能被追踪、管理和理解。 在集成实时数据的同时,组装适合用户偏好的内容,例如由嵌入在本体中的知识所支持的新闻和市场表现 现场服务,设备维护 查看维护计划,分析现场报告 人们无法感知来自传感器的信息量,以及来自性能下降的隐含信号 通过处理性能数据去预测或预防维护事件 客户自助服务 知识库和 FAQ 对用户场景、语言变体、内容快速的改变以及需要大量的可能用例等问题考虑不周 允许使用多变量访问智能代理知识库,以提供具有度量驱动反馈机制的特定问题 呼叫中心支持 通过在职经验和知识库训练的客户代表 达到技术和特定知识所需的经验等级的成本过于高昂 允许智能代理访问,使用自然语言接口去集成来自于多个知识库和数据源的回答和内容 产品和工具展示 手工构建的登陆页面 维护手工打造和组装的登陆页面会变成代价高和不可管理 基于维护任务和维修用例,通过知识识别和挖掘参考资料而采集产品关系## 识别数据源

训练数据可以来自传统的知识库,数据管护得越好,训练效果就会越好。呼叫中心记录和聊天日志可以挖掘出内容和数据的关联关系,还可以挖掘问题的答案。传感器流数据可以关联历史维护记录,搜索日志可以挖掘用例和用户问题。处理客户账户数据和购买记录可以找出卖家间的相似性,预测对报价的回应;为让细分的买家浮现出来,可以使用报价中的文本内容处理电子邮件回复的度量。产品目录和数据表是属性和属性值的来源。公共参考可以用于过程、工具列表和产品联合。YouTube 视频内容音轨可以转换为文本,从中挖掘产品的关联。用户网站的行为可以关联到报价和动态内容。还可以挖掘情感分析、用户生成内容、社会图谱数据和其它外部数据源,重新组合生成知识和用户意图信号。数据源是否正确,取决于应用、用例和目标。

表二中给出了 AI 工具的实例,其中列举了代表性应用、局限性、使用者的考量和数据源的情况。虽然我们并未打算构建一个完全的列表,因为我们认识到一类工具会频繁借用其它工具和应用(例如,一个智能代理可以使用推理引擎,进而可以借助学习算法),但是表二清楚地表达了我们对于探索各方法间对比的考虑。

表二 AI 工具实例,其中列举了代表性应用、局限性、使用中的考量和数据源的情况

工具类别

最佳适用场景

工具的局限性

推理引擎 从非结构化内容生成产品和数据关系 在一些特定用例中,需要大量的工作去开发自适应模式识别算法 智能代理 对可定义过程的高选取度搜索和信息检索 可能用例的适用范围,查询和问题的变化性,术语与关系间的手工映射程度 自动分类器 可以应用训练集和明晰的规则的大量高质量内容 规则基础可变得非常复杂,需要大量的训练内容,内容的变化性 实体抽取器 数据的可预测格式(社会保险号码、住址、姓名、电话号码、银行账户) 实体值的模糊性(例如,“华盛顿”一词可以指华盛顿州、乔治 - 华盛顿,华盛顿特区等),数据在格式、质量和内容上的变化。 无监督机器学习 模式检测、识别和预测;异常检测;奇异点;隐藏的属性和关系;发现新模式,或将受众、内容或数据划分为聚类或分组 依赖所创建的基础假设去定义奇异点或模式(虽然不必是模式的细节);算法类别的选取需要技术上的复杂性,从数据信号到内容、图形或事务等多个无监督训练类上的反复测试 有监督机器学习 基于训练数据的模式检测,用于得到充分理解的模式;基于实例发现数据、内容和关系;发现具有相似特性的类似文档、购买模式和受众;预测输出。 需要去训练算法寻找目标类型信息的训练数据集和实例数据;需要足够的大量例子去测试各种假设和理解特定的输出;存在未发现模式的风险(即过拟合) 有监督和无监督学习的混合使用 找到隐含的模式(无监督);使用这些模式去训练一个算法,定位更多的数据或内容实例。 在概念上类似于创建一个具有开放问题的调查,获取调查的结果,并使用这些结果去形成封闭的调查。## 定义数据治理、管护和扩展过程

AI 和认知计算的管理方式与其它的信息和技术治理相同。它们需要高级管理人员的赞助、特许建立、角色和职责、决策制定协议、升级过程、定义日程和链接到特定的业务目标和过程。这些措施是数字转化过程的一部分,链接到客户生命周期和内部价值链。因为目标总是要影响到过程的输出,所有 AI 和认知计算程序都在多层面细节上密切契合了不断发展的度量,从内容及数据的质量到过程的有效性及对业务需求的满意度,并最终关联到企业的竞争力和市场策略。要对各个计划的阶段注入资金,需要定义一些里程碑和阶段,其中每个阶段具有已明确定义的成功准则和可测量输出。

毫无疑问,AI 将会继续对我们个人和职业生活的方方面面产生影响,这些影响多以微妙的方式发生,例如,应用可用性的改进,更多信息可以发现等。要实现 AI,这些影响不必都呈现出来。随着时间的推移,AI 驱动的智能虚拟助理将会更为顺畅和适用,并将成为我们与技术交互的首选机制。人类创造了知识,机器处理、存储并操作知识。AI 已应用了人类的知识。企业需要通过捕获和管理知识,搭建这些知识的脚手架,并以此为基础数据结构去发展推动 AI 基础。如果没有这些组件,算法就会成为空中楼阁。

参考文献

  1. J. Vögeli,“ UBS 转向使用人工智能为客户提供建议”,Bloomberg,2014 年 12 月 7 日;
  2. C. Green,“客户服务的未来是否在于人工智能?”,《MyCustomer》,2015 年 12 月 3 日;
  3. E. Dwoskin,“人工智能可以用于鞋类销售?”,华尔街日报博客,2015 年 11 月 17 日;
  4. R. Miller,“ DigitalGenius 通过短信服务在客户服务中引入人工智能”,Tech Crunch,2015 年 5 月 5 日;
  5. S. Earley,“来自 Alexa 的经验之谈:人工智能和机器学习用例”,Earley Information Science 博客,2016 年 3 月 24 日;
  6. J. Brownlee,“如何为机器学习准备数据”,Machine Learning Mastery,2013 年 12 月 25 日;

关于本文作者

Seth Earley 是 Earley Information Science 的 CEO。他是知识处理、企业数据架构和客户体验管理战略等领域的专家,其兴趣包括客户体验分析计、知识管理、结构及非结构化数据系统和战略,以及机器学习。读者可以通过 seth@earley.com 与他联系。

本文最早发表在《 IEEE Software 》杂志。《 IEEE Software 》针对当前的战略技术问题,提供了经同行评议的详实信息,可满足企业灵活可靠运营、IT 经理人和依赖 IT 专业人士的技术领导对先进解决方案的需求。

查看英文原文: There Is No AI Without IA


感谢冬雨对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017 年 5 月 01 日 18:141677
用户头像

发布了 226 篇内容, 共 59.5 次阅读, 收获喜欢 14 次。

关注
AI

评论

发布
暂无评论
发现更多内容

ArrayList哪种循环效率更好你真的清楚吗

java金融

Java 后端 ArrayList 循环效率 方式

软件设计原则

yupi

【Golang runtime学习笔记-启动过程分析】

卓丁

golang 初始化 runtime 汇编 go汇编

终于有人把 java代理 讲清楚了,万字详解!

java金融

Java jdk 后端 动态代理 cglib

实现一个redis命令--nonzerodecr

老胡爱分享

redis 源码分析 源码阅读

游戏夜读 | RPG的美式和日式

game1night

Java操作Excel竟如此简单

生命在于折腾

Java EasyExcel

Git 基础知识学习

LeoBing

在项目中随手把haseMap改成了currenHaseMap差点被公司给开除了

java金融

Java 后端 BigDecimal金额 Arrays.asList

一款跨平台免费的开源 SQL 编辑器和数据库管理器!

JackTian

数据库 sql GitHub 开源项目 实用工具

啥是CPU缓存?又如何提高缓存命中率呢?

八两

2020最新阿里Java高级面试题(首发,50道附答案)

互联网架构师小马

效率思维模式与Zombie Scrum

Worktile

敏捷开发

Kafka面试题:基础27问,必须都会的呀!

Java小咖秀

大数据 kafka 分布式 队列 延时消息

[架构师训练营] 2 依赖倒置

悬浮

SpringIOC 是依赖倒置吗?

yupi

架构师训练营 - 第 2 周命题作业

红了哟

策略模式解析

七哥爱编程

设计模式 策略模式

golang-pprof实战笔记

卓丁

golang pprof 性能分析

架构师训练营第二周作业

陈靓-哲露

架构师第二周学习总结

陈靓-哲露

区块链系列教程之:比特币的钱包与交易

程序那些事

比特币 区块链 智能合约 钱包 交易

如何做好职场印象管理?

石云升

职场 印象管理 职场形象

在 React 仓库中的那些 package

teabyii

源码 前端 React

架构师训练营 - 第2周学习总结

红了哟

程序员的晚餐 | 6 月 20 日 随便牛肉和翡翠白玉

清远

美食

由一次管理后台定时推送功能引发的对 RabbitMQ 延迟队列的思考 (二)

LSJ

Java RabbitMQ 延迟队列 优先级队列

从拼多多突破阿里和京东两大巨头绞杀,市值破千亿美金来看职业价值链

非著名程序员

程序员 程序人生 职业规划 程序员成长 职业成长

大话设计模式 | 3. SOLID原则

Puran

设计模式

LeetCode | 4. Palindrome Number 回文数

Puran

Python C# 算法 LeetCode

架构师训练营第三周学习总结

张明森

InfoQ 极客传媒开发者生态共创计划线上发布会

InfoQ 极客传媒开发者生态共创计划线上发布会

信息架构(IA)之不存,人工智能(AI)将焉附-InfoQ