写点什么

作者访谈:《信息管理中的模式》

2014 年 5 月 06 日

在 Mandy Chessell 和 Harald Smith 共同所著的新书《信息管理中的模式》中,他们根据自己丰富的客户实施经验就如何组织和管理企业中的信息资产给出了他们自己的一些方法。他们采用了一种依靠模式的方法来确定用于解决不同的与信息相关的问题的方法,而这些问题都是在他们所服务的企业中经常会遇到的。InfoQ 对本书的二位作者做了一次访谈。

InfoQ:请为我们 InfoQ的读者们简单介绍一下你们自己。

我是 Mandy Chessell,IBM 的杰出工程师和首席发明人,同时也是 IBM 技术研究院领导团队的成员之一。我目前的工作是在 IBM 信息管理 CTO 办公室中担任 InfoSphere 解决方案的首席架构师。我领导设计过用于不同行业和解决方案的参考体系结构(reference architecture),具体包括 IBM 的 Next Best Action 解决方案、Big Data Lake 解决方案以及信息虚拟化。除去我所担当的技术方面的职责之外,我还积极参与了旨在增强 IBM 技术社区活力的各种活动,例如技术指导,还负责对技术人员职业生涯的发展提供各种帮助,并且还参与了公司 Women in Technology 计划中的晋升评审委员会。在 IBM 之外,我还是英国皇家工程院的院士以及英国谢菲尔德大学的客座教授。在 2001 年,我成为了英国皇家工程院银质奖章的首位女性获得者,并且在同年获得了普利茅斯大学的名誉科学博士学位。

我是 Harald Smith,IBM InfoSphere 和 Information Server 产品的软件架构师。在我以往多样的工作经历中一直专注于信息质量、信息集成以及信息管理这类的产品和解决方案,并且长期对模式和设计实践感兴趣。我写过很多文章来帮助我们的客户使用我们 IBM 产品线中的产品,尤其是关于方法论、最佳实践以及系统性能这些方面,并且最近正式成为一位 IBM developerWorks 社区的作者。在我 30 年的工作生涯中,我从事过的领域覆盖了软件产品管理、信息技术、咨询服务、技术支持、系统审查以及业务流程重建。这些经历开阔了我的眼界,使我了解了很多与信息相关的跨行业的难题。

InfoQ:你们为什么要写这本书,打算通过这本书解决什么问题?

在过去的这十几年的时间里我们服务了大量的客户,在这个过程中我们逐渐找到了在企业的信息管理工作中经常遇到的那些相近的难题。这些客户可以找到介绍关于如何存储信息的书籍(例如数据仓库),也可以找到介绍关于如何清理信息的书籍(例如数据质量策略),但一直很难找到关于如何在企业内的众多信息系统和应用间管理信息流的一套完整的方法。

因此,这本书的创作始于一个名为“信息供应链”的概念。IBM 的营销部门使用这个术语来描述系统间的信息流动。不同来源的信息通过企业中的业务系统被装载到数据仓库和数据集市中,然后再通过报表或者商业智能解决方案最终送达终端用户的手中。这个概念与以原材料进行产品生产的过程中所用到的制造供应链十分相似。只不过在这里“信息供应链”的目的是以所提供的原始信息来生产出某种“信息产品”(例如文档、报表、网页或者信息的存储集)。随后我们开始以架构的视角来思考这种像供应链一样的信息流动,在这个过程中我们开始观察出一些我们认为客户企业的架构可以借鉴的一些有用的模式。

InfoQ:本书所面向的读者是哪些?

本书的主要读者是那些负责决定通过什么样的方法在多样化的信息系统和应用间进行信息的共享、集成、同步和管理的企业架构师、信息架构师以及解决方案架构师们。这些人员必须要负责找到影响信息使用效率的多个因素,以此来提高企业的决策能力、创造新的附加值以及减少成本或风险。

InfoQ:怎样才算是一个“以信息为中心的企业”?为什么它如此重要?

一家“以信息为中心的企业”会依靠高质量和及时的信息驱动业务的运行,以此来实现既定的目标和任务。如今我们已经进入到了一个把信息作为一项关键的竞争资源的时代,那些关注于信息的利用,并且对所拥有的信息进行分析和学习的企业往往会比那些不关注信息利用的企业取得更大的成功。通过把信息的管理提升到企业战略的高度,以及通过开发系统和实践方法来最大程度地管理和利用信息,一家“以信息为中心的企业”能够通过对信息进行分析从而发现新的收入增长点、推动产品的创新以及进行模式识别来帮助减少欺诈和降低风险。

InfoQ:你们为什么选择使用一种基于“模式”的方法?模式究竟是什么以及它们到底有哪些作用?

对任何企业而言,而不仅仅只是那些大型企业,信息管理都是一项非常复杂的工作。而这种复杂性来自两个方面:

  • 内在复杂性:所要处理的问题本身就非常复杂(例如欺诈检测、物流以及客户行为),因此会需要建立平台以及相应的解决方案来处理来自多个渠道的信息,以此来帮助我们分析和克服这种复杂性。
  • 诱发复杂性(Induced complexity):在任何企业的信息供应链中都可能会出现信息不一致的情况。这种情况的产生可能是由于不同部门间相互独立的业务线、采用了来自多家厂商的架构和应用或者企业并购这些因素导致的。

模式是一种可以用来解决以上两个方面复杂性的方法。信息管理的相关技术为我们提供了实现一个信息供应链所需的架构的多种选择。其中的每种选择都针对某一特定类型的应用做了优化。模式使我们能够比较和对比这些不同的方法以及在哪些方面它们的用处最大。而模式的其他一些特性还包括:

  • 模式是由自然语言写成,因此不需要使用专门的工具。
  • 每个模式都含有很多信息,它们共同应用于多个理解层次。
  • 在模式的描述中列举了相关的选择,以及如何在它们中间做出决定,还涵盖了采用某种方法的优缺点。
  • 每个模式的描述中都提供了一个样例和一些已知应用的引用,还包括了其他类似模式的链接。
  • 不同的模式关联在一起就形成了所要解决的问题的一个完整的描述。
  • 模式中还描述了使用某种特定的方法而带来的新的特性。当把某一类型的组件集成到特定的配置中时会产生这种新的特性。这些新特性通常都是非功能性的特性,例如延迟、可靠性以及一致性方面的改变。

上面的最后一点特别的重要,许多与信息供应链相关的设计决策都是重点关注每种方法能够产生哪些新特性。这种模式语言很适合来解释选择的依据、利弊的权衡以及每种设计选择会给我们带来哪些好处和负担。

InfoQ:这本书通过一个案例分析的方式详细地描述了各种不同的模式。这样做是否能够更好地帮助读者来理解什么时候应该使用以及怎样使用某种模式?

人们更加容易理解那些现实世界中常见的例子,特别是那些人们在头脑中可以想象出来的,例如一个订单的处理流程。我们每个人都曾在商店或者网店中挑选并购买过某种商品。而彼此间孤立的系统可能会造成我们在一个地方能够被识别成老客户但是在另外一个地方却不能(或者是只在其中的一个系统中有我们的正确的收货地址),而这些都会给顾客造成不好的体验。与此同时,即便是在这些最基本的小型企业的例子中,我们也会开始渐渐地了解到如果要充分利用好现有的信息我们需要做哪些权衡工作。而这些权衡工作的结果会自然地引入不同的模式,包括它们的典型用法以及相关的影响因素,这样我们就可以在我们所遇到的与信息相关的难题中做出合理的决定。

InfoQ:本书所涵盖的这些模式大概能分为哪几类?

如下面这张图中所展示的一样,我们将模式分为以下几个大类。

最上面的一层是信息企业,由以信息为中心的企业的相关特性以及企业中具体使用信息的用户所组成。

中间的一层是信息架构,这几组模式主要用于分类、设计以及记录需要什么样的信息、如何使用这些信息以及在哪里存放这些信息。这种信息架构最终会形成关于企业中所使用的信息的一份当前的并持续变化的完整的描述。

最下面一层是信息管理组件。这些组件为闲置的信息运转中的信息信息处理信息保护分别提供了不同的模式。

把这些模式以不同的组合方式放到一起,这样就能反映出企业正在试图解决的多个目标和影响因素,并最终会形成信息解决方案。这些信息解决方案能够帮助企业高效地管理他们的信息,从信息中获取新的发现,并最终为企业产生新的价值。

InfoQ:能为我们举几个读者可能遇到的问题的具体例子吗?读者怎样使用本书中介绍的模式来帮助他们解决这些问题?

这里让我们以一个使用一个数据集市来存储关于顾客以及订单历史信息的企业为例。销售团队希望在这个数据集市上运行一些报表,它们对历史数据执行查询并且按地区汇总出顾客所购买的产品。他们每天都需要从这个数据集市中获得稳定的响应次数。与此同时,为了给公司创建出新的分析模型,数据分析团队也希望使用这个数据集市来对历史数据执行数据挖掘。数据挖掘工作每天会不定期地占用大量的处理能力,因此就会对来自销售团队的工作造成影响。那么公司的 IT 团队如何做才能调节好这两种使用模式呢?

他们使用了沙盒供应(Sandbox Provisioning)模式。当数据分析团队需要为新的分析执行数据挖掘的时候,就会为他们创建一份数据的拷贝。该沙盒中的数据是以方便分析任务运行的方式进行组织,并且它们跑在另外一台机器上面。由于这种沙盒是为了运行某一特定的任务而创建的,因此在挖掘任务执行完成之后,我们会把它删除掉。

上面的这个例子虽然很简单,但它反映出了信息架构需要解决的一个常见的问题。如何才能通过使不同的用户组共享集中存储的数据的方法来减少数据拷贝的数量,而同时还要保证一个用户组所运行的任务不会影响到其它用户组?有些时候当处理模式发生冲突的时候,为一个或多个用户组单独创建一份信息的拷贝也是很有必要的。

这种数据拷贝的代价取决于数据量、数据变化的频繁程度、产生拷贝所能采用的技术以及为了方便目标用户的使用我们需要做多少数据结构的转换工作。以上这些因素都会在信息的供应模式的选择过程中产生影响。一旦我们选定了某种合适的供应方法,然后我们就该决定在供应模式的逻辑中究竟该使用哪种处理模式。是否我们可以采用一个不对数据进行任何转换的简单的信息复制模式?或者是我们需要做数据转换,所以不得不采用一种例如信息部署模式的更加复杂的处理流程。

这种模式的选择通常都是一个充满迭代的过程,而在每一层迭代中,模式的描述信息都解释了采用每种方法所需要的权衡。

InfoQ:如果采用了本书中所介绍的这些概念,会不会将读者引向某一特定的技术解决方案?请问为什么会这样?

模式中所描述的概念通常会强烈地建议使用某种特定的技术以便对一系列想要实现的业务结果作出优化。但同时,我们也可以充分考虑企业中所存在的技术约束,并且把这些技术约束当成影响我们作出其它选择的因素。

例如,单从技术上讲,一个最优的方式是使用信息队列模式把数据以消息的方式传递给应用程序,并让应用程序来负责处理任何数据上的质量问题。这种方法能够保证最快的传输速度以及数据的高可用性。但有时我们的应用程序并不具备处理这些带有质量问题的数据的能力,不正确的数据值可能会引起应用程序的崩溃。这这种情况下,这些存在于信息供应链尾端的约束条件就会对解决方案的适用性造成影响。因此,这里我们需要选择使用一个例如对数据进行提取、转换和加载(ETL)操作的信息部署流程模式,它能够对传来的数据进行转换操作。虽然这样做会增加一些系统延迟,但就该解决方案总体而言,还是能够提供快速的传输速度和数据的高可用性,同时还对数据进行了清理。

读者可以通过这里来阅读本书的样章,并且可以通过这里来购买本书。

本书作者的简介

Mandy Chessell于 1987 年加入 IBM。她是一位 IBM 的杰出工程师和首席发明人,同时也是 IBM 技术研究院领导团队的成员之一。她目前的工作是在 IBM 信息管理 CTO 办公室中担任 InfoSphere 解决方案的首席架构师。她领导设计了一些用于不同行业和解决方案的通用信息管理模式,具体包括 Next Best Action 解决方案以及信息虚拟化策略。在 2001 年,她成为了英国皇家工程院银质奖章的首位女性获得者。在 2000 年,她被 MIT 的 Technology Review 杂志评选为年度全球顶尖青年科技创新家。在 2006 年,她获得了由英国女性创新家及发明家协会(BFIIN)颁发的“才能培养”奖项以表彰她在培养创新性人才方面所做的杰出工作,并且同年她还获得了 BlackBerry 颁发的“年度杰出技术女性– 企业”这一奖项。最近她刚刚被工程设计研究院(IED)授予了名誉院士的头衔,获得了“2012 年 Cisco 年度女性创新家”这一奖项,并且在 2013 年获得了普利茅斯大学的名誉科学博士学位。

Harald Smith目前在 IBM 担任软件架构师。在他以往 30 年多样的工作经历中一直专注于信息质量、信息集成以及信息管理这类的产品和解决方案,并且长期对模式和设计实践感兴趣。他所从事过的领域覆盖了软件产品管理、信息技术、咨询服务、技术支持、系统审查以及业务流程重建,并且在世界范围内发布了 4 项专利。他写过大量的文章,其中一些发布在了他当前的博客“信息之旅”中,他的文章特别关注于那些 IBM 产品中的方法论、最佳实践和性能问题,以及大数据和信息管理的相关话题。此外,他还是一位 IBM developerWorks 社区的作者以及在信息管理领域内 IBM 认证的解决方案开发者。

查看英文原文 Author Q&A: Patterns of Information Management


感谢崔康对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014 年 5 月 06 日 08:13893

评论

发布
暂无评论
  • 大数据分析服务登陆企业级云端市场

    最近,包括IBM在内的多家IT巨头宣布推出企业级云端市场,提供全面的大数据与分析能力,将云厂商、合作伙伴及第三方的“功能即服务”集中起来,提供企业需要的安全性和灵活性。

  • 第 5 讲 | 如何理解数字货币?它与区块链又是什么样的关系?

    技术的发展促进了电子货币的产生。现如今区块链技术的大热,它的第一个应用就是数字货币。

    2018 年 4 月 4 日

  • 书摘和访谈:《在企业中融合云计算和 SOA:循序渐进的指南》

    David Linthicum的一本新书,《在企业中融合云计算和SOA:循序渐进指南》, 描述了如何让企业通过面向服务为进军云计算做好准备,包括周密地按面向服务的方式来建模企业数据,信息服务和处理,以便更容易地向提供或消费云计算服务转型。

  • 一个金融区块链技术团队 2 年的踩坑扫雷之路

    演讲嘉宾 章乐焱,恒生电子首席架构师&研发中心总经理,TGO鲲鹏会会员。 内容介绍 从比特币到区块链,金融行业是最大的推手,金融领域的应用也是区块链技术最被看好的领域。作为一家在金融IT领域深耕多年的软件企业,恒生电子也第一时间组队加入金融行业区块链技术应用的探索之路,没有炒币、没有ICO,只为寻找比传统技术更加适合的区块链应用场景,为业务提供降低成本、提升效率乃至改变业务关系的解决方案。理想是丰满的、现实是骨干的,从传统架构视角看,区块链技术远称不上是一项“优雅”的技术,即便在技术可行的情况下,去中心的业务运营模式是否成立也团队会面临的关键问题。在真真假假的区块链应用需求下,技术团队需要对技术有更深层次的洞察。 演讲大纲 如何评估一个区块链应用项目的投入成本; 在金融领域,区块链数据的公开透明与隐私保护如何平衡,什么样的数据适合放在区块链上; 为确保系统整体持续可用,什么样的代码适合写在智能合约里,合约代码维护的难点思考。

    2018 年 9 月 12 日

  • Paul Clements 担任 BigLever 副总裁

    BigLever是为数不多的几家专注于产品线工程(PLE)的公司之一,该公司最近任命Paul Clements博士为副总裁,职责是成就客户。Clements是通用的软件架构及专业的PLE领域的著名先锋人物。

  • 使用试验和数据创新并构建客户真正使用的产品

    Jan Bosch是查尔姆斯理工大学的软件工程系教授和软件中心主管。InfoQ就如下内容对其进行了采访:企业能够从提高交付速度中得到的好处,导入敏捷和 DevOps后,组织的下一步措施,使用试验进行创新,用于试验的实践和组织如何更具创新性。

  • 曾经辉煌的雅虎研究院

    雅虎研究院曾构建了一支世界级的研发团队,发表了一系列有价值的研究成果,但未能摆脱最后衰落的结局,一切辉煌终成历史。

    2018 年 8 月 23 日

  • 成功的根本—集成的 ALM 工具

    典型的软件交付项目会无数次地去获取需求,并在多个地方描述测试,但它们却与某一特定的构建里的具体内容并不相符合,因此项目往往需要大量分析来获知谁在做什么以及为什么做。Dave West深入研究造成该问题的原因,并致力研究一个整体的、集成的ALM方法。

  • 以 K12 中文教育为例的多模式教育数据挖掘实践

    随着AI的最新发展,离线和在线教育都发生了巨大变化。整个课堂里学生和教师之间的互动和行为都经过结构化设计,并存储起来用于分析,这为课堂表现和学习体验改善提供了有价值的信息。本次演讲中,我会展示我们在TAL的离线和在线教室中部署的一些成功案例,也会大概介绍在构建实际“AI + Edu”应用过程中遇到的挑战。之后,我将讨论我们基于以下两点而制定的两项倡议:一是建立一种低成本且一致的自动口语技能评估方法,这将减少教学专业人员的单调乏味的评分工作量;二是开发多模式学习课堂活动检测的框架,有助于打破传统学习环境的障碍。讲师介绍刘子韬,负责人工智能在好未来各个教学场景和事业部中的落地和应用。美国匹兹堡大学获得计算机专业博士。主要研究方向是机器学习和数据挖掘,以及相关方法在推荐、广告和教育场景的应用。在 WWW,SIGIR,AAAI 等重要国际会议发表论文二十余篇,并担任 AAAI,IJCAI,KDD 等国际会议程序委员会委员。回国前曾供职于 Pinterest,主要负责 Pinterest 的图片推荐和广告竞价等业务。

    2020 年 1 月 3 日

  • InfoQ 编辑 2018 年推荐阅读清单(第一部分)

    分享知识是InfoQ的核心价值之一。为此,InfoQ编辑团队列出了各自推荐的近期阅读清单,并做了概要评述。

  • 中台之上(十五):被忽视的产品目录

    产品是一个企业的价值载体,是为客户服务的实例化表现形式,产品将企业与客户紧密联系在一起,也是企业内外部信息的重要连接点,因此,应当在产品的系统化管理与实现方面多花些精力。

  • 如何使用 DDD 方法验证业务规则

    如果我们的目标是创建可以模拟领域专家行为的软件应用程序,那么挑战就是捕获并实现业务规则。相比原始的代码部分,业务规则更接近良好的知识管理。领域驱动设计的这些技术可以提供一个结构,用来在系统中有效验证和实现业务规则。

  • 智慧公安防控管理平台搭建,重点人员管控系统解决方案

    随着国内经济水平的不断提升,云计算、移动互联网的高速发展下,以海量信息和数据挖掘为特征的大数据时代正在到来。

    2021 年 1 月 5 日

  • 区块链和数据科学:如果同时应用这两种技术,将会实现什么?

    数据科学用于预测;区块链用于数据完整性。

  • 前因后果:为什么说数据中台是大数据的下一站?

    数据中台吸收了传统数据仓库、数据湖、大数据平台的优势,同时又解决了数据共享的难题,通过数据应用,实现数据价值的落地。

    2020 年 3 月 30 日

  • 将各个附属机构统一在云端,以创建一个全局的 API

    现代商业的主要挑战之一,是如何将各附属机构的信息整合为一个单一的全局视图,使客户与合作伙伴们能更方便地与你的组织进行整合。本文中,我们将以一个基于真实世界场景的虚构示例作为研究对象,观察那些面临的挑战,并详细分析一些为了获得成功应实现的良好实践。

  • Open Group 的 SOA 资料卷

    上个月Open Group完成了他们的SOA资料卷。他们将其描述为“由SOA工作组出品的一系列原始资料集合,为企业架构师进行面向服务的架构提供了参考”。

  • Leads:如何成体系地寻找高质量的 Leads?

    商机获取,是To B市场工作最艰巨的事,也是最有价值的事。

    2020 年 8 月 21 日

  • 挑战有关如何构建卓越云中心的传统智慧 ,AWS 云企业战略博客

    我们可以从百老汇的成功学到哪些有关构建高效团队的经验。

  • 书评:《应用 SOA》

    《应用SOA》是由四位一流SOA专家合著关于SOA的新书,其主旨是帮助你成功地实施SOA。尤其是,这本书将帮助你把你的SOA项目与企业架构、IT治理、核心数据和BPM项目结合起来。

发现更多内容

架构师训练营第五周作业

张浩

JVM

ROOT

架构师训练营第 5 周学习总结

菜青虫

极客大学架构师训练营

架构师训练营第五周总结

张浩

第九周总结

Geek_ac4080

设计一个秒杀系统,主要的挑战和问题有哪些?核心的架构方案或者思路有哪些?

Jacky.Chen

架构师训练营第九周学习总结

文智

极客大学架构师训练营

架构师训练营 - 第 9 周课后作业(1 期)

阿甘

第5周作业-一致性hash算法实现

Rocky·Chen

一致性Hash算法

架构师训练营第九周作业

月殇

极客大学架构师训练营

架构师训练营第九周课后作业

Gosling

极客大学架构师训练营

第九周总结

睁眼看世界

极客大学架构师训练营

第五周笔记

willson

极客大学架构师训练营

架构师训练营第九周作业

Shunyi

极客大学架构师训练营

架构师训练营第 5 周课后练习

菜青虫

极客大学架构师训练营

架构师训练营——week09

睁眼看世界

极客大学架构师训练营

技术选型 - 学习总结笔记

Xuenqlve

架构师训练营第九周总结

月殇

极客大学架构师训练营

java实现一致性 hash 算法

Mars

一致性Hash算法

第九周作业

TheSRE

极客大学架构师训练营

架构2期第5周作业

supersky6

架构师训练营week09

FG佳

极客大学架构师训练营

c语言只是总结大全,干货收藏

C语言与CPP编程

面试 编程语言 C语言

架构 2 期 - 第五周作业(1)

浮生一梦

极客大学架构师训练营 第五周 2组

架构师训练营第 1 期 week9

张建亮

极客大学架构师训练营

架构师训练营第九周作业

听夜雨

极客大学架构师训练营

第 5 周作业

Steven

极客大学架构师训练营

架构师训练营week09总结

FG佳

极客大学架构师训练营

第九周作业

Geek_ac4080

第五周学习总结

Mr_No爱学习

请简述 JVM 垃圾回收原理。

博古通今小虾米

InfoQ 极客传媒开发者生态共创计划线上发布会

InfoQ 极客传媒开发者生态共创计划线上发布会

作者访谈:《信息管理中的模式》-InfoQ