近两年来,“语义网(Semantic Web)”或“Web 3.0”越来越频繁地出现在 IT 报道中,这表明语义网技术经过近 10 年的研究与发展,已经走出实验室进入工程实践阶段。PowerSet、Twine、 SearchMonkey、Hakia 等一批语义网产品的陆续推出,预示着语义网即将在现实世界中改变人们的生活与工作方式。在 Web 3.0 时代即将揭开序幕之际,正确理解、掌握语义网的概念与技术,对 IT 人士与时俱进和增加优势是必不可少的。为此,InfoQ 中文站特地邀请到来自著名 语义网研究机构荷兰阿姆斯特丹自由大学的黄智生博士,请他为我们谈一谈工业界人士感兴趣的语义网话题,包括什么是语义网、语义网与 Web 3.0 的关系以及语义网如何给商业公司带来效益等。
InfoQ 中文站:您是语义网方面的权威专家,能否先请您为我们消除概念上的困惑。现在有一个说法,即 Web 3.0 就是语义网。但是除了 W3C 定义的语义网以外,关于 Web 3.0 还有许多种其他说法,您认为谁才真正代表了 Web 3.0?为什么?
黄智生博士(以下称黄博士):首先需要说明的是:我不认为自己是所谓的“权威”。纵观万维网的发展,总是年轻人在创造历史,他们 给人类社会带来了一次又一次的惊奇。且不说万维网之父 Tim Berners-Lee 在 1989 年构想万维网的时候仅仅三十出头。Web 1.0 产生的雅虎和谷歌等国际大公司的创始人大多是年轻的博士生。Web 2.0 产生的 Facebook 等公司创始人的情况也大体如此。Web 3.0 的情况也可能如此。我们甚至都不能完全指望通过现有的 IT 大公司的巨大投入来发展语义网。这些大公司往往受着过去成功经验的束缚,而且新技术采用的 是与以往完全不同的思路,从而会加深大公司对新技术的怀疑。当然,这也为年轻人书写历史创造辉煌提供了发展空间。
由于 Web 1.0 和 Web 2.0 技术的成熟,Web 3.0 的想法实际上表达了现在人们对下一代万维网技术的种种期待。从这个意义上讲,Web 3.0 并不等同于语义网。网络上对 Web 3.0 众说纷纭,都有一定的道理。但我有一定的理由相信,语义网技术是 Web 3.0 的重要技术基础。我于 2008 年底在国内一些大学巡回讲学报告中提到了 Web 3.0 技术所应该具备的一些基本特征。我们可以用这些基本特征来分析哪些才是 Web 3.0 最有希望的技术。这些基本特征是:
- 新颖性:它应不同于已有的 Web 1.0 和 Web 2.0 的技术,它能提供全新的一代网络服务模式(即解释为什么它不属于 Web 1.0 或 Web 2.0)。
- 可行性:它在现有的网络环境下,经过努力是可能实现的,它并不存在不可逾越的技术障碍(即解释为什么它不属于 Web 4.0 或更高)。
- 迫切性:它提供的网络服务应是当前社会迫切需要的,它引入的技术是能够对社会产生重大影响的。(即解释它为什么应只属于 Web 3.0)。
我们看到的语义网技术正好符合上述特征。新颖性:语义网提供语义数据描述分析能力,这是以往技术所不具备的。可行性:虽然在语义网上充满着许多技术挑战, 但我们相信经过努力这些技术障碍是可以跨越的(后面我还要对这个问题作进一步阐述)。迫切性:由于万维网上已产生了浩瀚的网络信息和知识资源,寻找人们所 需要的准确信息常常耗费大量人力精力。提供网络信息的语义半自动化或自动化处理已迫在眉睫。这就说明了为什么语义网是成为 Web 3.0 最有希望的基础技术。
InfoQ 中文站:过去,语义网常被定义为“an extension of the current web”,但现在提的更多的是“a web of data”。您认为这两种说法有何异同,为什么会出现两种定义?
黄博士:在语义网思想发展的初期,人们所主要期待的是,希望对现有网络信息资源做语义标注,使得人们能够更方便快捷地找到网络信 息。由于描述网络数据的需要,科学家们开发了一系列元数据描述语言,如 RDF/RDFS 等。出于对语义分析进一步细化的需要,科学家规定了本体描述语言 (如 OWL),并开发了种种特定领域的本体(Ontology)。所谓本体,可以简单地将它理解成特定知识领域中满足共同约定的常识部分,这对于特定领域 信息分类是必要的一步。
最近这十年以来,信息领域的重大事件之一,就是人类已经产生了许许多多的本体。我们可以把这个过程理解成人类知识领域的一个概念标准化运动,这与以前的工 业标准化运动具有一样的重大意义。这个运动只需要人们完成一系列基本约定就可以产生巨大的社会效果,就像当年规定“红灯停,绿灯行”等交通规则是一样的道 理。虽然现在人们都可以自由构造自己所需要的本体,但许多特定领域都有权威的学术机构在构造这些领域的本体库。本体构造本着自然淘汰的原则,在大多数特定 领域只会留下一些被广泛接受的本体。
由于大量的本体和元数据的存在,人们发现这些数据本身就是人类知识的巨大资源。这就产生了“Web of Data”的思想,即通过这些结构化的知识数据把巨大的网络信息资源连接在一起,构成了人类知识的巨大宝库。所以说,“Web of Data”的思想实际上是“an extension of the current web”思想的具体描述和进一步补充。
InfoQ 中文站:语义网技术是一项激动人心的技术,许多技术人员都很感兴趣,但是这门技术入门比较困难。能否请您谈谈,语义网入门需要哪些必备知识,有比较便捷的入门方法和入门书籍吗?
黄博士:如上所述,语义网与本体技术实际上是人类知识领域的概念标准化运动,这就涉及到逻辑描述(Description Logics)和推理技术。这对于许多工程人员来说,会产生一些畏惧感。国内的计算机人才培养,总体来说是计算能力的培养,在数理逻辑的训练上相对薄弱一 些,这就对国内一些技术人员来说会带来一些障碍。但好的方面是:到目前为止,许多语义网应用只需要用到元数据就可以了,逻辑推理方面的知识要求相对会少一 些。所以对于初涉语义网的工程技术人员,可以先掌握 RDF/RDFS 等基本技术和工具就可以了。语义网入门知识只需要看看一些入门书,如 Grigoris Antoniou 和 Frank van Harmelen 合著的《语义网基础教程》(中国科技大学陈小平教授团队译)就可以了。
InfoQ 中文站:语义网思想的诞生已经有十个年头了,您认为语义网技术离广泛应用还有多远?目前还有哪些障碍需要跨越?
黄博士:由万维网之父 Tim Berners-Lee 提出的语义网与本体技术,为解决万维网上浩瀚的信息资源处理提供了技术基础。欧盟和美国政府已经在语义网与本体技术上投入了大量的 研究资金,其技术已经在垂直搜索技术和专业语义信息处理等方面成为了国际标准,已经在生命科学领域(如大规模基因本体库)、出版领域(如 Dubin Core 标准和知识分类本体库)、医疗保健领域(如癌症本体库)和文化传承领域(如博物馆与艺术家本体库等)产生了许多应用。国际 IT 大公司如雅虎、 eBay 和 IBM 等已经在语义网上投入了许多研究力量。
语义网技术已经深入到人类知识领域的方方面面。现在已经很难找到哪个领域可以宣称与语义网没有关系。且不用说生命科学领域,食品与农业领域已有许多研究人员在作语义网相关的工作,就是在冷僻的领域如石油勘探与开采、红学研究、政治学分析等方面都有人在开发本体产品。
以前的语义网工作总体来说是在打基础。许多人想看的是类似于谷歌这样规模的语义网技术大公司的产生,才能相信语义网的实际效果。这就需要等到语义网技术深 入到我们每个人生活或工作的方方面面。正由于这样,有一定数量的人对语义网的技术潜力仍持观望或怀疑的态度。值得注意的是,语义网技术是涉及到人类未来高 效地获取网络信息的革命性的方式,将对人类文明产生巨大的影响。这就像要建造摩天大楼的许多工作是在打地基一样。地基打得越深,楼才能盖得越高。没有看到 地面上起高楼,就不相信在盖楼的想法显然是天真的。实际上,从去年开始,语义网技术的摩天大楼已经在地面上初见端倪。根据美国著名市场研究公司 Gartner 的 2007 五月份报告,到 2012 年,70% 的公开网页将带有一定程度的语义标注,20% 将使用更强的基于语义网的本体。最近这十年来所建 的本体大多数是英文的,中文的本体仍然是寥寥无几。如果我们只是等到看到经济效益后才愿意去追赶新技术的话,有可能让我们中国人又一次失去占领科学制高点 的机会。
当然,现有的语义网技术是由传统的知识库方法发展而来的,还存在着许多引入入胜的技术挑战,包括如何高效地处理海量语义数据,如何对海量语义数据和知识进 行高效推理和管理的等传统方法尚未充分解决的问题。近年来,它们已成为语义网领域的研究热点,产生了一些有发展前景的解决方案。相信经过科学家的不懈努 力,这些技术障碍是能够被跨越的。
InfoQ 中文站:许多工业界人士对语义网非常感兴趣,但又想不出语义网如何给公司带来效益。能否请您谈谈,对工业界而言,语义网技术能够带来什么,以及有哪些应用场景吗?
黄博士:诚然,对于许多工业界人士来说,他们最关心的是如何给公司带来经济效益,而不是思想产品。语义网能带来经济效益的应用实 际上不胜枚举,其巨大的技术潜力之一是,它能够代替大量的人工干预和分析数据的枯燥工作,如对海关的大量进出口数据进行预处理和筛选,如价格比较网站和信 息推荐网站等。这些应用都具有以下特征:它需要人工低智能化的干预,而不能完全被自动化处理,否则效果会较差。如音乐下载推荐网站,现有使用的技术,要么 是简单的字符串匹配来决定推荐信息,要么是分析以往用户的下载习惯来决定,要么是人工预先安排推荐的信息。语义网技术在这些方面能够取得最佳的效果。有意 思的是,本来有希望发挥语义网潜力的价格比较网站,在使用语义网技术方面却发展得很慢,其原因是商家不喜欢价格比较网站把自己逼到价格被动的境地,故不积 极配合采用语义网技术。
语义网的另一个巨大的技术好处是,数据和知识独立于具体的应用系统和平台。本体数据不是为特定的应用系统而设计的。这样,当技术人员需要特定知识来开发具 体应用系统的时候,只要把别人已经产生的特定知识数据直接拿来使用就可以了。最普遍被使用的本体知识之一,就是时空知识,如地理知识本体。对于一个企业信 息系统来讲,很重要的一项工作就是客户管理,其免不了要涉及到用地名知识库等对客户材料进行智能化管理。所以语义网技术在企业管理方面也有巨大的应用发展 空间。
InfoQ 中文站:能否请您介绍几个成功的语义网应用?
黄博士:这取决于你如何来定义“成功”。如果“成功”被定义为存在像谷歌这样产值百亿规模的语义网技术公司,那么到目前为止还没 出现这样的公司。如上所述,人类的语义网技术大厦仍处于打地基阶段。但是,如果把“成功”理解为被某个特定领域的人普遍使用,那么在生命科学领域存在许多 本体应用的例子,如大规模基因本体库建立和使用可以看成是一个很好的例证。去年年底,在语义网领域出现了一些令人瞩目的应用系统,如 DBpedia Mobile 在手机上的应用,把维基百科上的知识与地理本体相结合提供智能导游和照片语义数据共享等。芬兰政府资助的 FinnONTO 项目计划在若干年内 把整个国家的医疗信息系统语义网化。当一种技术将深入到一个国家的每一人的生活之中的时候,我们所理解的“成功”已经离它不远了。
作者简介
黄智生博士, 现任荷兰阿姆斯特丹自由大学计算机系高级研究员(senior researcher), 东南大学计算机科学与工程学院兼职教授,江苏科技大学计算机科学与工程学院兼职教授和计算机科学首席学科带头人。于1994 年获得荷兰阿姆斯特丹大学组织 管理计算机中心博士学位,多年从事语义网与本体技术、人工智能逻辑和推理技术的研究。现主持欧盟第七研究框架中大型语义网LarKC 项目中的海量语义推理 技术的研究,发表过论文和论著近百篇(本)。他参与实现的Eculture 项目获得2006 年国际语义网技术挑战赛冠军。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家加入到 InfoQ 中文站用户讨论组中与我们的编辑和其他读者朋友交流。
评论