速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

黄智生博士谈语义网与 Web 3.0

  • 2009-03-26
  • 本文字数:4701 字

    阅读完需:约 15 分钟

近两年来,“语义网(Semantic Web)”或“Web 3.0”越来越频繁地出现在 IT 报道中,这表明语义网技术经过近 10 年的研究与发展,已经走出实验室进入工程实践阶段。PowerSet、Twine、 SearchMonkey、Hakia 等一批语义网产品的陆续推出,预示着语义网即将在现实世界中改变人们的生活与工作方式。在 Web 3.0 时代即将揭开序幕之际,正确理解、掌握语义网的概念与技术,对 IT 人士与时俱进和增加优势是必不可少的。为此,InfoQ 中文站特地邀请到来自著名 语义网研究机构荷兰阿姆斯特丹自由大学的黄智生博士,请他为我们谈一谈工业界人士感兴趣的语义网话题,包括什么是语义网、语义网与 Web 3.0 的关系以及语义网如何给商业公司带来效益等。

InfoQ 中文站:您是语义网方面的权威专家,能否先请您为我们消除概念上的困惑。现在有一个说法,即 Web 3.0 就是语义网。但是除了 W3C 定义的语义网以外,关于 Web 3.0 还有许多种其他说法,您认为谁才真正代表了 Web 3.0?为什么?

黄智生博士(以下称黄博士):首先需要说明的是:我不认为自己是所谓的“权威”。纵观万维网的发展,总是年轻人在创造历史,他们 给人类社会带来了一次又一次的惊奇。且不说万维网之父 Tim Berners-Lee 在 1989 年构想万维网的时候仅仅三十出头。Web 1.0 产生的雅虎和谷歌等国际大公司的创始人大多是年轻的博士生。Web 2.0 产生的 Facebook 等公司创始人的情况也大体如此。Web 3.0 的情况也可能如此。我们甚至都不能完全指望通过现有的 IT 大公司的巨大投入来发展语义网。这些大公司往往受着过去成功经验的束缚,而且新技术采用的 是与以往完全不同的思路,从而会加深大公司对新技术的怀疑。当然,这也为年轻人书写历史创造辉煌提供了发展空间。

由于 Web 1.0 和 Web 2.0 技术的成熟,Web 3.0 的想法实际上表达了现在人们对下一代万维网技术的种种期待。从这个意义上讲,Web 3.0 并不等同于语义网。网络上对 Web 3.0 众说纷纭,都有一定的道理。但我有一定的理由相信,语义网技术是 Web 3.0 的重要技术基础。我于 2008 年底在国内一些大学巡回讲学报告中提到了 Web 3.0 技术所应该具备的一些基本特征。我们可以用这些基本特征来分析哪些才是 Web 3.0 最有希望的技术。这些基本特征是:

  1. 新颖性:它应不同于已有的 Web 1.0 和 Web 2.0 的技术,它能提供全新的一代网络服务模式(即解释为什么它不属于 Web 1.0 或 Web 2.0)。
  2. 可行性:它在现有的网络环境下,经过努力是可能实现的,它并不存在不可逾越的技术障碍(即解释为什么它不属于 Web 4.0 或更高)。
  3. 迫切性:它提供的网络服务应是当前社会迫切需要的,它引入的技术是能够对社会产生重大影响的。(即解释它为什么应只属于 Web 3.0)。

我们看到的语义网技术正好符合上述特征。新颖性:语义网提供语义数据描述分析能力,这是以往技术所不具备的。可行性:虽然在语义网上充满着许多技术挑战, 但我们相信经过努力这些技术障碍是可以跨越的(后面我还要对这个问题作进一步阐述)。迫切性:由于万维网上已产生了浩瀚的网络信息和知识资源,寻找人们所 需要的准确信息常常耗费大量人力精力。提供网络信息的语义半自动化或自动化处理已迫在眉睫。这就说明了为什么语义网是成为 Web 3.0 最有希望的基础技术。

InfoQ 中文站:过去,语义网常被定义为“an extension of the current web”,但现在提的更多的是“a web of data”。您认为这两种说法有何异同,为什么会出现两种定义?

黄博士:在语义网思想发展的初期,人们所主要期待的是,希望对现有网络信息资源做语义标注,使得人们能够更方便快捷地找到网络信 息。由于描述网络数据的需要,科学家们开发了一系列元数据描述语言,如 RDF/RDFS 等。出于对语义分析进一步细化的需要,科学家规定了本体描述语言 (如 OWL),并开发了种种特定领域的本体(Ontology)。所谓本体,可以简单地将它理解成特定知识领域中满足共同约定的常识部分,这对于特定领域 信息分类是必要的一步。

最近这十年以来,信息领域的重大事件之一,就是人类已经产生了许许多多的本体。我们可以把这个过程理解成人类知识领域的一个概念标准化运动,这与以前的工 业标准化运动具有一样的重大意义。这个运动只需要人们完成一系列基本约定就可以产生巨大的社会效果,就像当年规定“红灯停,绿灯行”等交通规则是一样的道 理。虽然现在人们都可以自由构造自己所需要的本体,但许多特定领域都有权威的学术机构在构造这些领域的本体库。本体构造本着自然淘汰的原则,在大多数特定 领域只会留下一些被广泛接受的本体。

由于大量的本体和元数据的存在,人们发现这些数据本身就是人类知识的巨大资源。这就产生了“Web of Data”的思想,即通过这些结构化的知识数据把巨大的网络信息资源连接在一起,构成了人类知识的巨大宝库。所以说,“Web of Data”的思想实际上是“an extension of the current web”思想的具体描述和进一步补充。

InfoQ 中文站:语义网技术是一项激动人心的技术,许多技术人员都很感兴趣,但是这门技术入门比较困难。能否请您谈谈,语义网入门需要哪些必备知识,有比较便捷的入门方法和入门书籍吗?

黄博士:如上所述,语义网与本体技术实际上是人类知识领域的概念标准化运动,这就涉及到逻辑描述(Description Logics)和推理技术。这对于许多工程人员来说,会产生一些畏惧感。国内的计算机人才培养,总体来说是计算能力的培养,在数理逻辑的训练上相对薄弱一 些,这就对国内一些技术人员来说会带来一些障碍。但好的方面是:到目前为止,许多语义网应用只需要用到元数据就可以了,逻辑推理方面的知识要求相对会少一 些。所以对于初涉语义网的工程技术人员,可以先掌握 RDF/RDFS 等基本技术和工具就可以了。语义网入门知识只需要看看一些入门书,如 Grigoris Antoniou 和 Frank van Harmelen 合著的《语义网基础教程》(中国科技大学陈小平教授团队译)就可以了。

InfoQ 中文站:语义网思想的诞生已经有十个年头了,您认为语义网技术离广泛应用还有多远?目前还有哪些障碍需要跨越?

黄博士:由万维网之父 Tim Berners-Lee 提出的语义网与本体技术,为解决万维网上浩瀚的信息资源处理提供了技术基础。欧盟和美国政府已经在语义网与本体技术上投入了大量的 研究资金,其技术已经在垂直搜索技术和专业语义信息处理等方面成为了国际标准,已经在生命科学领域(如大规模基因本体库)、出版领域(如 Dubin Core 标准和知识分类本体库)、医疗保健领域(如癌症本体库)和文化传承领域(如博物馆与艺术家本体库等)产生了许多应用。国际 IT 大公司如雅虎、 eBay 和 IBM 等已经在语义网上投入了许多研究力量。

语义网技术已经深入到人类知识领域的方方面面。现在已经很难找到哪个领域可以宣称与语义网没有关系。且不用说生命科学领域,食品与农业领域已有许多研究人员在作语义网相关的工作,就是在冷僻的领域如石油勘探与开采、红学研究、政治学分析等方面都有人在开发本体产品。

以前的语义网工作总体来说是在打基础。许多人想看的是类似于谷歌这样规模的语义网技术大公司的产生,才能相信语义网的实际效果。这就需要等到语义网技术深 入到我们每个人生活或工作的方方面面。正由于这样,有一定数量的人对语义网的技术潜力仍持观望或怀疑的态度。值得注意的是,语义网技术是涉及到人类未来高 效地获取网络信息的革命性的方式,将对人类文明产生巨大的影响。这就像要建造摩天大楼的许多工作是在打地基一样。地基打得越深,楼才能盖得越高。没有看到 地面上起高楼,就不相信在盖楼的想法显然是天真的。实际上,从去年开始,语义网技术的摩天大楼已经在地面上初见端倪。根据美国著名市场研究公司 Gartner 的 2007 五月份报告,到 2012 年,70% 的公开网页将带有一定程度的语义标注,20% 将使用更强的基于语义网的本体。最近这十年来所建 的本体大多数是英文的,中文的本体仍然是寥寥无几。如果我们只是等到看到经济效益后才愿意去追赶新技术的话,有可能让我们中国人又一次失去占领科学制高点 的机会。

当然,现有的语义网技术是由传统的知识库方法发展而来的,还存在着许多引入入胜的技术挑战,包括如何高效地处理海量语义数据,如何对海量语义数据和知识进 行高效推理和管理的等传统方法尚未充分解决的问题。近年来,它们已成为语义网领域的研究热点,产生了一些有发展前景的解决方案。相信经过科学家的不懈努 力,这些技术障碍是能够被跨越的。

InfoQ 中文站:许多工业界人士对语义网非常感兴趣,但又想不出语义网如何给公司带来效益。能否请您谈谈,对工业界而言,语义网技术能够带来什么,以及有哪些应用场景吗?

黄博士:诚然,对于许多工业界人士来说,他们最关心的是如何给公司带来经济效益,而不是思想产品。语义网能带来经济效益的应用实 际上不胜枚举,其巨大的技术潜力之一是,它能够代替大量的人工干预和分析数据的枯燥工作,如对海关的大量进出口数据进行预处理和筛选,如价格比较网站和信 息推荐网站等。这些应用都具有以下特征:它需要人工低智能化的干预,而不能完全被自动化处理,否则效果会较差。如音乐下载推荐网站,现有使用的技术,要么 是简单的字符串匹配来决定推荐信息,要么是分析以往用户的下载习惯来决定,要么是人工预先安排推荐的信息。语义网技术在这些方面能够取得最佳的效果。有意 思的是,本来有希望发挥语义网潜力的价格比较网站,在使用语义网技术方面却发展得很慢,其原因是商家不喜欢价格比较网站把自己逼到价格被动的境地,故不积 极配合采用语义网技术。

语义网的另一个巨大的技术好处是,数据和知识独立于具体的应用系统和平台。本体数据不是为特定的应用系统而设计的。这样,当技术人员需要特定知识来开发具 体应用系统的时候,只要把别人已经产生的特定知识数据直接拿来使用就可以了。最普遍被使用的本体知识之一,就是时空知识,如地理知识本体。对于一个企业信 息系统来讲,很重要的一项工作就是客户管理,其免不了要涉及到用地名知识库等对客户材料进行智能化管理。所以语义网技术在企业管理方面也有巨大的应用发展 空间。

InfoQ 中文站:能否请您介绍几个成功的语义网应用?

黄博士:这取决于你如何来定义“成功”。如果“成功”被定义为存在像谷歌这样产值百亿规模的语义网技术公司,那么到目前为止还没 出现这样的公司。如上所述,人类的语义网技术大厦仍处于打地基阶段。但是,如果把“成功”理解为被某个特定领域的人普遍使用,那么在生命科学领域存在许多 本体应用的例子,如大规模基因本体库建立和使用可以看成是一个很好的例证。去年年底,在语义网领域出现了一些令人瞩目的应用系统,如 DBpedia Mobile 在手机上的应用,把维基百科上的知识与地理本体相结合提供智能导游和照片语义数据共享等。芬兰政府资助的 FinnONTO 项目计划在若干年内 把整个国家的医疗信息系统语义网化。当一种技术将深入到一个国家的每一人的生活之中的时候,我们所理解的“成功”已经离它不远了。

作者简介

黄智生博士, 现任荷兰阿姆斯特丹自由大学计算机系高级研究员(senior researcher), 东南大学计算机科学与工程学院兼职教授,江苏科技大学计算机科学与工程学院兼职教授和计算机科学首席学科带头人。于1994 年获得荷兰阿姆斯特丹大学组织 管理计算机中心博士学位,多年从事语义网与本体技术、人工智能逻辑和推理技术的研究。现主持欧盟第七研究框架中大型语义网LarKC 项目中的海量语义推理 技术的研究,发表过论文和论著近百篇(本)。他参与实现的Eculture 项目获得2006 年国际语义网技术挑战赛冠军。


给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家加入到 InfoQ 中文站用户讨论组中与我们的编辑和其他读者朋友交流。

2009-03-26 18:0015803
用户头像

发布了 63 篇内容, 共 26.2 次阅读, 收获喜欢 11 次。

关注

评论

发布
暂无评论
发现更多内容

云行| 天翼云中国行走进甘肃,智绘数字陇原新图景!

天翼云开发者社区

人工智能 云计算

科改考核最高评级,拿下!

天翼云开发者社区

云计算 云服务 云平台

2024年,C++正在失去人气吗?

伤感汤姆布利柏

python提取特定格式的数据

快乐非自愿限量之名

Python

公平发售平台开发:重塑代币发行的未来

开发丨飞机丨 @aivenli

低代码开发平台推动生产性服务业与制造业融合

EquatorCoco

低代码 生产 制造业

Word文档内容自动生成PPT!这5款堪称办公神器的AI工具不要错过!

彭宏豪95

markdown PPT 在线白板 办公软件 AI生成PPT

Moment of Inspiration for Mac(MoI 3D建模工具)

Mac相关知识分享

3d建模

克服指标管理痛点,实现数据价值最大化

袋鼠云数栈

指标体系 指标监控 指标 指标平台 指标建设

大数据平台也“云化”?这份改造指南收藏了!

天翼云开发者社区

云计算 大数据 云平台

【HDC.2024】“零代码”智能组装,华为云新一代iPaaS超联接能力让集成更智能

华为云PaaS服务小智

云计算 软件开发 零代码 华为云 大模型

KubeCon 香港:移动云与云猿生联合议题《在没有专用 Operator 的情况下管理数据库集群》

小猿姐

数据库 Kubernetes operator

深度解析观测云智能监控的核心设计原理

观测云

智能监控

ES 慢上游响应问题优化在用户体验场景中的实践

字节跳动云原生计算

搜索引擎 elasticsearch

《黑神话:悟空》2024年全球上线,多平台登陆,多版本售价公布!

青椒云云电脑

云电脑 黑神话悟空

首次引入GPT-4o!图像自动评估新基准来啦

Openlab_cosmoplat

图像 #人工智能 ChatGPT

浅谈Java Profiling

乘云数字DataBuff

Java Profiling 实时监控

京东商品详情数据接口(JD.item_get)丨京东API接口指南

tbapi

京东 京东商品详情数据接口 京东API接口

低代码开发平台助力企业数据分析走向高阶段

不在线第一只蜗牛

数据挖掘 数据分析 低代码

Paimon 在汽车之家的业务实践

Apache Flink

大数据 flink 实时计算 paimon

国科云浅谈IPv6改造的技术挑战与解决方案

国科云

华为的成功,你也可以复制

IPD产品研发管理

华为 产品 产品设计 项目 项目经理

怎样解决TikTok直播网络问题、顺利直播带货?

Ogcloud

TikTok tiktok运营 tiktok直播 tiktok直播网络 tiktok直播带货

TikTok直播专线实现流畅海外直播体验

Ogcloud

TikTok Tik Tok tiktok直播 tiktok直播带货

黄智生博士谈语义网与Web 3.0_SOA_徐涵_InfoQ精选文章