语义互联网网络发展的新一代
北京大学教育学院教育技术系/文

图1 语义互联网与今天的web
语义互联网
语义互联网并非独立的另一个Web,而是今天Web的一个延伸。在语义互联网中,信息被赋予明确而完整的含义,即语义;机器可以识别并理解这种语义,从而对Web中的信息实现自动化采集、分割、组合乃至逻辑推理等等。
换言之,语义互联网是在今天Web的基础上,在信息中加入语义,从而使得在Web世界中流动的不再是单纯的数据流而是机器可以理解的语义信息。利用这些语义,信息之间的交换就可以建立在语义的层面而非文字的层面,从而可以使机器精确的理解、采集和组合信息,同时提供包含数字图书馆、电子商务、医疗保健等各种类型的自动化服务。
语义互联网必然出现
基于目前互联网上信息交换和处理中所存在的各种缺陷,语义互联网得以提出。信息交换和处理中所存在的种种缺陷突出表现在以下方面:
●今天的Web使用起来很简单,通过浏览器用户可以在任何地方、任何时间方便浏览各种来源的HTML文档,这些文档也可以通过超链接技术将不同的资源和信息连接起来。这种简单性是Web创立之初的一个重要出发点,但也正是这种简单性使得用户在浏览过程中很容易迷失在错综交叉的网状链接中。
●今天的Web包含了大量的信息,信息在各个方面都有所不同,其中的一个差别就是有些信息主要提供给人使用,而有些则主要供机器使用。前者如电视广告、诗歌等,后者如数据库、程序和传感器信号输出等。今天的Web大多数开发成为人们阅读文档的媒体,而在可自动处理的数据和信息方面却少之又少,这种信息就是那些用以描述信息的信息,我们称之为元数据。
●搜索引擎是网络访问中的重要导航工具。但今天的搜索引擎大多数是通过关键字匹配完成搜索任务,这种处理过程仅仅建立在文字的层面,并不能准确理解用户的搜索目标,因而得到的结果也往往不准确,搜索的效率也很低。譬如,我们在搜索引擎中输入“老舍的作品”,搜索的结果不仅仅会包括我们真正需要的老舍的作品,同时也会把老舍作品的评价类信息包括进来,而后者往往并不是我们所需要的。
●HTML是互联网成功的关键性力量,也是今天Web的主体之一。然而,HTML有着先天性的不足——它仅仅设计为用以描述内容的外观和表现形式,即供人们阅读而非机器自动处理;对于信息之间的联系,它也仅仅提供了线性的链接关系,而包含的语义信息却是相当的贫乏。
这些缺陷的存在,导致了机器在采集、分解和组合Web中的信息时,显得格外力不从心;语言文字本身存在的语义模糊性和歧义性也增加了机器分析的难度。特别是当我们希望从Web中找到Puma牌汽车的有关性能参数时,很可能得到的只是美洲狮生活习性的介绍资料,因为今天的Web根本分不清楚文字“Puma”表达的究竟是汽车的品牌还是一种动物的名称。
究其根源,Web的这种尴尬就在于其包含的语义信息非常匮乏。文字(对于计算机而言就是二进制数据)仅仅是传达语义的媒介,而语义的表达才是交流的核心和关键。语义互联网正是基于此,通过在今天Web的基础上加入明确的语义以精确地描述各种不同的资源和信息,从而建立起一个语义充分的空间。在这个空间中,漫游于Web中的软件代理就可以准确地理解各种信息的语义内容,从而轻松地为用户完成一系列复杂的处理任务(其中包括逻辑推理和求证)。
语义表达——构建语义互联网的关键
语义互联网的核心内容是建立一个语义明确的信息空间。毫无疑问,其中需要解决的关键问题就是语义的表达。
语义互联网中的语义信息,是指机器可以识别、理解并自动处理和使用的编码数据。这种语义信息要求定义完整、无歧义并能支持逻辑推理。为此,机器必须能够访问结构化的信息集合及推理规则,并据此进行自动推理。
这样,摆在语义互联网面前的挑战就是提供一种语言,能够同时描述数据以及根据数据进行推理的规则,并且允许任何现存知识标识系统中的规则都能输出到Web上,由此在Web上增强逻辑性——即使用规则进行推理、选择行为并解答问题的方法。
解决这一任务的两个重要技术就是XML和RDF。前者提供了灵活、通用、丰富的结构化信息表示方式,是整个语义互联网的基石;后者提供了语义信息和推理规则的表达方式,是语义互联网表达语义的关键。
对于一种具有全球性影响的技术而言,标准化是一件相当重要的工作。语义互联网的构建和发展也不例外,其核心技术的基础性工作和标准化工作,主要是由W3C语义互联网工作组完成。通过http://www.w3.org/2001/sw可以看到该工作组的活动进展及相关标准化出版物。
语义互联网的层次模型为了更加清晰地描述和构建语义互联网,W3C提出了语义互联网的层次模型(亦称协议栈)。该模型共有七个层次组成,如图2所示:

图2 语义互联网的协议栈
Unicode和URI层
这是语义互联网的最底层。Unicode可以保证我们使用国际化、通用化的字符集,避免不同类型字符集之间由于编码不同而造成的存储、传递和使用上的混乱,同时也可以实现多国语言的混合存储和使用。
在语义互联网中,任何可以被描述的事物——无论是网络中的一个Web页面或者站点,还是现实中的某个人、一座房子、一张桌子等都可以称为资源。每一个资源都由唯一一个URI所标识,不同的资源拥有不同的URI,通过指定的URI可以确定互联网中唯一一个资源(即定位的唯一性)。
XML+NS+XML Schema层
这是语义互联网中首要的关键技术,也是整个体系结构的基础。XML是一种允许自定义标记的通用、结构化描述语言,今天已经替代HTML成为描述Web文档和数据的标准化语言。
命名空间NS为XML文档中的结构化标记提供了上下文环境,一方面为文档中的每一个标记都赋予了确定的含义,另一方面将不同上下文环境中相同名称的标记区分开来,从而避免了语义上的歧义。
XML Schema在标记的使用和文档结构上,为XML文档提供了明确的语义限制,最终确保每一个XML文档都是语义合法、结构完整、内容有效的。
RDF/RDF Schema层
RDF定义了一种用以描述资源及其相互关系的简单模型,是语义互联网实现的关键技术之一,也是语义信息描述的有效手段。其基本数据模型包含三类对象:
资源、属性和陈述;资源之间的关系通过属性和值来描述。描述特定资源特定属性的值,就构成RDF中的一个陈述,通常可以用三元式<subject,
predicate, object>描述;其中,被描述的资源称为subject,描述资源的属性称predicate,object则是属性对应的值。RDF建立在XML和URI的基础上。
RDF通过属性和值描述了资源及资源之间的关系,但并没有提供描述这些属性及属性间关系的机制。RDF
Schema提供了这种表达机制,它描述了RDF properties的使用规则,为RDF定义了领域字典,并用类型层次结构来组织该字典,从而构成完备的语义空间。
Ontology层
语义信息的交流必须以共同的理解为前提,否则双方就会发生误解或者不理解。在语义互联网中,这一“共同的理解”,即共同的语义空间,是由Ontology建立和提供的。
Ontology是一种用以描述语义的、概念化的显式说明。它通过定义属性并建立一个分类层次结构,将不同的概念区别和组织起来,同时也通过属性将概念相互联系起来,从而建立起概念的语义空间,亦即对某一个领域内事物的共同理解。这些概念和属性的名字(即标识)构成了Ontology的词汇表。在语义互联网的交流/通讯中,Ontology担当着语义沟通的重要角色,是其实现的关键技术之一。Ontology需要用Ontology语言描述和建构。
Ontology的顶层: Logic、Proof和Trust
这三层位于语义互联网体系结构的顶部,也是语义表达的高级要求,目前正处于研究的阶段,也有一些简单的示范性应用系统正在建设中。其中,逻辑层提供了推理规则的描述手段,论证层通过运用这些规则进行逻辑推理和求证,而信托层则负责为应用程序提供一种机制以决定是否信任给出的论证。
数字签名(Digital)
数字签名(Digital)位于层次模型的右侧,并且贯穿于中间的四层。数字签名是一种基于互联网的安全认证机制。当信息内容从一个层次传递到另一个层次时,允许使用数字签名说明内容的来源和安全性,这样接受方就可以通过数字签名鉴别其来源和安全性以决定是否接受。数字签名对于语义互联网及其他使用XML进行信息交换的系统非常重要。
语义互联网的应用
由于语义互联网以语义表达为核心,为很多新的应用提供了良好的施展舞台。其中最突出的是Web
Service、P2P和Knowledge Management。
●Web Services
Web Service是一种新的Web应用程序,它通过自包含、自定义、组件化的方式,在Web上实现服务的描述、发布、定位和调用。IBM提出的Web
Service体系框架如图3所示:

图3 IBM Web Service
在实现上,Web Service是由URI(Uniform Resource Identify)标识的软件应用。该应用的接口和绑定可通过XML进行定义、描述(使用WSDL)和发现(使用UDDI);同时,该应用可通过基于Internet的XML消息协议与其它软件应用直接交互。
Web Service的核心技术,实际上是利用语义互联网的语义表达技术,通过准确描述并发布服务语义,提供给其他软件应用访问并交互。
●Peer-to-Peer Computing
P2P的提出是基于网络中有限资源的利用和共享。换言之,P2P是一类利用Web中的边际有效资源(存储、内容、时间等)的应用程序。在P2P的框架中,“Peers”是普通的PC机;通过将这些独立的Peer连接起来,并共享彼此的资源,就可以构成一个内容丰富、能力巨大的资源圈。
典型也是出现较早的P2P应用是Napster MP3 Exchange系统。在该系统中,通过共享每个加入系统的PC机上的MP3文件资源,系统中的每一个用户都可以找到并从其他用户机器中下载自己喜欢的MP3。
在P2P体系中,真正的资源实际上是存放在每一个Peer端的,而P2P则将他们连接起来并提供一个共享的空间。这样,既可以实现较广范围的资源共享,也可以节约网络服务器的存储和使用资源。
●知识管理和企业集成
知识管理和企业集成是语义互联网的一个重要且非常有价值的应用。知识管理和企业集成都建立在语义理解和交换的基础上,而语义互联网技术恰恰提供了这样的工具和空间。
高校信息化需要语义互联网
语义互联网是未来网络发展的趋势和新一代,这已经得到了业界很多专家的认同。语义互联网之所以在今天能够产生很大影响,关键在于它将语义而不是单纯的数据作为互联网信息交换的核心,这一点恰好真实地刻画了现实世界中信息传递和交流的模型——因为现实世界中人与人的交流,同样是建立在语义层次的。
●高校管理信息化需要语义互联网
目前,高校的各个部门之间处于“松耦合”关系,即不同部门内部的管理系统和信息系统往往局限于本部门使用,如果其他部门希望提取和查询相关信息,往往很困难。如果希望在整个校园内实现各个部门信息的流畅沟通,就更加困难了。
有了语义互联网,我们可以实现各个部门之间语义上的相互理解和沟通,而不仅仅是数据上的交流。在任何部门,甚至任何地方,语义互联网的代理都可以准确理解用户指定的任务请求,迅速与各个不同部门的服务代理建立联系并获得服务,最终将一系列信息组合起来提供给用户。这样,我们就可以建立起一个相互理解、无间隙数字化的信息网络。
●教学信息化需要语义互联网
目前,教学资源构建和获取以及教学活动组织的复杂性是教学信息化中存在的两大问题。产生这些问题的关键在于信息组织的语义欠缺,使得使用者淹没在繁杂而庞大的数据流(或资源)中。
利用语义互联网,教师可以迅速而准确地搜集到教学所需要的素材以及知识库,并建立智能化的e-Learning平台;学生则可以随时获取自己需要的知识,并及时得到教师和其他同学的帮助。在语义互联网上,教师与学生之间、学生与学生之间将是直接而有效的语义理解,从而有效地消除交流中存在的理解偏差。
对教学管理而言,语义互联网可以帮助高效而准确地组织、安排各种教学活动,这种安排将根据所有教学活动的参与者及资源的配置情况合理组织,有效利用,并及时与所有教学参与者、管理者交流协作。
●语义互联网有利于高校之间的交流与合作
当前,高校之间的交流合作依然存在诸多的不便,尤其是基于网络的交流更是困难多多。譬如高校之间的图书馆合作,由于不同的图书馆往往使用不同的图书信息,图书馆之间的信息查询和交流就变得非常复杂而且困难。
语义互联网的使用将会使高校之间的交流通道变得非常通畅,不仅是图书馆信息,其他各种信息都可以通过互联网有效传递并处理。我们将很容易地从其他合作图书馆中得到所需要的图书和刊物信息。这是一种真正意义上的无间隙交流,所有的高校最终会被连接起来,构成一个真正意义上的无围墙的大学。
●语义互联网有利于国际化交流与合作
与高校之间的交流合作一样,高校的国际化交流存在同样的问题,甚至由于地理位置、语言和文化上的差异变得更加复杂。语义互联网可以有效地解决沟通问题,为双方提供共同的语义空间,从而实现有效的交流和合作。
●语义互联网有利于提高整个高等教育的质量和效率
利用语义互联网,高校信息化的进程将大大加快,高校各部门之间、高校与高校之间、不同国家的高校之间,都将因此而受益。在这种环境中,通过互联网流动的将是更有价值的信息和知识。语义互联网对于提高高校管理、教学和科研质量,加强校际和国际合作交流,必将产生深远的影响。
语义互联网面临的挑战语义互联网的关键技术已经就绪,但在整个体系结构的最高层——逻辑表示和处理层仍然有很多工作需要完善。W3C组织和美国DARPA计划各自推出了不同的Ontology表示模型,从一定意义上讲需要在不久的将来统一起来,以利于整个语义互联网体系的发展和应用。
另外,语义互联网的安全性被众多的人士所关注,数字签名是解决这一问题的关键性技术,但安全问题依然有待更深入的研究和更完善的解决方案。
此外,语义互联网正处于初期发展阶段,需要有更多的时间完善整个体系并构建更多的应用和服务,尤其是后者。语义互联网所应用的技术涉及很多方面,是一种综合性的技术。构建语义互联网及其之上的应用服务,需要更多的专业人士和技术人员。
本文系教育部《现代远程教育的技术发展与应用研究》课题成果,该课题属资料综述分析研究,在此对报告所引资料的作者和机构均表示感谢!