(2010-03-24 16:11:56)
在业界工作久了,也淡忘了珞珈山上曾经的书生意气。翻出我的博士论文,挑出一些有意义的部分,逐步发表,希望能够有益于后来者的学习研究。
随着互联网应用的高速发展,网上信息资源的数量正以几何级数爆炸性增长。据统计,目前万维网(WWW)上的网页数量就超过了10亿个。一方面,大量信息资源的出现,为人类知识宝库积累了丰富的数字信息;另一方面,传统的互联网技术仅仅是实现网络资源的连接,并不考虑网络资源间的结构组织,导致各种知识无序、零散的分布在成千上万的存贮介质上。过于庞大的互联网资源对于网上应用产生了各种各样复杂的技术问题,这些问题[]往往又可以归结到一个问题,即如何在浩如烟海的网上信息资源中准确、快速的找到用户需要的信息。
要解决这个搜索问题,核心在于找到有序的网上信息资源的组织方法。语义网(Semantic Web)技术正是找到这种方法的一枚钥匙。分析一下现代网络搜索技术,无论是google、yahoo还是msn等搜索引擎,根本上来讲它们采用的都是文本匹配这种最简单的搜索方式。文本匹配方式可以解决一些应用要求较低的搜索问题,但对于应用要求较高的问题(如希望知道两个事务之间的联系等),或文字匹配容易产生混淆的情况下,这种方式就不能胜任了。几乎每个经常使用网络搜索引擎的用户都会有这样的体验,就是搜索结果往往和自己所期望得到的信息不匹配。比如在google中输入关键词“黄牛”希望查找有关这种家畜的资料,我们找到的结果除了包括这种家畜的网页以外,还有“黄牛党”、“老黄牛气冲天的说”等。
2001年,万维网的发明人TimBerners-Lee在《科学美国人》(American Scientist)上发表了著名的文章“the Semantic Web”[1],引起广泛关注。这是公认的语义网技术产生的里程碑。Berners-Lee的文章指出:语义网是对现有Web的扩展,这种扩展将信息赋予定义良好的意义,更加便利计算机和人的协同(The Semantic Web is an extension of the current web inwhichinformation is given well-defined meaning, better enabling computers and people to work in cooperation.)。在随后的数年间,学界掀起了语义网技术研究的热潮,并围绕语义网技术的各个层次、环节展开了全面深入的讨论。传统的知识工程领域的研究者也纷纷加入,使得语义网技术得到较快的发展。目前,以英国的曼彻斯特大学、美国斯坦福大学、马里兰大学、德国卡尔斯鲁尔大学AIFB研究所、德累斯顿技术大学、荷兰Vjrve自由大学等为代表的大批科研院所的众多科研人员都致力于语义网各方面技术的研究和开发,很多系统正在进入实用阶段。近年来,欧盟更是斥巨资支持欧洲地区的语义网研究。可以说,语义网技术目前正处于其发展的高峰期。