查字典论文网 >> 本体理念的信息检索方案查询与应用初探

本体理念的信息检索方案查询与应用初探

小编:

摘 要:信息检索是指根据用户的需求,从已有的检索工具或数据库中查找所需信息的过程。本体作为一种客观描述,有着良好的概念层次结构,能够利用公理对概念及概念间关系进行推理,从而明确各种关系,建立知识间的概念模型。本体理念的信息检索可对信息源进行语义标引,提高查全率和查准率,帮助用户准确的找到真正需要的信息。本文将从本体的基本概念出发,对本体理念在信息检索中的应用进行初步探析,建立基于本体的信息检索系统,提高信息检索效率。

关键词:本体;信息检索;信息检索系统

中图分类号:TP393.08

随着计算机技术和网络技术的不断进步和发展,互联网进入了人们生活的各个领域,检索方式也由原来的脱机检索、联机检索发展为今天的网络检索。然而,网络检索给人们带来方便的同时,也给信息检索带来了麻烦。信息检索是指根据用户的需求,从已有的检索工具或数据库中查找所需信息的过程,如何快速、准确地检索到用户所需要的信息是信息检索面临的问题。因此,提高检索效率,提高查全率、查准率,探讨新的检索模式是信息检索发展的必然趋势。本体理念有着良好的概念层次结构,是近几年学术研究的热点,它的应用和推广必然推动信息检索的发展。

1 本体的基本概念

本体作为一种信息表达形式,有着良好的概念层次结构,具有较强的表达能力。本体对逻辑推理的支持能够更好地表达概念之间的关系,使得信息具有一定的层次结构。

1.1 本体的概念。本体是指对客观存在物体的一种系统地描述,它并不是具体指某个人描述该事物使用的具体语言,而是将计算机的表达方式和人类的表达方式统一。Gruber认为:本体就是指给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则。Borst Pim则认为:本体是概念模型的规范说明。Studer认为:本体是指共享概念模型的形式化规范说明。第一,概念模型。所谓概念模型,是将客观世界中一些现象抽象为形同概念而得到得到的,独立于具体的环境。第二,形式化。指本体是计算机可读的。第三,共享。共享指本体是针对团体所达成的共同认可的知识。

1.3 本体的分类。本体按照其研究范围的分类标准进行分类,可以分为通用本体和领域本体。通用本体是指研究通用的概念、通用属性,如空间、时间等等,并不局限在特定的领域。构建通用本体的过程与构造词典相似,目前常用的通用本体有Wordnet 和 Hownet。领域本体是指描述具体领域知识的概念和属性,描述某个领域的知识。目前,领域本体比较匮乏,相对成熟的是生物学本体、医学本体。领域本体库的构建需要领域专家的参与,并且要与共同达到的学术一致。

1.4 本体的构建方法。根据目前认可度较高的Gruber提出的本体构建规则,学界提出了多种构建方法。认可度最高的是斯坦福大学医院开发的七步法:确定专业领域范围;考查现有本体寻找复用机会;列出该领域的术语;对该领域事务进行分类;定义类的属性、类与类之间的关系;定义属性的分娩;创建属于该类的实例。

1.5 本体描述语言。本体描述语言随着网络发展而发展,并且具备多种功能使得本体在不同系统之间互操作。本体描述语言需要提供机器可读的形式,能够实现自然语言与机器表达形式的转化。目前,常用的本体描述语言主要有RDF、OWL,本文介绍RDF模型,以下是对这种语言的具体介绍。

RDF包括3种实体:资源和实体、属性、声明。资源和实体是对资源进行标识;属性是对资源的各个方面进行定义,如特征等;声明是指对已经被命名的属性且被赋值的特定资源,即RDF声明。

RDF模型的描述方式通常有以下几种方式:简化三元组方式,用尖括号将三元组的主语、位于、宾语隔离;RDF模型图方式,是以图形的方式将三元组描述的声明表现出来,资源、字符串节点、属性分别用椭圆、方框、连线来表示;RDF/XML方式,这种表达方式是按照RDF/XML语法和编码规则描述RDF模型,并将这种模型存放在计算机中。

2 基于本体的信息检索系统

随着互联网技术的发展,传统的信息检索已无法满足人们的需求。传统的信息检索主要采用结构化信息表示方式,要求有较高的查准率。但是,传统的信息检索存在一定局限性,如文档的添加较为复杂,增加了工作人员的工作量;结构化信息表达形式限制了用户的输入,只能输入与数据库一致的信息才能得到检索结果,而非结构化信息表达形式在一定程度上放宽了用户的输入限制,采用关键字匹配的方式,但是不能满足语义检索的要求,因此,不能提高查全率,出现漏检的情况。

基于本体的信息检索系统能够主动理解用户要求,通过逻辑推理后进行检索。同时,本体理念的信息检索系统可以将计算机的表达方式与人类的表达方式统一,实现计算机与人类的同语言交流。

基于本体的信息检索包含以下几个模块:文档预处理操作、构建索引、扩展合并用户查询词、构造检索模型、排序算法。文档预处理操作是指利用分词技术将大段文字分割成词语,经过词法分析后,删除没有语义的词汇,减少文档的冗余。利用倒排文档可将索引与原文档相连,检索词作为索引大大提高了检索效率。用户输入检索词后,系统需要通过一定的预处理、或者是通过查询处理算法,扩展合并查询词,推理用户的检索需求,从而提高查准率。构造检索模型能够迅速匹配用户查询的相关信息,提高检索效率。排序算法是指利用某种算法将与检索词相关性最强的检索结果放在前面,让用户先看到想要的结果。

为了提高检索的查全率、查准率,基于本体的信息检索系统还可以提供多类型的检索模式,本体检索作为基础检索,关系检索和属性检索为用户提供高级检索,为用户提供知识间的联系,如果用户需要个性化服务,还可以提供回溯检索。本体理念的信息检索系统可以将关键词进行概念匹配,用户在不具备专业检索技能的情况下,也能迅速并准确的检索到所需要的的信息,给用户带来全新的极富人性化的体验。

3 结束语

基于本体的信息检索需要构建本体领域知识库,以本体的相关理论为基础。由于理论的复杂性和技术难关等原因,目前国内外还没有对本体信息检索系统进行大规模应用。本体知识库虽然在技术上较为先进,但是就目前的发展水平来看,本体信息检索只能停留在研究的初期,还有许多技术难关要攻克。如何构建本体知识库、充分利用本体表示形式带来的优势仍有待进一步研究,使用本体直接进行匹配,将文档进行本体化,实现文档的自动标引,提供以自然语言为主的概念检索和关系检索模式,提供更人性化的服务。总之,基于本体的信息检索,能够同时提高查全率和查准率,提高检索效率。本文的观点仍有不成熟之处,希望诸位同仁对本体信息检索系统模式进行进一步分析和研究,随着本体技术的不断发展,基于本体的信息检索也会不断发展和完善。

参考文献:

[2]李宏佳,刘国华,李金才.相互协作中的私有信息检索方案[J].计算机工程与设计,2010

(13).

热点推荐

上一篇:计算机软件测试技术分析

下一篇:如何对幼儿进行德育教育论文 幼儿园关于德育教育之类的论文

最新农村美丽庭院实施方案(通用16篇) 看图写话小鸡过河(实用8篇)