查字典论文网 >> Lucene构建条件下的校园网黄页系统研究与实现

Lucene构建条件下的校园网黄页系统研究与实现

小编:

引言

随着互联网的迅速发展,信息爆炸的时代已经来临,人们每天在网络上要面对无数的信息和数据。如何对这些数据进行筛选和甄别,从中选取出真实有效且有用的信息,是一件非常困难的事情,特别是当没有一套行之有效的判别标准的时候。传统搜索引擎的出现很大程度上解决了此类问题,使得人们对于信息的检索变得便捷。但是此类搜索引擎在一个特定范围内如校园网络内使用时,弊端会比较明显,检索效率和准确性都不够。将起源于电信行业的黄页系统引入校园网络,会在诸如号码检索、信息检索、地址检索等功能上非常丰富,很多学校已经或者正在准备建设自己的校园黄页系统。

本文在分析搜索引擎的工作原理和黄页系统结构的基础上,利用开源的lucene工具包,搭建出一个适合校园网使用的基础教育黄页系统,能够满足人们对于校园网内网教育信息资源的检索使用需求。

1校园黄页系统概述与Lucene

1.1黄页系统的发展与校园网络黄页系统概述

网络黄页简单地说是为了将传统的纸质黄页搬到网上,利用Internet作为载体,在网上发行、传播、应用的电话簿。随着技术的发展,黄页除了提供基本的电话号码查询业务以外,还能提供其他的信息查询,包含的范围更加宽泛,服务面也更加丰富。目前有3种形式,即电信等ISP部门推出的黄页、门户网站的黄页频道和专业的网络黄页服务机构,校园网络黄页系统就属于第3种形式。

校园网络黄页系统是能够自动生成教育资源黄页目录并在此基础上为用户提供服务的集成系统。它与传统的黄页系统相比较起来,具有专业性较强、涉及范围较小并且服务对象更加集中的特点。通过快速收集校园网络上的教育资源,并自动化的对信息进行加工分类和抽取,形成黄页目录的形式,然后为需要的用户提供信息检索和查询服务。目前在国内外,黄页系统已经发展的非常发达,yahoo, nassau library等网站都提供了基于目录服务的黄页查询系统,无论从访问量还是使用率来看,都是非常可观的。国内高校特别是图书馆方面,也都已经或者正在建设类似的系统,其中,南京师范大学的黄页查询系统就建设的非常具有代表性。

1.2 Lucene基础知识与工具包内容

Lucene是Apache软件基金会jakarta项目组的一个组成子项目,它使用Java编程语言进行开发,是一个实现全文检索引擎工具功能的开放源代码项目,可以很方便地嵌入到各种应用程序中实现针对特定范围和应用的资源索引和检索功能。与其他搜索引擎相比,Lucene具有以下特点:跨平台、分块索引、面向对象、可扩展和查询功能强大。正因为如此,使用lucene来构建专业检索系统会越来越普遍。

高校可通过扩展程序,对lucene进行二次开发,建设适合本校的专业网络搜索引擎并内嵌到黄页查询中去。

2校园黄页系统技术及功能分析

2.1校园黄页系统所需要实现的功能

2.1.1信息抽取

信息抽取是指从各个网站或者应用系统中将相关的信息提取出来,比如说电话号码、工作地点或者某类教学资源等,一般需要定义特征模式后,再进行抽取,得到待抽取信息块的绝对路径后,信息抽取工作就变成了对信息快内部信息项的集合抽取。

2.1.2信息分类

信息从源位置抽取出来后,还要进行分类,而且分类的标准是越细越好。举例来说,抽取出的电话号码可能分为固定电话和移动电话,而固定电话又分为本地和长途,那么更为精细的划分即将会对检索提供极大的方便。另外,考虑到不同应用系统的差异和信息共享,层次分类法是比较标准的一类方法。它是将标准型的结构要素按其发生作用的有效范围划分不同的层次。

2.1.3信息检索

信息检索是黄页系统的最重要功能,能对上述抽取并分类的信息进行一次和二次检索。检索还可以确定不同的搜索规则,包括搜索深度、搜索范围和更新的频率等。

2.1.4结果展示

黄页系统对于检索结果要以比较人性化的结果呈现给使用者,类似于门户系统一样。这里主要要考虑到检索结果的显示速度以及提供给用户更可观的检索界面,可以使用比较成熟的J2EE架构来开发。

2.2校园黄页系统所使用的技术

实现该系统需要使用下面的关键技术:

2.2.1适合基础教育领域的网站信息抽取技术

这里使用到信息抽取技术包括元数据信息抽取技术和网络爬虫Heritrix技术。网站信息抽取技术是教育网站黄页系统的一种关键性技术。网站的介绍性信息可以帮助用户方便快捷地了解网站资源的概况,直接判断其有效性,而无需访问所有检索结果。网站摘要包含了描述该网站的核心信息,除了可以作为网站的概括版本,直接供用户查看,还可以在用户检索模块,直接对摘要建立索引,这样既可适当减小检索的数据量,也可以提高检索的效率。

网络爬虫Heritrix技术是一个能自动提取网页的程序,它为检索程序从网站上下载页面。一次抓取任务包括许多的属性,建立一个任务的方式有很多种,最简单的一种就是根据默认的order.xm1来配置。在内存中,order使用Craw 10 rder这个类来进行表示。Craw 10 rder继承自一系列的与属性设置相关的基类。

2.2.2渐进式网站分类技术

网站分类是建立专业领域网站黄页系统的关键环节,只有准确识别出主题相关网站过滤掉主题无关网站,并准确判断有效资源的具体类别,用户才能准确便捷地在相应类别中找到所需资源。本章分析了目前一些网站分类技术的优缺点,并结合基础教育网站的基本特征,提出了一种有针对性的渐进式网站分类方法,以准确高效地识别基础教育网站主题。

2.3.3 Lucene索引及检索技术

Lucene的系统结构采用了分层的方式,模块之间基于协议进行交互,形成了一种具有松耦合特征的结构,这在很大程度上增强了系统的适应性。Lucene主要有基础结构封装、索引核心和对外API三大部分组成。核心源码主要是analysis, index和search。搜索核心API Index Searcher通过使用search方法从索引中得到需要的内容。有多种重载的search方法,这些方法存在于父类Searcher里面,有些则包含在自己之中。Searcher类实现了一个searchable接口,任何类只要具备了它所定义的功能就可以进行检索。

3基于Lucene构建的校园黄页系统实现

3.1基于网络爬虫的信息资源采集和抽取系统

系统定时从队列中获取爬虫的URL,同时产生多个线程爬取,并且将取得的数据保存到数据库中,搜索引擎所研究的重点,一直以来都包括对于网页内容的提取。这里可以使用2.2.1所提到的两种信息抽取方式来完成任务。在进行爬取前,需要对爬去的内容进行详细的分析,以确定起始位置,在确定好爬取清单后,可以以WebUI工的方式启动爬虫程序,然后将爬取的内容生成镜像文件,最后利用HTMLpaxser工具对镜像文件进行信息解析和组合整理,结果可以提供给索引工作。

3.2基于Lucene的搜索引擎系统

获取的结果写入索引后,lucene将输入的数据以一种倒排索引的数据结构进行存储,提取出来的词汇作为查询关键字。通常,用户进行查询时会搜索某一个单词如宣传部,因此,倒排索引可以回答哪些资源或者信息包含宣传部?

一个索引库类似于一个数据库的表结构。可以通过Indexer来创建索引文件。建立索引是向索引库中添加索引记录,以及删除和更新索引库中的索引文档。Lucene支持两种索引结构,分别是多文件索引结构和复合索引结构。

用户通过提交搜索请求获取lucene搜索引擎服务器的服务。服务器将这个请求转变为搜索引擎使用的查询对象格式。使用Lucene自带的查询解析器,可以将用户输入的搜索文本转换为查询对象。

3.3检索系统及用户界面

检索系统与搜索引擎是相对的,后者是提供给系统的组件,前者则是提供给用户进行操作的部分。检索系统必须将用户可能会使用的关键字以下拉菜单的形式提供给用户选择,或者使用文本框由用户输入,另外在检索间隔时间和检索限制关键字上也要进行合理的设置。否则,一个不友好的用户界面会让优秀的搜索引擎失去用户。考虑到用户浏览信息的方便性和检索的习惯性,在表现方式上需要根据用户的兴趣和用户习惯将进行罗列。

3.4搜索引擎及信息资源管理界面

一个完整的搜索引擎需要很多需要配置的的控制功能,Lucene管理界面向开发者提供了很多的配置选项,如缓冲区调节的使用量、提交修改的频率、索引时间点的优化清除时间点等。还有类似敏感词屏蔽和木马监控等功能也是非常重要的。

此外,对于信息资源的管理也是黄页系统所需要考虑的部分,诸如黄页系统的数据来源,权威来源及与相关应用系统的同步方法、频率等问题都需要在建设黄页系统时加以考虑并进行合理配置。

4结束语

以Lucene为基础构建的黄页系统主要特色在于强大的检索功能,它未必像google、百度等商业搜索引擎那么强大,但是却更加有特色和针对性,在特定范围内功能更加实用。目前我校正在建设数字化校园的基础性平台公共数据基础平台,其中包含了三大基础工作,即公共数据中心,统一身份认证系统和统一的数据标准,本文的研究成果可以应用到这项基础工作中,将丰富的信息化资源以用户更加喜闻乐见的黄页形式展现出来,提高教学、科研及其他工作的信息化程度。

热点推荐

上一篇:路由和远程访问的网络安全研讨

下一篇:如何对幼儿进行德育教育论文 幼儿园关于德育教育之类的论文

国际贸易实务实训报告内容精选(五篇) 关于学党史手抄报内容汇总(四篇)