基于中文分词算法的英语学习资源查询系统研究

时间：2022-10-30

小编：姜立俊

摘要：针对人工智能在信息搜索领域的实际应用，本文介绍了一种基于中文分词算法的英语学习资源查询系统。该系统通过一种基于中文分词算法的搜索策略，结合事例推理技术实现对英语学习资源的智能搜索。系统测试结果表明，用户可以通过该系统搜索到所提问问题的类似事例以及解决该问题的相关知识条款。

关键词：中文分词算法；智能搜索；事例推理；英语学习

A Study on Information Resources of English Learning Inquires System Based on Chinese Word Segmentation Algorithm

Abstract：Aiming at the usage of Artificial intelligence in the field of information search，this paper having introduced the information resources of English learning inquires system based on Chinese word segmentation algorithm.The system having achieved intelligent search of the English learning which through a kind of Chinese word segmentation’s search strategy and case-based reasoning technology. The results show that this system can get the users to gain satisfying results.

Key words：Chinese word segmentation algorithm；intelligent search；Case-based reasoning；English learning；

一、引言

随着信息技术的迅速发展，英语学习信息资源成为中小学数字图书馆的重要组成部分，它的建设也已成为图书馆界研究的重要课题，其对中小学英语教学以及学生学习的辅助功能也愈来愈显著。然而经过长期的调查研究表明，中小学英语学习信息资源具有信息量大、内容繁杂、涉及面广等特点。很多学生甚至教师在应用的过程中，经常会遇到无从下手去查询相关信息的情况。针对这种情况，本文笔者将基于中文分词算法的搜索技术应用在海量英语学习资源的智能搜索过程中。

二、关键技术

1.中文分词算法。中文分词就是把汉字字串序列切分成有意义的词串序列。如将句子“我是一名中学教师”进行分词，得到：“我/是/一名/中学/教师。”现有的中文分词算法有很多，根据其特点，可以分为基于字符串匹配的分词算法、基于统计的分词算法、基于理解的分词算法、基于路径的分词算法和基于语义的分词算法等。在这些分词算法中，实现最简单、使用最广泛、效率最高的是基于字符串匹配的中文分词算法，它是一种以词典为基础的方法，该算法按照一定的策略将待切分的汉字串与一个充分大的词库进行匹配，若找到某个词条，则匹配成功（识别出一个词）。基于字符串匹配的分词算法主要有以下三种：①最大正向匹配分词算法，简称MM法，如果假设Words为词库，Max表示词库中最大词条的长度，Str为待切分的汉字串，那么MM分词算法的基本思想是：首先，取Str中的前Max个汉字作为匹配字段，与Words中的词条进行匹配，若词库中存在这样一个词，则匹配成功，词条被切分出来；若词库中找不到这样一个词，则去掉匹配字段的最后一个字，将剩余的汉字串作为新的匹配字段，继续匹配；如此进行下去，直到匹配成功为止[1，2]。②最大逆向匹配分词算法，简称RMM法。它的基本思想与MM法相同，不同的是该方法从待切分汉字串的末尾开始处理，每次匹配不成功时去掉最前面的一个汉字。③双向匹配分词算法，简称BM法，它是把MM法和RMM法相结合的一种方法。由于是双向扫描汉字串，所以可能会出现多种结果，这时，我们采用人工干预的方法来确定正确含义的字符串。例如，“提高成功的确定性”字符串在正向扫描时，切分结果为“提高/成功/的确/定性”，逆向扫描时，切分结果为“提高/成功/的/确定性”，显然我们需要的是逆向扫描的结果，只需人工选择一下即可。

本系统所用的分词算法就是双向匹配分词算法。

2.匹配度的计算方法。我们将问题字符串中关键词在检索结果字符串中的包含程度称为匹配度，其计算公式如下：M=（Q/A）×100%。其中，M指匹配度，Q指关键词在检索结果中出现的个数，A指关键词个数。

3.事例推理原理。基于事例的推理（Case-based Reasoning，CBR）是机器学习的一种方法，它利用以前积累的知识和经验来解决问题，在许多领域被广泛的应用[3]。其基本思想是：在进行问题求解时，首先在事例库中检索与该问题最类似的事例，如果能找到完全匹配的事例，则作为问题的解输出，如果找不到，则寻求一个类似的事例，根据问题的需求进行修正，并将修正结果存入事例库中。

事例推理模型主要包括四个阶段：事例检索，事例重用，解决方案修正和事例保存[3]。

三、中小学英语学习资源查询系统的实现

1.系统应用功能设计。中小学英语学习资源查询系统是以中小学英语学习资源为理论基础的，以事例推理的基本思想为依据来解决问题的。它的功能主要是按照用户输入的问题进行回答并将结果显示给用户，本系统按照功能可以分为四个模块：基础信息维护模块、分词处理模块、智能查询模块、事例维护模块。通过对用户输入的自然语言的提问，对问题进行分词处理，提取关键词，提交查询系统，在知识库中查找到相匹配的信息，并将其作为最后的输出结果。各模块的功能如下：①基础信息维护模块：维护系统所需的英语学习资源等基础信息。②分词处理模块：接收用户输入的以自然语言方式表述的句子，按照词义进行分割，提取关键词，供查询模块使用。③智能查询模块：使用分词处理模块的结果，在知识库中查找答案，并将查询结果显示给用户。这里的知识库是由事例库和英语学习基础知识库组成。④事例维护模块：事例库的维护主要来自两个方面，一是教学人员归纳整理在教学过程中遇到的知识重点以及相关的注意事项等信息添加到事例库中；二是在用户查询后未得到结果时，从英语学习资源基础信息库中查找出相应的解决方案，形成一条新的事例添加到事例库中。本系统的服务对象主要包括两类人员：中小学老师、学生。系统采用“B/S模式”的系统架构，用户可以通过具有上网功能的PDA或者手机直接访问系统。

2.系统总体部署结构图。系统的总体部署结构图如图1所示，系统部署的网络分为内网（校园网）和外网（因特网）两种。应用程序服务器和数据库服务器均部署在学校，内外网间的数据交互采用基于USB介质的专用协议，实现内外网间的物理隔离，保证数据传输的安全。移动终端可以通过无线网络直接访问系统。

3.系统的处理流程。系统主要的处理流程为：①输入所要查询的问题；②对该问题进行分词，过滤掉一些停用词（主要是疑问词和虚词），抽取出关键词；③根据关键词，在事例库中进行检索，对检索结果按照与问题的匹配度进行排序，取出匹配度最高的信息作为最终的检索结果，显示给用户；④如果在事例库中检索不到结果，则去检索英语学习资源基础库，从中找出匹配的结果，并将其整理为新案例添加到案例库中；⑤如果在英语学习资源基础库中仍然未找到结果，则将问题提交给相关系统管理人员，由其给出解决方案，并将新案例添加到案例库中。

四、系统测试及结果分析

系统测试有两个目标：一是测试搜索结果的准确性；二是测试搜索效率。为验证系统搜索结果的准确性，笔者作了一个测试，以《初中英语语法大全》为基础库，将近些年来教学过程中常用的语法案例整理到事例库中，共计390条事例。笔者利用200余条自然语言问句进行搜索处理，然后将搜索得到的结果进行人工验证，测试时采用一个指标：正确率（Accuracy）。其计算公式如下：Accuracy=（a/b）×100%其中，a为搜索结果匹配的提问句个数；b为所有的提问句个数。经过测试得到正确率为97.3%，这个正确率已经满足了用户的要求。实验结果表明，系统不仅可以提供正确的答案，也可以提供一些跟问题比较相关的答案，因此，系统总体搜索结果令人基本满意。将中文分词算法的思想结合事例推理技术运用到查询信息系统领域，可以很好地发挥事例推理模型的自学习能力，规避传统人工智能在知识获取上的“瓶颈”问题，进而取得更好的搜索结果。

参考文献：

[1]王远定，梁久祯.利用关键词倒排表实时检索中文网页[J].计算机工程与应用，2010，46（28）：135-137.

[2]马晓娜，杨程磊.基于面向对象的受限自然语言查询系统的设计与实现[J].计算机工程与应用，2005，（10）：166-168.

[3]丁兴富.教学设计理论与远程教学系统开发[J].中国电化教育，2001，（4）.

基于中文分词算法的英语学习资源查询系统研究

小编：姜立俊

相关推荐

热点推荐

相关搜索

最新排行