基于统计方法的英语长难句句法分析器研究与实现

时间：2022-12-03

小编：

摘要：针对高校学生在英语阅读训练中存在长难句理解障碍等问题，借助自然语言处理技术与UI处理技术，重点研究一种在线分析与描述英语长难句结构的工具，以帮助高校学生消除理解障碍，促使其提高英语阅读能力。

关键词：统计方法；句法分析器；自然语言处理技术；UI处理技术

DOIDOI：10.11907/rjdk.151089

中图分类号：TP319

作者简介作者简介：孙杰欢（1993-），男，江苏常州人，三江学院计算机科学与工程学院学生，研究方向为数据库及Web开发；张鑫（1993-），男，江苏盐城人，三江学院计算机科学与工程学院学生，研究方向为数据库及Web开发；高利（1994-），男，江苏盐城人，三江学院计算机科学与工程学院学生，研究方向为数据库及Web开发；姚佳梦（1993-），女，江苏江阴人，三江学院计算机科学与工程学院学生，研究方向为数据库及Web开发；顾问（1984-），男，江苏无锡人，三江学院计算机科学与工程学院实验师，研究方向为数据库及Web开发。

0 引言

提高大学生阅读能力是高校英语教学中的重要任务之一。在高校英语阅读训练中，长句或难句出现的频率很高，学生语法知识薄弱等问题直接导致其对长难句内部结构的理解模糊不清。针对此问题，笔者借助自然语言处理技术与UI处理技术，研究了一种在线分析与描述英语长难句结构的工具，以帮助学生消除理解障碍，在使用过程中逐步理解常见长难句的组成部分，从而促使其提高阅读能力。

1 英语长难句句法分析难点

英语句子由主干和修饰成分两部分组成。主干一般指句子的主要结构，由主谓宾或主系表组成，而修饰成分为单词、短语、从句3类。其中单词主要是形容词和副词；短语主要是介词短语；从句主要是定语从句和状语从句。在大学英语阅读训练过程中，为了考查学生的阅读能力，经常会出现复杂的修饰、倒装等方式相互结合使用的长难句，这类句子打断了学生正常的阅读习惯。较难理解的词句有如下几种：①倒装句。这类句子不同于正常语序，需要重新理解句子成分，加大了对句子理解的难度；②虚拟语气。通常表示假想，而不表示客观存在的事实，其形式变化多种多样；③比较级和最高级。比较级和最高级有特殊形式，对单词的不熟悉容易增加句子理解难度；④双重否定。这种句子在形式上或者语义上用双重否定设置了圈套，干扰了读者的阅读思维，造成了句子理解困难；⑤习惯用语或固定词组。这涉及到阅读者的知识面，如果阅读者对这些固定组合不熟悉，就很难理解。

笔者研究发现，对于上述①、③、⑤这3类句子，在借助计算机相关技术进行处理后，能够得到较为清晰的分析结果，从而让高校学生从句子结构方面理解这些长难句。

2 基于统计方法的句法分析器

随着人们对自然语言研究的逐步深入，以及语料库和语料库语言学的兴起，传统基于规则的语言模型受到了质疑，自然语言处理的主要目标也转为对大规模真实文本的处理，概率和统计驱动的方法几乎成为了自然语言处理的标准方法[2]。

2.1 统计模型与句法分析器

自然语言处理的核心是构造语言模型，而语言模型就是一种借用数学模型来描述自然语言内在规律的模型。目前，很多学者都在研究基于统计的语言模型，它通常是概率模型，计算机通过使用统计模型对句子中的单词进行概率分析，估算出自然语言中语言成分出现的可能性，不像传统的规则型语言模型单纯判断该单词是否符合语言学规则。这种概率性的语言统计模型在很大程度上比规则语言模型更加客观和全面。

目前，语言统计模型在自然语言处理中已相对成熟，比较典型的有：最大熵语言模型、概率上下文无关语法（PCFG）、隐马尔可夫模型（HMM）、支持向量机（SVM）、条件随机场（CRF）、基于决策树的语言模型等[2]。

基于各类统计模型也相应产生了诸多句法分析器，相比较而言，Apache的OpenNLP Parser和Stanford的Stanford Parser较为杰出并且分析结果比较准确。

2.2 OpenNLP Parser

OpenNLP Parser利用MaxEnt选择概率最大的标记作为一个句子中某个单词的所属分类。利用这种方法进行词类标注虽然简单，但有一个致命缺点：这种分类器是自左向右移动窗口标记的，分类器移动到下一个单次前就必须对它前一个单词作出硬性判断，这样的分类器不能利用后面的单词信息纠正前面的错误判断。

2.3 Stanford Parser

Stanford Parser是Stanford NLP小组提供的一系列工具之一，能够用来完成语法分析任务。它是基于概率上下文无关语法（PCFG）实现的一个句法分析器。

一个概率上下文无关文法（PCFG）是一个五元组（N，∑，S，R，P）：①一个非终结符集N；②一个终结符集∑；③一个开始非终结符S∈N；④一个产生式集R；⑤对于任意产生式r∈R，其概率为P（r）。

PCFG的规则表示形式为：A→αp，其中A为非终结符，p为A推导出α的概率，即p=P（A→α）。该概率分布必须满足如下条件：∑P（A→α）=1，也即相同左部的产生式概率分布满足归一化条件。分析树的概率等于所有使用规则概率之积。

Stanford Parser利用PCFG计算分析树的概率值，若一个句子有多个分析树，可以依据概率值对所有分析树进行排序，同时也能进行句法排歧，再从多个结果中，选择概率最大者作为最终分析结果。

同样地，利用PCFG算法模型也存在一定局限性：PCFG没有考虑结构之间的依存关系，也没有考虑词汇对句法结构的影响。 3 O&S Parser工作原理及功能

根据对基于统计方法的OpenNLP Parser和Stanford Parser这两种句法分析器的比较可知，凭借它们自身统计模型的优势已经可以基本达到对英语长难句进行句法分析的目的，准确率和执行效率都很高。但是目前无论哪一种句法分析器都会给使用者带来一些新问题。例如，不论是标注词性的简写，还是语法树的编排结果，对于英语不是极其了解的人而言都是一种负担，尤其是对国内多数高校学生来说更是难以理解。因此，应采用一种更加实用、直观的句法分析器（O&S Parser）帮助他们解决这些问题。O&S Parser主要集成了OpenNLP Parser和Stanford Parser，让它们发挥各自的优势，具体方法如下：首先利用OpenNLP Parser及Stanford Parser两个句法分析器同时对英语长难句进行分析，然后对两者的分析结果进行比较，对差异化集合进行筛选，得到最终分析结果，使笔者的句法分析器准确性得到提高。针对句法分析树难以理解的问题，笔者使用UI处理技术，对它们解析出来的词性或者句法树进行重新编排，包括对一些缩写的中文注解等，再将这些信息展示给用户，使这些词性或者句法树能够让用户一目了然。O&S Parser工作原理如图1所示。

3.1 O&S Parser比较分析

本文示例中选取了一个典型的英语长难句让O&S Parser同时调用OpenNLP Parser和Stanford Parser对英语长难句进行分析，然后对得到的两棵句法树进行文本比对，高亮显示差异之处，具体效果如图2所示。再根据词性对照表选取最优分析结果。

3.2 O&S Parser拆分英语长难句

O&S Parser在得到一个句子精确的句法树之后，会将句子拆分成若干短句子，并将连接词或符号进行着色，让高校学生从简单到复杂，逐步理解英语长难句。图3中描述了使用O&S Parser对例句进行拆分的过程，最后得到了5个句子。

4 结语

本文针对学生在英语阅读训练中出现的长难句理解障碍等问题，阐述了出现问题的主要原因，提出了一种基于统计方法的句法分析工具改造方法，并结合实际情况给出了相应功能的设计思路。O&S Parser帮助学生降低了理解英语长难句的难度，具有一定的实用性。

基于统计方法的英语长难句句法分析器研究与实现

小编：

相关推荐

热点推荐

相关搜索

最新排行