查字典论文网 >> 术语词典知识组织模型及辅助编纂系统设计

术语词典知识组织模型及辅助编纂系统设计

小编:

摘 要 文章基于知识组织理论,提出了术语词典知识表示的基本模型,作为术语词典编纂系统的知识框架。对术语词典辅助编纂的系统架构进行设计,分解为三个核心功能模块,将基于语料库的术语计算、数据可视化、用户交互模块紧密结合,直接服务于术语词典的编纂,提高知识生产效率。

关键词 术语词典 知识组织 用户交互 术语计算 数字出版

一、引 言

从本质上来说,术语词典编纂是进行知识生产的重要环节,是词典学、术语学、图书情报学、计算语言学等多个学科的前沿交叉领域。术语词典编纂系统的设计首先要以知识组织为依据,准确揭示术语背后的各类知识,形成统一、规范的知识表示框架,这需要词典学、术语学和知识组织理论的相关成果。其次,术语词典实现半自动化编纂、提高知识生产的效率,需要积极吸收计算语言学在语料库建设、新词发现、术语计算等方面的成果。最后,术语词典编纂带有浓厚的知识工程特征,需要以工程管理的观点,实现知识的共建共享、交互式协同与动态更新等。

本文首先对术语的知识表示框架进行描述,突出知识组织的内聚性和关联性。再对术语词典辅助编纂系统的功能模块进行设计,借助知识组织科学、计算术语学、计算词典学的成果,研究术语词典编纂自动化的相关技术,并对术语词典编纂中的相关机制进行讨论。

二、相关研究

知识组织 (Knowledge Organization,简称KO)是对人类知识进行有序化处理的过程,通过一定的描述方式揭示知识之间的逻辑关系。随着人类知识的迅猛增长,人们吸收了图书馆学、情报学、计算机科学、知识工程学、现代语言学、认知心理学等学科的成果,编制了百科全书、叙词表、分类表、本体、术语列表等各种知识组织工具,为术语词典的编纂提供了丰富的经验。在国际上,国际术语信息中心TermInfo(http:∥www.infoterm.info)、国际知识组织协会ISKO(http:∥www.isko.org)等将术语与知识组织紧密联系,召开学术会议,使术语与知识组织的结合日益紧密。

术语词典编纂的研究在国内外学术界得到了广泛的关注,在理论研究和具体实践方面取得了丰富的成果。西方国家已有大量术语词典出版并热销,例如《美国国防部军语及相关术语词典》(U.S.Department of Defense Military Language and Related Terminology Dictionary)、《简明牛津文学术语词典》(The Concise Oxford Dictionary of Literary Terms)等。我国自20世纪90年代至今,已出版了《膜技术术语辞典》《涂料术语词典》《新编美国军事术语词典》《英汉法律缩略语词典》等。在此期间,还研制了一些双语词典辅助编纂工具,例如,商务印书馆与南京大学联合开发的“CONULEXID词典编纂系统”、上海交通大学陆汝占教授等开发的“汉语词典编纂一体化环境”、广东外语外贸大学词典学研究中心开发的“基于微观数据结构的双语词典生成系统”(简称DICTGenerator系统)等,这些系统主要用于语文词典的辅助编纂,一定程度上实现了编纂的半自动化,对于术语词典的编纂也有较大的启发意义。不过总体而言,术语词典的知识组织架构、编纂流程和相关技术有特殊之处,需要进行深入研究。(赫迎红 2006;王际洲 2010)

三、术语词典知识组织结构

术语词典的知识范围较宽,具有较强的学科专业性特征。不同专业的术语词典由于应用领域、编制思路、技术手段不同,其知识描述方式也有较大的差异,归纳已经出版的术语词典可以发现,术语词典最重要的结构元素是词目词及其释义,围绕词目可以扩展到其他相关知识属性。术语词典知识组织结构模型如图1所示。

本模型对术语知识进行结构化处理。词典由词条构成,词条是词典的基本单位。术语知识可分为五部分:词目、同义词、释义、范畴和知识链接。下面对这些内容分别进行介绍:

(3)范畴。综合性的专业词典中标注该术语所属的具体专业分类。例如,对于“层次分析法”这个术语,在运筹学、语言学中都有出现,但意义差别很大,可以通过术语的范畴加以区分,消除歧义。

(4)释义。释义是术语词典的核心内容之一,用于对术语知识进行深度的揭示和描述,如对其形状、构成、成分、特性、用途等进行详细解释。释义主要是描述性的,通过下定义、举例子、画图表等方式,对术语的内涵和外延进行描述,帮助用户了解术语的知识内容。对于不便用语言描述的定义,可以通过图片、表格等进行诠释,帮助用户掌握术语知识。

(5)知识链接。在电子词典和网络词典中,术语之间的相互链接更为便利,可以将具有相关性的各类知识点进行有效的关联,帮助用户进行知识发现和查阅,例如图片、图表、公式、音频、视频等可以用更专业、更形象的方式进一步揭示术语知识。在网络环境下,术语链接具有更强的动态性特征,基于语义实现跨领域、跨介质的知识关联。

采用上述术语知识描述结构,可以形成人机两用的知识资源。它将传统的非结构化的文本信息转换为以词条为核心的树形结构,清晰显示数据结构各个部分的关系,为术语词典的描述提供了一个相对统一的模型,这就为术语知识的共享和术语词典辅助编纂系统的研制提供了相对稳定的框架。例如《膜技术术语辞典》的词条“镍铁蓄电池”:

镍铁蓄电池 nickeliron accumulator;Edison accumulator

又称爱迪生蓄电池。碱性蓄电池的一种。负极为铁,正极活性物质为氧化高镍,以金属镍为导电材料,30%氢氧化钾水溶液为电解质。电池中反应为:

Fe+Ni2O3+3H2OFe(OH)2+2Ni(OH)3

转换为树形结构表示,如图2所示。

四、系统总体设计

术语词典辅助编纂系统是进行词典编纂的技术平台,包含了术语收集、审核发布、更新维护等传统功能,实现无纸化的数字出版,提高术语词典的质量可控性。(章宜华 2004,2007;Landau 2001)借助网络环境下的海量文献资源和计算机自动处理技术,实现术语的半自动挖掘、推荐和更新,有利于缩短词典编纂周期、降低词典编纂成本、减轻专家工作强度、提高术语词典质量。同时,采用用户交互机制,使专家的主导作用与普通用户的广泛参与相结合,实现在线、实时的知识互动,将知识生产过程从封闭式的、少数精英模式扩展到开放的、普通大众模式,有利于增强词典的用户体验,形成良性的互动编制模式。

系统以流程管理为主导,以语料挖掘与术语计算、用户协同与交互为支撑,主要包括词条采集、词条编审、词典生成、词典更新、语料管理、语料挖掘、工作管理、用户协同与交互模块等。如图3所示。

(1)流程管理。包括词条采集、词条编审、词典生成和词典更新四个模块。系统中涉及词条采集人员和各级编审人员、学科专家,可以根据权限进行控制。词条采集主要是录入词条的所有信息,包括词形确定、范畴、拼音、外文、释义等,在词条提交到一审之前,采集人员具有添加、删除、修改词条的权限。词条编审包括一审、二审、三审,这三个级别是循环迭代的过程,本层次审核不合格的词条可返回上一级修改,也可在本层自行修改,但是三审(三审人员具有专家级别)后的数据不允许任意修改,作为最终信息存入术语词典数据库中作为词典脚本,经过人工校验合格后可自动生成术语词典批量出版。

(2)语料挖掘与术语计算。语料库是以一定的标准存放真实存在的语言材料,可采用专业文献数据库、学术网站等为基础制作语料库,为术语词典编纂提供资源。语料管理指对语料库中的语篇文本、例证数据、声音数据、图形文件等进行系统管理,对语料文件进行导入、转换、入库、导出、浏览、查询、编辑、备份存储及更新等操作,由于在术语词典数据库中的正文均以句子为记录单位,语料管理还可以对原始数据进行词频统计,为词目的确立提供可量化的数据基础。术语计算技术是术语词典编纂的重要技术手段。例如,采用机器学习方法,从语料库中自动发现新词,为编纂人员推荐新的术语语词;以可视化的手段监测术语的流通度,通过统计词频及语词的生命周期,推荐规范的术语语词作为词典立目参考,以可视化方式(纵轴为频率,横轴为使用生命周期)的形式显示出术语的使用规律;利用计算同义词模块自动识别词目词的同义词,供人工参考选取合适的同义词。

(3)用户协同与交互模块。术语词典编纂是一项复杂的知识工程,需要众多的专业人员参与。Web2.0技术为实现用户之间的交互和协同工作提供了便利条件。用户(专家用户或一般用户)可以为术语词典补充新概念、新术语,或纠正词典中的问题术语信息,经由编审人员审核后及时修改。用户协同与交互模块为用户提供了开放的平台,将大众智慧融入到词典知识的生产过程中。

五、结 语

2.冯志伟. 一个新兴的术语学科――计算术语学. 术语标准化与信息技术, 2008(4).

3.傅爱平,吴杰,李芸. 汉语语文词典的词条结构模型. 辞书研究,2009(2).

4.赫迎红. 浅谈大型汉英词典的词条和义项设立. 辞书研究,2006(2).

5.何瑞清. 术语多元化、通俗化的限度与词典编纂的对策――以“法人”英译名为例. 北京:术语标准化与信息技术,2011(4).

6.亢世勇,王兴隆,谢晓艳. 我国计算机辅助词典编纂系统初步调查研究. 辞书研究,2012(3).

7.赖茂生,屈鹏,谢静. 知识组织最新研究与实践进展. 图书情报工作,2009(2).

8.宋培彦. 术语知识表示模型研究. 情报理论与实践, 2012(8).

9.王惠临, 吴丹, 石崇德. 语言技术和知识技术――知识服务的重要技术基础. 图书情报工作,2006(9).

热点推荐

上一篇:对外汉语学习词典插图配置研究

下一篇:如何对幼儿进行德育教育论文 幼儿园关于德育教育之类的论文

一个特点鲜明的人(模板16篇) 2023年民间故事手抄报(大全6篇)