查字典论文网 >> 网络信息资源的组织原则研究--对DC元数据的探讨

网络信息资源的组织原则研究--对DC元数据的探讨

小编:

引言

现在人们已经进入网络时代,人们查询信息的手段越来越趋向于网络化,然而网络信息的提供者只注重信息的内容,而忽视了网络信息资源的描述问题。这使得搜索引擎无法提取网络信息资源的核心内容,从而导致查全率和查准率低。一种现象随之产生,即在互联网上总能找到(甚至只能找到)不需要的东西。网络信息资源被准确而合理的描述是其被有效利用的前提和基础,尤其对庞大的网上资源而言。因此,只有对网上的信息资源进行整体上的有效组织、管理和个体上的充分揭示和描述,才能从根本上解决查找、利用上的困难,提高查全率和查准率。但是,网上的信息资源不同于传统的文献资源的各种特点,要求创立有别于传统书目著录组织方式的新工具——元数据,就在这一背景下产生了。

元数据,即关于数据的数据,用来描述网络信息资源、加强对网上信息资源的组织和利用的网络数据集合。而都柏林核心元数据集(Dublin Core Element Set,简称DC)是其中发展比较成熟而又比较成功的一种元数据。DC 元数据计划的创建,是通过网络信息资源的提供者对资源属性信息的描述,并对其内容进行编目、定位,来帮助人们尽快地在网上发现所需要的有效信息资源。因此,DC 元数据资源描述方案又称为网上资源的编目。

1 DC 元数据的发展和规范

DC 是在网络环境中描述文件类对象所需要的最小元素集。其中15 个元数据项可以分为[2]:

(1)Title:标题项,由资源作者或出版者给出的被描述资源的名称。

(2)Subject:主题词或关键词项,一般是描述资源的主题和内容的关键词或短语。

(3)Description:描述项,资源的文本描述,包括文献类对象的文摘或视频的内容描述。

(4)Source:来源项,用来唯一标识被描述资源的来源。若当前的资源为其原始形式,来源项元素可以不用。

(5)Language:语言项,被描述资源内容的描述语言。

(6)Relation:关联项,被描述资源与其他资源之间的关系。

(7)Coverage:时空范围项,被描述资源空间或时间特性。空间范围物理区域,来自规范词表的地名或全称。时间范围指资源内容,而不是资源产生的时间(由日期Date 元素表示)。时间描述采用与日期Date 相同的格式或者采用规范列表中的时间范围描述。

(8)Creator:作者或者创建者项,对创造资源知识内容负主要责任的个人或机构。

(9)Publisher:出版者项,负责发行被描述资源的组织。

(10)Contributor:其他参与者项,指没有在Creator 元素中列出的对被描述资源的创作做出了共献的其他人或组织,其贡献次于创建者。

(11)Rights:版权管理项,被描述资源的版权声明和使用范围。

(1

2) Date:发布日期项,被描述资源公开发布的日期。

(13)Type:类型项,被描述资源属性的范畴或类型,通常从资源类型列表中选取。

(14)Format:格式项,被描述资源的数据格式,用于注明需要什么软件或硬件来显示和执行这一资源。为了提高互操作性,格式值应该从格式列表中选取。

(15)Identifier:标识项,能够唯一标识描述资源的字符或数字。

这简单的 15 个元素由于具有可延伸性、可选择性和可重复性等特点,可根据不同行业的需求对其进行改编,达到描述信息的完整性、可靠性和检索效率高的目标。从DC 元数据的元素结构及著录规则可以看出有如下特点:

(1)结构简单。只有15 个基本元素,且根据DC 的可选择原则,还可进一步简化著录项目。

(2)通俗易懂。非编目人员根据元素的含义易学易会。制作者可根据DC 的标准标引自己的网页、出版物等,提高标引的质量和效率。

(3)可扩展性。可以与其他元数据如RDF(Resource Description Framework),USMARC等连接使用,以弥补自身的不足,提高DC 在不同元数据系统中的互操作性。

(4)可选择性。根据行业不同,选择不同的元素进行描述,如对地图、天体、艺术品、多媒体等的描述,由于它们各有其特点,在描述时可选择Description(内容描述)、Relation(关联)项来解决。

(5)可重复性。解决了多创造者、多版本、多语种等的著录问题。如一个主页是由多部门协作完成和维护,或由几个语种揭示,DC 通过它的可重复性即可解决。

(6)可修饰性。根据对不同资源信息描述的需求,对元素可修饰。如对动态的网页进行描述时,DC 可通过创作时间、修改时间、有效时间等修饰性来解决。

(7)信息描述的灵活性。既可用规范化中的规范化词标引,也可用关键词标引。

在实际应用中,仅仅依靠这15 个基本元素的描述能力是有限的,因而必须加以限定和进行若干子元素的规范描述。有关DC 限定词及子元素的定义目前正在发展之中,在1997年3 月的第四次DC 研讨会上确定了DC 附加的三个限定词:模式体系(Scheme)、语种描述(Lang)、属性类(Type)。

(1)Scheme 模式体系:用来指明元素值得选取遵从已有的或正在讨论中的某个体系结构中的合法值,如分类发表、主题词或各类代码值。如一个Subject 字段应从LCSH(Libraryof Congress Subject Heading)中取值。Scheme 限定词对应用软件或应用人员能提供一个处理线索,以使被限定元素能更好的使用。

(2)Lang 语种描述:指明元素值描述字段所使用的语种,而不是资源本身的语言。由于网络上的多语种问题越来越突出,这个限定词变得越来越重要。迄今为止,英语被假定为网上的语言,但这一现象正在改变,确定资源本身和资源描述的语言问题变得极为重要。

(3)Type 属性类型:指明目前元素的值是元素何种类型的值,一般以子元素限定的方式来描述。

2 DC 元数据的描述对象和描述原则

DC 元数据把它描述的对象称为“资源”,这种资源既可能是物质的实体也可能是抽象的实体,比如:当描述创建者时,DC 就是一个人、或者一个团体、或者一个服务机构——这就是物质实体;当描述日期时,DC 就是时间上的一个点(或一个段)——这就使一个抽象的实体;当描述覆盖范围时,DC 就是一个地区或国家——这就使一个物质实体。当描述主题时,DC 可能是一个抽象实体的抽象概念,也可能是对一个物质实体的主题或人等等,所有这些描述对象都称作“资源”。可见,DC 元数据描述的对象——资源指任何可以标识的东西[3]。

一条元数据可以由一个或多个关于一个或多个资源的元数据描述组成,这个原则超越了以前的简单DC 纪录只能有一条描述的限定,一条DC 元数据就是一个元数据描述集合,并可以采用任何一种编码语言来陈述,比如XHTML meta tags, XML, rdf/XML 等。这个原则同时规定每一个DC 元数据描述只能描述一个资源,也就是所谓“1:1”原则(one-to-oneprinciple)。

3 从 MARC 到DC

3.1 MARC 的产生

MARC 是图书馆为适应计算机技术在图书馆编目的运用而产生的,图书馆历来依赖目录提供馆藏信息服务,图书馆目录与图书馆是分不开的,最早的图书馆目录是书本式的目录,这些目录只能提供简单的少量检索点,而且因为是手工操作,出版时间长,更新不容易,有很大的局限性。因此,当计算机开始应用后,MARC 格式应运而生。MARC 是MachineReadable Catalogue,称为机读目录,可以把人们能够识别的书目信息,使计算机也能识别,计算机同时将信息反馈给人类,成为人类所需要的各种书目产品[4]。

3.2 MARC 的局限性

(1)这种方式只是用于图书馆,而且工作很繁琐。MARC 字段非常复杂,即使现在大部分图书馆都是进行联机编目工作,也要花费很多时间来添加本馆自定义字段。

(2)编目人员需要经过专门的训练及长期的实践,对编目人员的素质要求很高,不仅要懂得一两门外语,而且要对计算机操作非常熟悉,编目工作是一项繁重又耗脑力的工作,必须是严谨的人员才能胜任这项工作。

(3)MARC 的著录需要在专门的软件系统环境中使用,不适应现在的互联网环境。它适用于完整的、静止的信息内容的处理。但是,现在的信息资源不仅仅限于书本式的信息,网络资源发展迅速,动态的多媒体信息资源日益增加,如果这些资源没有很好的进行组织和整理,它就会泛滥成灾,形成信息污染[5]。

(4)MARC 的修订程序相当复杂,而且修改的进程非常缓慢。

3.3 DC 元数据

虽然 MARC 正在不断地发展,它进行的网络信息资源编目是受控编目,编目数据质量较高,但是编目速度慢,成本高。面对这个问题,许多信息技术界的研究者设计了元数据格式来描述电子信息资源。尽管MARC 也是元数据的一种格式,但是目前人们研究的较多的是偏重于电子资源和网络资源的应用。DC 元数据就是针对网络信息资源组织与整理问题而由图书馆和信息界提出来的解决方案之一[6]。

4 DC 元数据的发展趋势

4.1 对网络信息资源的影响

4.1.1 网络信息资源的特点

由 DC 元数据的描述原则可以分析得出网络信息资源的特点:包罗万象,分布广泛,数量大,类型多,动态快速增加,可利用性和可靠性不断地变化,信息源分散无序。这些特点也决定了网络信息资源更迭和消亡都无法预测,同时,由于网络上存在的大量信息垃圾、信息病毒、信息孤岛,使得很多网络信息资源本身并不具备利用的环境和价值。这种种特点使得传统的文献组织方式和检索手段几乎无能为力。 网络的出现改变了人们交流的方式,也改变了传统的文献类型,网络信息资源以一种迅猛发展的态势冲击着我们组织、描述文献资源的方式和方法,成为了一种无法忽视和回避,又难以解决的问题。在网络时代,要解决检索网络信息资源的种种障碍,除了在技术上不断发展以外,还应从源头上去规范网络信息,由信息提供者和信息机构对网络信息资源做深层次的加工与开发工作,使一般的网络信息检索者能够在这种重新开发的阶梯上找到自己真正想要的信息,达到检索的目的。因此,在组织网络信息资源时应坚持以下原则:

(1)信息共享

网络世界没有了时空的间隔,如果还按照传统的工作模式,各自为阵、各自收集、加工、处理、提供检索,那样既不利于收集也不利于利用。因为没有任何一个信息机构有实力可以收集完整所有的信息资源。多个信息机构联合不失为一个实现信息共享的好办法。

(2)提供远程服务

目前,各个学科的发展都非常迅速,信息资源及信息资源的创建者和使用者构成了一个庞大的、不断发展变化且极具活力的群体,信息机构要更好地担负起资源组织者的角色,就必须及时吸收这些专业的成果,才能够使经过整合后的信息资源具有更高的使用价值,否则即使拥有再先进的技术和手段,也无助于提高信息机构在网络信息资源流动链中的作用。而组织信息的目的在于提供服务,网络的发展已成为不可阻挡的趋势,因此未来信息机构在服务上更多的以提供远程服务为目标,提供尽可能完备的检索途径,方便人们通过各种计算机终端进行检索。

(3)适合用户的检索习惯

信息资源的组织是为了更好的利用,然而DC 元数据系统还不很完善,人们还习惯于使用MARC 格式进行标引的情况下,应充分挖掘MARC 标引系统的潜力以适应网络信息资源检索的需要。近年来,MARC 格式一直处于不断的升级过程中,特别增设字段为电子文档建立超链接,并对相关字段进行了个别调整,扩充了原有字段的内涵。MARC 还特别增加了856 字段,即电子地址检索方式字段,856 字段著录网络信息资源的获取方式及获取的必要信息,通过它可实现书目纪录与网络信息资源的链接。增加了856 字段后,使编目工作进入了一个新的阶段,其超文本的链接方式,扩展了机读目录的功能,为读者检索信息资源提供了更为快捷、高效的途径。

4.2 MARC 与DC 并存是图书馆信息资源组织的发展趋势

4.2.1 复合图书馆是未来图书馆的新模式

目前大多数图书馆都存有数以万计的MARC 格式的书目数据,在当前以及可以遇见的将来,传统的印刷型文献仍然是图书馆信息资源的重要组成部分和读者服务的重要物质基础。纸质文献出版业将在相当长的时期内与数字化信息的出版发布共同繁荣。DC 元数据格式虽然发展迅速,但尚未形成国际公认的标准,不同的元数据有其发挥作用的不同领域。MARC 与 DC 的并存将是今后一段时期内图书馆信息资源组织的发展趋势。

4.2.2 实现 MARC 与DC 的相互转换

对 MARC 和 DC 两种元数据格式的探讨,目的是通过研究,找出一个在应用上最能发挥效益的资源处理方法。目前有关DC 元数据格式向标准 MARC 格式转化的理论已取得很大的突破,这使得 MARC 与DC 间相互转换成为可能。从理论上讲,从DC 到 MARC的格式转换并不是件难事,任何一种结构化的数据都能转换成另一种数据结构,但是这种转换不可避免地会造成一定程度的数据损失。目前许多学者在研究 DC 格式与 USMARC 格式的转换,编制了一些词表反映二者之间的关系,U N I M A R C 和 U S M A R C 与 D C间映射已有成果面世,并有系统投入实际运作之中[7]。

5 结语

随着 Internet 的发展以及网络资源和技术越来越广泛的应用,数字图书馆的数量在网上不断增多正如纸介质图书馆中的图书、期刊等收藏需要编目一样,数字图书馆的数字收藏(digital collection)同样需要著录和标引,以便用户能够准确快速地找到自己所需的信息。DC元数据是解决网络信息资源无序化问题的一次有效的尝试和研究,特别是由OCLC 牵头组织则意义更是重大而深远。网络信息资源的组织与整理工作已不是单由图书馆界就能完成的,更不是单纯地利用图书馆传统的编目理论就能胜任的。DC 元数据是在充分吸收了图书馆界所具有的编目、分类、文摘等经验的基础上,同时积极利用了计算机、网络界的自动搜索、编目、索引、检索等研究理论与成果所发展起来的,是当今国际图书馆界和网络界的研究热点之一。

中国硕士论文网提供大量免费工商管理硕士论文,如有业务需求请咨询网站客服人员!

[参考文献] (References) [2] 郝亚玲.DC 元数据与网络信息资源的描述[J].情报科学.2002,20

(10):1069-1074. [4] 董红霞.从URMARC 到DC 元数据[J].图书馆学研究.2002,

(6):60-63.

[5] 任瑞娟,濮德敏,苗军民,米佳.基于XML/RDF 的DC 元数据描述技术[J].情报杂志.2002,

(9):25-26. [7] 周建清.MARC 与DC 的对比研究[J].中国科技信息.2006,

(8):207-208.

[8] 吴建中.DC 元数据[M].上海:上海科学技术文献出版社.2000.

[9] 张桂荣.网络资源组织与管理的新思路——DC 元数据及其与MARC 格式的对比与转换[J].内蒙古科技与经济.2007,

(1):70-74. [11] 魏文晖.DC 元数据在特种地方文献著录中的应用[J].图书馆论坛.2004,24

(2):126-128. [13] 倪娟.MODS 元数据的新发展与应用[J].农业图书情报学刊.2007,19

(6):165-167. [15] 陈晓波.数字图书馆的编目规则[J].图书情报工作.2002,

(7):124-125. [17] 江汇泉.DC 元数据图书馆应用中的编码实现

(二)——限定性DC 的编码实现[J].图书馆杂志.2006,

(4):50-53. [19] 王玉洁.MARC 格式在网络信息资源组织中的应用探讨[J].江西图书馆学刊.2012,39

(4):51-53.

[20] 张军礼.关于网络信息资源组织与服务趋势的探讨[J].科技情报开发与经济.2006,16

(1

6):8-9. [22] 卢共平.面向用户的网络信息资源组织与管理[J].情报探索.2007,

(5):48-50.

[23] 尹峻.浅论高校图书馆的网络信息资源组织[J].情报探索.2012,

(4):63-64.

[24] 颜达红.网络信息资源组织的元数据标准研究分析[J].中共福建省党校学报.2004,

(1

2):48-50.

[25] 李红霞.网络信息资源组织研究述评[J].情报杂志.2006,

(9):11-13.

热点推荐

上一篇:对财务分析的再认识——SAS财务分析方式

下一篇:如何对幼儿进行德育教育论文 幼儿园关于德育教育之类的论文

2023年急救中心志愿者心得体会及感悟(通用13篇) 最新短视频实训总结报告(通用10篇)