查字典论文网 >> 用PDF文档制作特色文献全文数据库的实践

用PDF文档制作特色文献全文数据库的实践

小编:

用PDF文档制作特色文献全文数据库的实践 用PDF文档制作特色文献全文数据库的实践 地方文献论文 更新:2006-4-8 阅读: 用PDF文档制作特色文献全文数据库的实践


摘要:文章系统分析了PDF文档的特点,根据开发"粤北地方文献全文数据库"的方法和实践,指出图书馆制作特色文献数据库应首选PDF文档。

中图分类号:250.74
文献标识码:B
文章编号:1006-1525(2004)01-0046-03

国家数字图书馆是依托互连网连接起来的全国各地图书馆电子信息数据库群,其信息基础由国家图书馆藏文献信息、网络信息、各地图书馆藏特色文献信息构成。全国各地的地方特色文献是国家数字图书馆中具有重要意义的信息,地方图书馆尽快设法将这些信息数字化是国家数字图书馆工程的重要基础。下面是我馆以PDF文档格式制作"粤北地方文献数据库"的一点认识和经验。

1什么是PDF

PDF是Adobe公司开发的一种电子文档格式PortableDocumentFormat的简称,这是一种可移植的结构化通用文档格式,它可以将任何文字、表格、颜色、图形图像、超文本链接、声音、动态图像等信息封装在一个电子文档中,而不管创建该文档所使用的应用程序和平台。AdobePDF是出版业新兴的工作流程标准。

PDF文档是通过一系列对象序列来构造的,PDF对象包括直接对象(DirectObject)和间接对象(IndirectObject)。直接对象通常有布尔型(Boolean)、数值型(Number)、字符串型(String)、名字型(Name)、数组型(Array)、字典型(Dictionary)、空对象(Null)、流对象(Stream)等基本类型,间接对象是经过标识了的PDF对象。一个PDF文档包含了一个或多个页面,而每一页都可以包含文档、图形和图像。一个典型的PDF文件包含文件头、文件主体、交叉引用表和文件尾4个部分。文件头(Header)位于PDF文档的第一行,它表明当前文件使用PDF规范的版本;文件体(Body)中包括构成文件间接对象的一个序列,这些对象代表文档中的各个组件,例如字体、页数和图像等,交叉引用表(Cross-referenceTable)则是为了能对间接对象进行随机存取而设立的一个间接对象地址索引表,它给出了所有当前文件使用对象的入口地址,即字节偏移量,以便系统随机访问不同的对象;文件尾(Trailer)中包含了交叉引用表的起始地址和其中的对象总数、文档中Catalog(目录)对象的对象号以及加密等安全信息,根据文件尾提供的信息,PDF的应用程序可以找到交叉引用表和整个PDF文件的目录对象,从而控制整个PDF文档。

2PDF的特点

目前国内文献数字技术飞速发展,已有多家文献数字化处理系统,据笔者所知,DIPS数字文献处理系统、TRS系统等都是性能出色的系统,而价廉物美的AdobeAcrobatReader制作利用PDF文档确实是最好选择。用PDF制作电子文献只需安装:(1)中文操作系统;(2)任何字处理软件,排版软件,图形软件;(3)中文4.0版本以上的AdobeAcrobat。ActivePDF公司还发布了以ActivePDFServer为中心PDF工具包。ActivePDFServer是一个服务器软件,可以读取几乎所有Windows应用文档,并把它们转换成PDF格式。该服务器软件有标准版和专业版两个版本,专业版支持PDF加密解密。软件包的其他工具还有DocConverter(能将280多种文档转换成PDF)、Web Grabber(能将HTML转换成PDF)、Spooler(打印服务器的PDF文档)等。

PDF是从页面描述语言PS(PostScript)发展而来,具有与PS几乎相同的页面描述能力和相似的描述方法。但与PS不同的是,PDF除了能描述复杂版面外,还具有交互功能(如超链接、交互表单等)、页面随机存取及图形字体仿真描述等特性。因此,PDF不仅适合印刷出版,而且也适合电子出版,是全世界电子版文档分发的公开实用标准。

PDF与在电子出版中占统治地位的HTML语言相比也有自己明显的优势,实现了纸张印刷和电子出版的统一。排版后的内容生成PDF文件,则能在交付印刷的同时,进行网络数字化发行。此外,PDF还有下列优点:

(1) 容易制作和利用---大众化

制作PDF格式的多媒体电子图书目前主要有三种途径:第一是应用专门的PDF制作工具软件进行制作;第二是将包含有Postscript页面描述语言的文件转换成PDF文档;第三是利用转换工具把其他格式文件(如DOC、HTML等)转换成PDF文档。

(2)跨平台应用---通用性

集约的PDF文件比原来的源文件小很多,以致在Web上下载文件的同时可以快速地显示页面。PDF独立于软件、硬件和创建的操作系统平台,任何人都可以使用免费的AdobeAcrobatReader在任何电脑、任何系统平台上共享、查看、浏览和打印,并具有强大的全文检索功能。

(3)高效的浏览和打印---所见即所得

压缩的AdobePDF文件比源文件小,每次下载一页,可以在网页上快速显示,而且不会降低网络速度。创建PDF者可以加入书签,Web链接来使PDF文件容易浏览,读者可以直接使用电子化的便笺、高亮度显示、下划线等来对PDF文件进行标注。不管你的显示器是何种类型,PDF文件精确的颜色匹配保证忠实再现原文。读者可以放大或缩小一个文件以适应屏幕和自己的视觉,PDF文件可以放大到800%而丝毫不损失清晰。由于PDF文件是以PostScript语言图像模型为基础,它将忠实地再现原稿的每一个字符、颜色以及图像,正适合特色文献载体种类繁多、形式各异的数字化要求。PDF文档无论在哪种打印机上都可保证图形精确、颜色准确的打印效果。

(4)高安全加密特性---版权保护

使用Acrobat5.0软件,可以轻松添加书签,设置安全选项以及生成微型AdobePDF预览视图,Acrobat5.0还可以在网页浏览器内使用"数字签名",从而对AdobePDF文档加上评语或对其予以准核。对PDF"加密"可以控制敏感信息的可访问性,能够控制机密文件的访问权限,防止PDF被改动或打印。"数字签名"更可对审阅过程的每一步进行控制。由于PDF文档具有的种种优点,使它成为出版界的新宠,目前网上的电子出版物大多采用PDF文档格式发行。利用PDF格式制作特色文献全文数据库可以保留发表出版时的原版原式,图文并茂,既可以直接打印,也可以下载保存。

3用PDF文档制作特色文献全文数据库

鉴于PDF的上述优点,我馆在建设"学院科研成果管理系统"和"粤北地方文献全数据库"时就选用PDF文档格式,建设和运行的效果良好。

3.1PDF文档制作

安装了Acrobat之后,在Windows控制面板中的"打印机"中会出现两种Acrobat的虚拟打印方式---AcrobatDistiller以及AcrobatPDFWriter,通过我们的反复测试,建议使用PDFWriter来打印中文电子文档,原因有二:第一,打印出的PDF文档体积小;第二,比Distiller可以更快速地制作。

特色文献通常表现为论文、专著、实验数据、统计表格、绘画图片、音像制品,多表现为文本文件、HTML文件、DOC文件、JPG或RTF文件等等,这些文档都可以转换成PDF格式文档。根据我们的实践,建议能转换成DOC文件的尽量使用MSWord来制作PDF文档。需要注意的是,使用Word排版,正文文字选择"黑体,五号"或者"宋体加粗,五号"为最佳打印字体,标题及其他文字大小、颜色可以自定义,但是字体最好也要选择上述两种字体。图片建议选择JPG或者GIF图像,不推荐使用BMP图像。Word文档的页面大小最好为16开、32开或者B5,因为对于A4这样的大小,一行上的文字会容纳很多,这样不利于读者阅读。

如上所述,AcrobatPDFwriter可将任何格式的文档转换成PDF文档,它是一个模拟的"打印"驱动程序,即在客户应用程序中调用打印命令,以"打印"文件的方式创建PDF格式的文档。PDFwriter的使用方法是:首先安装该软件,安装完成后在Windows打印机设置的列标上将增加PDFwriter;然后启动应用程序并打开用于转换的文件,在菜单或工具栏中选择"打印";在打印机名称菜单上选择PDFwriter;接着选择目标目录并为PDF文档取名;在填写完相应的信息后,PDFwriter将会自动生成PDF文档。AcrobatDistiller是一个可以用来制作和编辑PDF格式文件的高端PDF文档生成器,利用它可以将Postscript文件转换成PDF文档。AcrobatPDFmaker则是一个系列工具,例如AcrobatPDFmakerForWord97可在Word97中直接将编辑好的DOC文件转换成PDF文档,转换过程中PDFmaker会将Word文件中的一些信息和结构相应地转换成PDF文档中的信息和结构,比如将Word中的头部转换成PDF书签,将Word中的URL转换成PDF的网页链接等等。对于扫描输出或其他图片格式则可通过Adobe公司推出的Photoshop6.0保存为JPG或者GIF图像后转换成PDF文档,以确保文档最小化。

单击"打印"按钮开始打印,PDFWriter进行简单的文字预处理以后会要求选择输出PDF文件的保存路径,之后等着PDFWriter打印文档就行了。这里要注意保存路径选项,我们的经验是建立专项目录树。

3.2PDF文档组织管理

对制作好的PDF文档脚本,必须进行一些必要的处理,包括超级链接、书签、注释、文档初始化、电子信息加密等属性设置,提取目录索引标识。然后对众多的PDF文档分类组织。运行Acrobat,打开PDF文档脚本。

首先是加入超级链接,对需要加入超链接的文字设置超链接的外观、位置和读者点击超链接时的显示方式、效果和将发生的事件;其次是加入书签,书签的作用旨在快速的定位文章中特定的部分,某种情况下可以起到目录作用,因为Acrobat支持书签的拖拽操作,即您可以将一个书签"拖动"到另一书签上,建立书签的逻辑关系;第三是加入注释,注释的作用很多,最主要是对文档或者文档的某个部分的说明;第四是对文档初始化属性的设置,选择"BookmarksandPage"单选项,其他选项使用默认值;第五是文档加密设置,如果希望用户需要密码才能阅读,请选择"PasswordRequiredtoOpenDocument",输入用户打开文档时需要的密码。建议选择"PasswordRequiredtoChangePermissionsandPasswords"选项,即只有制作者才可以修改文档信息及文档安全性密码。虽然现在有很多软件是用来破解PDF文档密码的,但是想轻易地破解也并非易事。在EncryptionLevel(加密级别)中可以选择使用的加密级别:包括40-bit和128-bit两种方式,其中128-bit只能针对5.0版本,所以建议选择40-bit即可,以确保文档的向下兼容。应选择"NoChangingtheDocument",即不允许用户修改文档中的任何部分。如果需要禁止用户打印和复制文档中的文字和图片可以选"NoPrinting"、"NoContentCopyingorExtraction,DisableAccessibility"选项。最后要做的是保存所做的修改。

如果想对PDF文档内容进行编辑和修改,可使用AdobeExchange,利用它可以在文档中添加超文本链接、书签、小书页图标、表格等,也可以在文档中插入、删除、复制或者移动一个或多个页面。
3.3PDF文档的阅读与管理

PDF支持任意字符检索,与TRS、TBS检索系统配套更是完美的数字化文献集合。AcrobatReader是我们阅读PDF格式文档的较好选择,这是一个免费软件,可直接从网上下载。AcrobatReader既可以独立运行,也可以作为浏览器的插件(plug-in)对PDF文档进行在线阅读。如果计算机中已经安装了Netscape浏览器,则在安装AcrobatReader时安装程序会自动将其作为插件插到Netscape中;如果使用IE浏览器,则要在程序安装完成后,将目录"\Adobe\AcrobatX.0\Reader\browser"中的nppdf32.dll文件拷贝到IE的插件目录"\InternetExplorer\Plugins\"中,并重新启动计算机,这样就可以在浏览器中像浏览HTML网页一样方便地浏览PDF文档了。

AcrobatReader为用户提供了多种形式的浏览窗口,有"单页面"、"页面+书签目录"和"页面+书页图标"等显示方式,既可以全屏浏览,也可以单页浏览。它还提供了翻页功能,可利用菜单、滚动条,右键菜单、方向键等进行翻页,可选择首尾、前后及指定页号翻页。AcrobatReader的页面多级缩放功能可以按12.5%到1600%的比率进行缩放,使用户选择合适的比例阅览。此外,它还提供了复制的功能,点击工具栏中含"T"字样的"TextSelectTool"按钮,通过拖拉鼠标选定要复制的文本范围,点击复制后就可以粘贴到需要的地方了。要注意的是,如果在制作PDF文档时设定了"不允许选择文本和图形"的安全保护,则不可能复制,这对需要保护的文档非常有用。

3.4知识产权问题

由于PDF文档易于传输,且在获得了免费阅读软件后可进行随意浏览,给PDF格式电子文献的知识产权保护带来了极大的挑战。针对这一问题,Adobe公司推出了面向出版商和发行商的安全出版系统。该系统包括AdobePDFMerchant和AcrobatReader的WebBuy插件两部分。其中PDFMerchant是作为服务器端的程序,WebBuy插件是客户端程序,通过两者配合使用来确保网上出版物免遭盗版。PDFMerchant的功能是为准备传送的PDF文档加"锁",当读者试图利用AcrobatReader阅读上了"锁"的文件时,会提示无权阅读该文件内容的信息,并询问你是否愿意购买文件内容,在点击购买之后,PDFMerchant就会直接将用户带到出版商或发行商的站点上,在完成购买后,网站就会配合AcrobatReader将文件内容和阅读许可发送到读者用户的计算机上。当然,这个系统只是针对出版商和发行商的。如何保护自己制作的全文数据库的权益,堵住盗版的漏洞,目前还没有现成的解决方案,但是至少我们可以为PDF格式的电子文档加"锁",当网络用户将其下载并进行阅读时,要求用户输入相关使用权信息(如身份证、阅览证等号码),并要求信用承诺不将此书用作商业用途,然后才将内容显示出来,具有一定的保护作用。

目前,数字图书馆建设如日中天,图书馆可以将从网络上下载或者购买的电子文献、馆藏的诸如"学校科研成果"、地方文献等特色文献,对其进行著录和标引之后组织成电子书库提供给读者。PDF文档格式作为全世界电子版文档分发的公开实用标准,是建设特色文献数据库,为用户提供内容丰富、图文并茂的电子文献之首选。

参考文献:
[1] 什么是PDF〔EB/oL〕.http://www.chinapdf.com/begin.htm
[2] [2]李慧.PDF文档与多媒体电子图书[J].晋图学刊,2001,(1).
[3] [3]深蓝色系统.PDF电子书简要制作方法〔EB/oL〕.http://lib.haiyang.net.cn/ebook/multi/bl.HTM
[4] [4]肖明.PDF文档的阅读与生成工具[J].电子与电脑,2000,(1).
[5] [5]官建生.地方文献数字化:中国数字图书馆工程信息基础[J].大学图书情报学刊.2002,(2).

〔出处〕 大学图书情报学刊2004年3月第22卷第1期


热点推荐

上一篇:美国钢铁保障措施案程序和法律问题概述(一)(1)论文

下一篇:如何对幼儿进行德育教育论文 幼儿园关于德育教育之类的论文

2023年辽宁政府工作报告 镇政府工作报告(模板8篇) 最新暑假实习心得体会(五篇)