ICS35.240
L70
中华人民共和国国家标准
GB/T31219.2—2014
图书馆馆藏资源数字化加工规范
第2部分:文本资源
Specificationoflibrarycollectionsdigitization—
Part2:Textresources
2014-09-30发布 2015-01-01实施
中华人民共和国国家质量监督检验检疫总局
中国国家标准化管理委员会发布目 次
前言 Ⅰ …………………………………………………………………………………………………………
1 范围 1 ………………………………………………………………………………………………………
2 规范性引用文件 1 …………………………………………………………………………………………
3 术语和定义 1 ………………………………………………………………………………………………
4 加工级别及内容编码 2 ……………………………………………………………………………………
5 加工准备 3 …………………………………………………………………………………………………
6 资源采集与处理 3 …………………………………………………………………………………………
7 元数据加工 4 ………………………………………………………………………………………………
8 命名规则 6 …………………………………………………………………………………………………
9 质量管理 6 …………………………………………………………………………………………………
参考文献 7 ………………………………………………………………………………………………………GB/T31219.2—2014
前 言
GB/T31219《图书馆馆藏资源数字化加工规范》分为五个部分:
———第1部分:总则;
———第2部分:文本资源;
———第3部分:图像资源;
———第4部分:音频资源;
———第5部分:视频资源。
本部分为GB/T31219的第2部分。
本部分按照GB/T1.1—2009给出的规则起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。
本部分由中华人民共和国文化部提出。
本部分由全国图书馆标准化技术委员会(SAC/TC389)归口。
本部分起草单位:国家图书馆、首都图书馆、北京大学图书馆、中国科学院文献情报中心、上海图书
馆上海科学技术情报研究所、浙江大学图书馆、汉王科技股份有限公司、北京方正阿帕比技术有限公司。
本部分起草人:李晓明、龙伟、赵四友、朱云、陈建新、王炜、张春红、刘秀文、张建勇、周静怡、徐强、
黄晨、李明敬、魏丕。
ⅠGB/T31219.2—2014
图书馆馆藏资源数字化加工规范
第2部分:文本资源
1 范围
GB/T31219的本部分规定了图书馆文本资源数字化加工遵循的技术标准。
本部分适用于以文字为主要表达形式,可存在少量图表的文本文献(不包括古籍善本、手稿等特殊
文献)的数字化加工。
注:数字化加工对象可以是一般印刷型文献,也可以是印刷型文献经过数字转换后的图像文件。
本部分适用于图书馆文本资源数字化加工,其他文献信息机构的文本资源数字化加工也可参照
使用。
2 规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB2312 信息交换用汉字编码字符集 基本集
GB/T4894—2009 信息与文献 术语
GB13000 信息技术 通用多八位编码字符集(UCS)
GB18030 信息技术 中文编码字符集
GB/T25100—2010 信息与文献 都柏林核心元数据元素集
ISO/IEC10646 信息技术 通用多八位编码字符集(UCS)[Informationtechnology—Universal
Multiple-OctetCodedCharacterSet(UCS)]
3 术语和定义
下列术语和定义适用于本文件。
3.1
文献 document
在文献工作过程中作为一个单位处理的记录信息或实物对象。
[GB/T4894—2009,定义4.1.2.2]
3.2
文本 text
以字符、符号、词、短语、段落、句子、表格或者其他字符排列形成的数据,用于表达意义,其解释基本
上取决于读者对于某种自然语言或者人工语言的知识。
[GB/T4894—2009,定义4.1.1.2.4]
3.3
图像 image
用各种观测系统以不同形式和手段观测客观世界而获得的,可以直接或间接作用于人眼进而产生
视知觉的实体。
1GB/T31219.2—2014
3.4
光学字符识别 opticalcharacterrecognition
又称OCR识别,自动识别通过扫描仪、数码相机、摄像机等得到的图像中的字符,便于存储、编辑
和检索。
3.5
点/英寸 dotsperinch
dpi
扫描仪(打印机)在水平方向上和垂直方向上的每英寸都能扫描(打印)的点数。
[GB/Z19736—2005,定义3.4]
4 加工级别及内容编码
4.1 加工级别
文本资源数字化加工级别分为长期保存级和发布服务级:
———长期保存级。用于文本资源的长期保存,在必要时用于编辑及格式转换。长期保存级的文件
格式主要有:
● XML格式,适用于标识文件的版面信息,描述文件的内容或结构。
● TXT格式,是最常见的一种文本格式,其文件体积小,存储方便,不易被病毒感染。
● PDF格式,适用于各种档次的印刷,文本文档的保护、打印、网络显示及长期保存等。
———发布服务级。用于网络浏览、下载及打印。发布服务级的文件格式主要有:
● HTML格式,一般用于文本资源的网络发布。
● PDF格式,也适用于文本文件的交换、显示。
● DOC格式,是一种专属格式,一般用于文本编辑。
4.2 内容编码
文本内容编码应遵循通用的国家标准或国际标准,见表1。
表1 文本内容编码标准
标准编号 标准名称 简要说明
GB2312信息交换用汉字编码字符
集 基本集规定了汉字信息交换用的基本图形字符及其二进制编码表示。
它是一个简化字汉字的编码,共收录6763个汉字,其中一级汉字
3755个,二级汉字3008个。
GB18030信息技术 中文编码字
符集规定了信息技术用的中文图形字符及其二进制编码的十六进制
表示,它是以汉字为主并包含中国多种少数民族文字的超大型中
文编码字符集标准,共收录70244个汉字。
GB13000信息技术 通用多八位编
码字符集(UCS)规定了UCS的总体结构。其编码空间巨大,可以容纳多种文字同
时编码,共收录汉字20902个。
ISO/IEC10646信息技术 通用多八位编码
字符集(Informationtechnolo-
gy—UniversalMultiple-Octet
CodedCharacterSet)ISO/IEC10646标准由国际标准化组织颁布,简称UCS,用来实现
全球所有文种的统一编码。其基本级收录20902个汉字,扩充A
6582个汉字,扩充B47211个汉字,已有汉字编码超过7万个。
UCS与Unicode在字符编码上保持一致。
2GB/T31219.2—2014
表1(续)
标准编号 标准名称 简要说明
ASCII美国信息交换标准码(A-
mericanStandardCodefor
InformationInterchange)美国国家标准学会(AmericanNationalStandardInstitute,ANSI)
制定的标准的单字节字符编码方案,主要用于显示现代英语和其
他西欧语言。ASCII码使用指定的7位或8位二进制数组合来表
示128种或256种可能的字符。标准ASCII码也叫基础ASCII
码,使用7位二进制数来表示所有的大写和小写字母、数字0~9、
标点符号,以及在美式英语中使用的特殊控制字符。
5 加工准备
在文本资源数字化加工之前应做好以下准备工作:
———加工环境。根据文本资源的类型及数字化加工任务量合理配置相应的软硬件设施,这些设施
在功能性、可用性、安全性方面宜满足加工要求。
———数据查重。针对加工对象检查已有的对象数据和元数据,应尽量利用已有的数据,尽量避免重
复加工。
———文献保护。根据文献的状况采取适当的保护措施,文本资源数字化加工过程中应尽量减少对
文献的损害。
———加工对象。文本资源数字化加工应优先选择文本文献的数字化图像作为加工对象,没有数字
化图像的文本文献,可先通过扫描或拍照等数字化手段加工成数字对象,或者直接通过键盘录
入文本文献内容。
6 资源采集与处理
6.1 文本资源采集方式
文本资源采集方式主要包括文本录入和光学字符识别。文本录入适合处理字体过小、图文模糊、版
面复杂的文本文献;光学字符识别适合处理文字规整、版面清晰的文献。
6.2 文本录入
6.2.1 录入要求
文本录入应遵守以下要求:
———文本应按照内容的逻辑顺序进行录入,如一个表格或者分栏的文本应以单元格或栏目顺序为
单位进行录入,而不是逐行录入;
———文本录入时应照实录入,保留原始文献中的错别字及各种文字变体。
6.2.2 校对要求
录入的文本通过校对来保证内容的正确率,以满足质量要求。以下校对方法可以结合运用:
a) 编辑软件自带校对功能,能够提供语法检查及拼写检查之类的错误提示功能。
b) 采用双工录入。一般推荐采用不同的输入法进行录入,再通过对比校对,对差异部分进行人工
干预纠正错误。
注:双工录入,即同一份文字资料由
GB-T 31219.2-2014 图书馆馆藏资源数字化加工规范 第2部分 文本资源
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2025-07-13 04:43:31上传分享