收藏 分享(赏)

图书馆馆藏资源数字化加工规范 第2部分:文本资源 GBT 31219.2-2014.pdf

上传人:sc****y 文档编号:2494396 上传时间:2023-06-25 格式:PDF 页数:11 大小:1.63MB
下载 相关 举报
图书馆馆藏资源数字化加工规范 第2部分:文本资源 GBT 31219.2-2014.pdf_第1页
第1页 / 共11页
图书馆馆藏资源数字化加工规范 第2部分:文本资源 GBT 31219.2-2014.pdf_第2页
第2页 / 共11页
图书馆馆藏资源数字化加工规范 第2部分:文本资源 GBT 31219.2-2014.pdf_第3页
第3页 / 共11页
图书馆馆藏资源数字化加工规范 第2部分:文本资源 GBT 31219.2-2014.pdf_第4页
第4页 / 共11页
图书馆馆藏资源数字化加工规范 第2部分:文本资源 GBT 31219.2-2014.pdf_第5页
第5页 / 共11页
图书馆馆藏资源数字化加工规范 第2部分:文本资源 GBT 31219.2-2014.pdf_第6页
第6页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、GB/T31219.2-20143.4光学字符识别optical character recognition又称OC识别,自动识别通过扫描仪、数码相机、摄像机等得到的图像中的字符,便于存储、编辑和检索。3.5点/英寸dots per inchdpi扫描仪(打印机)在水平方向上和垂直方向上的每英寸都能扫描(打印)的点数。GB/Z19736-2005,定义3.44加工级别及内容编码4.1加工级别文本资源数字化加工级别分为长期保存级和发布服务级:一长期保存级。用于文本资源的长期保存,在必要时用于编辑及格式转换。长期保存级的文件格式主要有:XML格式,适用于标识文件的版面信息,描述文件的内容或结构。T

2、XT格式,是最常见的一种文本格式,其文件体积小,存储方便,不易被病毒感染。PDF格式,适用于各种档次的印刷,文本文档的保护、打印、网络显示及长期保存等。一发布服务级。用于网络浏览、下载及打印。发布服务级的文件格式主要有:HTML格式,一般用于文本资源的网络发布。PDF格式,也适用于文本文件的交换、显示。DOC格式,是一种专属格式,一般用于文本编辑。4.2内容编码文本内容编码应遵循通用的国家标准或国际标准,见表1。表1文本内容编码标准标淮编号标淮名称简要说明规定了汉字信息交换用的基本图形字符及其二进制编码表示信息交换用汉字编码字符GB2312它是一个简化字汉字的编码,共收录6763个汉字,其中一

3、级汉字集基本集3755个,二级汉字3008个.规定了信息技术用的中文图形字符及其二进制编码的十六进制信息技术中文编码字GB18030表示,它是以汉字为主并包含中国多种少数民族文字的超大型中符集文绵码字符集标准,共收录70244个汉字,信息技术通用多八位绢规定了UCS的总体结构。其编码空间巨大,可以容纳多种文字同GB13000码字符集(UCS)时编码,共收录汉字20902个,信息技术通用多八位编码ISO/IE10646标准由国际标准化组织预布,简称UCS,用来实现字符集(Information technolo全球所有文种的统一编码。其基本级收录20902个汉字,扩充AI0/1EC10646gy-Universal Multiple-Octet6582个汉字,扩充B47211个汉字,已有汉字编码超过7万个.Coded Character Set)UCS与Unicode在字符编码上保持一致,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 能源电力

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2