ICS 01.140.20 A 14 DB13 河 北 省 地 方 标 准 DB 13/T 2351.1—2016 标准文献结构化数据规范 第 1 部分:全文元数据 Structured data specifications of standard documents Part 1:Full-text Metadata 2016 - 05 - 23 发布 河北省质量技术监督局 2016 - 07 - 01 实施 发 布 DB13/T 2351.1—2016 目 次 前言 ................................................................................ II 引言 ............................................................................... III 1 范围 .............................................................................. 1 2 规范性引用文件 .................................................................... 1 3 术语和定义 ........................................................................ 1 4 全文元数据的属性 .................................................................. 2 5 全文元数据模型 .................................................................... 2 6 全文元数据描述 .................................................................... 3 7 全文元数据字典描述 ............................................................... 14 8 全文元数据扩展原则和方法 ......................................................... 14 附录 A(规范性附录) 标准文献全文结构化元数据代码集 ................................. 15 附录 B(规范性附录) 篇章条编号、表号和图号说明 ..................................... 16 附录 C(资料性附录) 标准文献结构化全文元数据-字典描述 .............................. 18 参考文献 ............................................................................ 22 I DB13/T 2351.1—2016 前 言 本部分按照GB/T 1.1-2009给出的规则起草。 DB13/T 2351《标准文献结构化数据规范》包括了3部分: ——第1部分:全文元数据; ——第2部分:指标元数据; ——第3部分:元数据著录规则。 本部分是第1部分,本部分与第3部分配套使用。 本部分由河北省标准化研究院提出并归口。 本部分起草单位:河北省标准化研究院。 本部分主要起草人:施健、卢艳芳、马星晓、李朴、李建勋、谢燕、闫志强、张园园、陈南、赵倩、 郭天强、安姣。 II DB13/T 2351.1—2016 引 言 标准文献电子文档格式有DOCX、数字版PDF、扫描版PDF。在生产、科研和管理过程中,往往需要定 位到标准内容、指标信息上,如:检索标准指标、指标比对及标准水平分析等。但是,现有的标准文献 电子文档为非结构化文档,这一特性决定它的内容检索指向性笼统模糊,故而,以非结构化文档为单元 存储无法实现小颗粒度的指标数据的检索、比对分析,只有通过数据处理将非结构化文档转换为结构化 或半结构化文档方能解决上述问题。 为寻求上述瓶颈的突破,河北省标准化研究院在2012年将标准文献结构化列为重点科研项目,在此 基础上,2013年又承担了国家标准化委员会标准化信息中心的《“双打”重点产品标准文献结构化内容 数据库》项目,而实现标准文献结构化必须首要解决2个问题:1)结构化标准的数据结构问题,换而言 之,标准结构化加工抽取出的数据是哪些数据?2)对抽取出来的数据进行加工应符合什么样的数据规 范要求,方能满足与原始标准文本内容的一致性的需求。 解决第一个问题,需要建立标准结构化数据模型,并通过元数据规范来实现; 解决第二个问题,需要建立数据的著录规则,实现数据的规范性。 项目组在确定文献结构化抽取技术的基础上,对4000余项强制性国家标准的内容要素逐一进行了分 析研究、归纳总结后,按UML思想确定了标准结构化数据模型,并在工程上对4000余项强制性国家标准 进行了结构化数据的抽取验证,确定了结构化元数据。通过验证测试,逐步完善了加工抽取结构化数据 的规范要求,形成了《标准文献结构化数据规范》。 目前,在行业内广泛使用的GB/T 22373-2008《标准文献元数据》是针对标准文献题录的元数据标 准,侧重的是标准文献形式特征,而此次制定的《标准文献结构化数据规范》是关于标准内容结构化的 全文元数据和指标元数据规范,希望此两个标准的结合使用,实现标准文献信息资源的统一描述,促进 标准文献信息资源的开发利用。 III DB13/T 2351.1—2016 标准文献结构化数据规范 第 1 部分:全文元数据 1 范围 本部分规定了标准文献结构化全文元数据(包括全文、术语、图像、表格和公式)的术语和定义、 属性、模型、描述以及扩展原则和方法。 本部分适用于标准文献结构化数据的处理。 2 规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T 74088 数据元和交换格式信息交换 日期和时间表示法(GB/T 7408-2005,ISO 8601:2000,IDT) GB/T 18391.3-2009 信息技术 元数据注册系统(MDR) 第3部分:注册系统元模型与基本属性 (ISO/IEC 11179-3:2003,IDT) GB/T 19710-2005 地理信息 元数据(ISO 19115-2003,MOD) GB/T 26816-2011 信息资源核心元数据 3 术语和定义 下列术语和定义适用于本部分。 3.1 信息资源 information resource 在政治、经济和社会等各领域产生和使用、具有各种载体形式的信息内容。 [GB/T 26816-2011,定义3.1] 3.2 元数据 metadata 定义和描述其他数据的数据。 [GB/T 18391.3-2009,定义3.2.18] 3.3 元数据元素 metadata element 元数据的基本单元。 注:元数据元素在元数据实体中是唯一的。 [GB/T 19710-2005,定义4.61] 3.4 1 DB13/T 2351.1—2016 元数据实体 metadata entity 一组说明信息资源相关特性的元数据元素。 注:可以包含一个或一个以上元数据实体。 [GB/T 19710-2005,定义4.71] 3.5 核心元数据 core metadata 描述信息资源基本属性的元数据元素和元数据实体。 [GB/T 26816-2011,定义3.5] 4 全文元数据的属性 4.1 中文名称 指元数据元素或元数据实体的中文名称,用本部分第6章中各条的标题来表达。 4.2 英文名称 元数据元素的英文名称,一般用小写英文全称,英文单词之间用空格分隔。 元数据实体的英文名称,每一个单词首字母为大写,其余字母为小写,英文单词之间用空格分隔。 4.3 缩写名 应符合GB/T 26816-2011中4.6的要求。 4.4 定义 应符合GB/T 26816-2011中4.2的要求。 4.5 数据类型 应符合GB/T 26816-2011中4.4的要求。 4.6 值域 应符合GB/T 26816-2011中4.5的要求。 4.7 约束/条件 应符合GB/T 26816-2011中4.7的要求,约束/条件代码见附录A 表A.1。 4.8 最大出现次数 应符合GB/T 26816-2011中4.8的要求。 5 全文元数据模型 标准文献结构化全文元数据模型见图1。 2 DB13/T 2351.1—2016 图1 全文元数据模型 6 全文元数据描述 6.1 全文元数据 中文名称: 英文名称: 缩写名: 定义: 数据类型: 约束/条件: 最大出现次数: 全文元数据 Full-text Metadata FulTxtMdata 描述结构化标准中全文数据的元数据。 复合型 M 1 6.2 标识符 3 DB13/T 2351.1—2016 中文名称: 英文名称: 缩写名: 定义: 数据类型: 值域: 约束/条件: 最大出现次数: 标识符 identifier ID 名称空间中对象的唯一标识符。 字符串 UUID M 1 6.3 全文 中文名称: 英文名称: 缩写名: 定义: 数据类型: 约束/条件: 最大出现次数: 全文 Full Text FulTxt 以篇章条形式描述的标准内容。 复合型 M 1 6.4 标准号 中文名称: 英文名称: 缩写名: 定义: 数据类型: 值域: 约束/条件: 最大出现次数: 标准号 document reference docRef 由有关标准化机构给定的用于唯一识别某一标准的注册号或登记号,标准号 由标准代号、顺序号、发布年份及有关标识符组成。 字符串 标准代号+1 个空格+顺序号+1 个连字符"-"+4 位发布年份 M 1 6.5 标准名称 中文名称: 英文名称: 缩写名: 定义: 数据类型: 值域: 约束/条件: 最大出现次数: 标准名称 document name in Chinese docNmCN 标准的中文名称 字符串 自由文本 M 1 6.6 篇章条编号 中文名称: 英文名称: 缩写名: 4 篇章条编号 chapter number chapNo DB13/T
DB13-T 2351.1-2016 标准文献结构化数据规范 第1部分:全文元数据 河北省
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2022-10-24 16:59:37上传分享