学术咨询服务正当时学报期刊咨询网是专业的学术咨询服务平台!
发布时间:2019-12-09 17:13所属平台:学报论文发表咨询网浏览: 次
摘要:当前,业界对科学数据出版及其质量控制的研究渐趋丰富,但对诸如数据出版的模式与形态、质量控制的内容与方法等具体问题的讨论稍显分散,不利于研究者和实践者形成全局的视野、进行整体的把握。文章首先梳理了三种数据出版模式的出版流程、协同环节及
摘要:当前,业界对科学数据出版及其质量控制的研究渐趋丰富,但对诸如数据出版的模式与形态、质量控制的内容与方法等具体问题的讨论稍显分散,不利于研究者和实践者形成全局的视野、进行整体的把握。文章首先梳理了三种数据出版模式的出版流程、协同环节及质量可控环节,构建了融合三种出版模式的数据出版生态系统;然后将数据质量控制的内容与方法归纳为数据标准/规范、工具/平台、内容/形式三个维度;确定了数据质量控制要素,据此构建了面向流程的数据出版质量控制体系。
关键词:科学数据;数据出版;质量控制;生态系统
1引言
科学数据是重要的学术资源,数据开放共享已成为科技界、出版界、图书馆界的普遍共识和行动,而数据出版是规范数据开放共享、协调数据知识产权、提高数据质量的重要途径。国内外学者对科学数据政策、数据管理与共享、数据出版模式、数据出版实践、数据质量控制、数据影响力等的相关问题已经进行了较多研究。
关于数据出版模式,不少学者都进行了归纳总结和比较研究。从数据出版客体切入的研究,如黄国彬等[1]归纳的两种、孔丽华[2]总结的三种、张静蓓和任树怀[3]划分的四种、Lawrence等[4]提出的五种;从数据出版主体出发的研究,如张丽丽和黎建辉[5]以数据管理与出版动力为视角总结数据出版的三种模式;张小强和李欣[6]以数据管理与存储主体为视角总结数据出版的四种模式。虽然研究的角度不同,但两者之间可以相互映射;即便表述存在差异,但事实上仍达成了相对共识,即数据出版/发表的“三种模式”:作为论文附件的数据出版、独立的数据出版、数据论文出版。
关于数据出版质量控制,包括理论层面的思考探索和实践层面的分析研究。理论研究涉及数据质量控制的环节、内容/对象、层次维度及控制方法等,如Pampel等[7]从数据出版流程角度认为可从数据创建、数据管理及其计划、数据质量评估三个环节进行数据质量控制;Austin等[8]以质量对象和质量维度为视角认为数据质量控制包括对数据计划、元数据、数据及其他数据相关文档的质量控制,也可从技术质量、科学质量以及管理质量等维度进行控制。
王丹丹[9]分别研究了三种数据出版模式下的质量控制方式并进行比较;屈宝强和王凯[10]着重研究了数据出版中的数据同行评议。实践研究主要表现为从实践调研中总结、提炼出的质量控制内容、方法及问题等,如张静蓓和任树怀[11]选取Dryad、Dataverse、figshare、ICPSR、SSDA、ISPSDataArchive等常用的数据知识库进行分析,总结数据出版质量控制四个方面的内容。
即文件整体质量控制、文档说明质量控制、科学数据本身质量控制、源代码质量控制;涂志芳和刘兹恒[12]从内容接收标准与用户服务原则、技术与科学层面、管理与传播层面研究数据知识库模式的数据出版质量控制实践;Gordon[13]对知识库Dryad的创建者、日期、类型等元数据进行统计分析,发现存在同一创建者姓名表述不统一、日期表达方式不统一、资源类型与事实不相符等问题,并建议加强元数据质量控制。
以上理论和实践研究,对数据出版质量控制具有现实的指导作用。然而,人们在进行实际的数据出版过程中,并不一定首先自我定位为数据出版模式的某一种或几种再从事数据出版活动,也并不刻意区分不同的数据出版模式再寻求对应的质量控制办法。因此美中不足的是,尚缺乏一个融合全部三种模式的数据出版生态系统以及基于该系统的数据质量控制体系。
本文分别梳理三种数据出版模式的出版过程,关联数据出版的协同环节,识别数据出版的质量可控环节,据此构建融合三种数据出版模式的数据出版生态系统;同时将数据质量控制归纳为数据标准/规范、数据工具/平台、数据内容/形式三个维度,明确质量控制体系的框架要素。在此基础上,构建面向流程的数据出版质量控制体系,以期为数据出版活动提供更为全面的视角和现实的参考。
2数据出版流程与生态系统
2.1三种数据出版模式及其出版流程
2.1.1作为论文附件的数据出版
涂志芳[14]通过研究发现,期刊通过制定或执行相关数据政策对数据出版活动进行指导,其中一方面是要求将数据作为论文的附件而提交并发布/出版,作者一般须在论文中说明数据可用性及获取方式,并在论文的在线版本中提供下载/跳转链接(附件存储在期刊网站和/或数据知识库);另一方面是将数据提交、存储在指定或推荐的数据知识库(即“独立的数据出版”),并试图通过标签、访问控制号、数据描述符、DOI、链接等方式揭示数据与论文的关联与链接,数据与论文保持同步出版。
作为论文附件的数据出版是由数据作者、数据知识库管理人员、评审专家等角色共同完成的过程。其中,“数据可用性声明”是在论文中声明数据公开可用,并提供存储位置以便查找和获取;“分配标识符”是指数据附件的标识符取决于源论文的标识符,便于论文及数据的管理和关联;“数据评审”是指数据作为文章内容的一部分接受与论文同样的科学评审,数据同时作为论文附件理论上只需接受技术性审查(实际操作过程中也可能并不执行)。
2.1.2独立的数据出版
独立的数据出版即基于(广义的)数据知识库(包括数据仓储数据中心、数据平台等)的数据出版,数据可与研究性论文、报告等出版物关联,但具有相对独立的地位和利用价值。
其中,“数据接收”是指数据知识库作为第三方机构接收来自作者、团体、机构等提交的数据或从其他存储网络迁移的数据,这也是数据知识库获得数据最主要的途径;“数据大处理”是指数据知识库的管理人员对接收的数据进行处理,包括可能需要进行的数据选择和数据清洗,过滤没有任何价值的、乱码等情况的无效数据,对数据存在的较为明显的问题进行清洗从而将其转化为可利用的数据。
“数据审查”是由数据知识库的专业/专门数据管理人员对数据的技术性问题进行审查,包括数据格式的兼容性、数据描述的完整性、元数据与数据本身的匹配性等,以及由学科领域内的专家学者对数据进行科学性评议,包括数据逻辑的流畅与正确、数据内容的完整度、数据的科学价值等。
2.1.3数据论文出版
数据论文形式的数据出版包括两方面的内容:一是对数据的方法、内容、价值等进行描述的数据论文;二是数据(集)本身的存储与公开发布及其与数据论文的关联,因此数据论文往往与数据存储结合才能称为完整意义上的数据出版。
2.2数据出版生态系统
2.2.1数据出版协同环节及质量可控环节
除数据出版的主要环节外,数据政策与标准,数据备份、转换、处置、迁移等也是与数据出版相关的协同环节。“数据政策”主要指研究资助机构及研究机构本身制定的数据开放、数据共享、数据开放存取政策,受资助的机构、团体、个人等遵照执行;“数据标准”是指相关主体执行数据出版相关标准与规范,如数据格式规范、元数据标准、数据知识库系统标准等;“数据备份”是对数据进行备份以便应对数据丢失、数据损坏、数据操作失误后需要复原但无法复原等意外情况;“数据转换”是根据需求对数据类型、数据格式等进行转换;“数据处置”是对非永久保存的数据进行处置,如对丧失价值的数据进行清除;“数据迁移”是将数据从一个存储位置迁移到另一个存储位置。
此外,数据标准、数据政策、数据计划、数据创建、数据描述、数据审查、科学评议、分配永久标识符、数据知识库管理等均是能够进行质量控制的环节,这些环节涉及数据的标准/规范、工具/平台、内容/形式等层次和维度,数据出版需从其中的多个维度进行全面的质量控制。
2.2.2数据出版生态系统
数据出版的整个流程以“数据计划”为起点,以数据利用及其评价为终结。将三种模式的数据出版整合到同一出版体系中,出版流程包含“数据计划”“数据创建”“数据描述”“数据提交”“数据评审”“分配永久标识符”“数据(永久)保存”“数据利用”“数据利用评价”等基础和共同环节;从“数据(永久)保存”环节后,开始分流为三种出版模式,并且数据发布或出版之后的“数据知识库管理”“数据利用”“数据利用评价”又成为共同环节,各环节及其执行人员共同构成科学数据开放出版生态系统。
3数据质量控制的三个层次和维度
3.1相关标准、规范与数据质量控制
科学数据相关的标准、原则、规范等“规矩”是能够对数据出版质量控制产生重要作用的外在因素。
3.1.1科学数据元数据标准
通常认为,元数据是“关于数据的数据”,国际标准化组织(ISO)将元数据定义为关于数据内容、质量、条件状态及其它特征的描述;那么,科学数据元数据则是“描述科学数据的数据”,是关于科学数据内容、质量、条件状态及其他特征的描述。元数据直接影响数据的传播、共享和重用,蔡迎春[15]认为数据服务质量取决于数据资源的元数据质量,元数据质量本身成为了数据质量的重要组成部分。科学数据元数据作为描述数据资源特征和属性的结构化数据[16],具有数据管理、数据质量控制、数据发现、数据利用等功能特点[17]。
元数据标准包括通用元数据标准和特定学科领域或行业的元数据标准。都柏林核心元数据(DC元数据)是国际上广泛应用的通用元数据标准(ISO15836)[18],具有很强的扩展性和移植性,现有各类元数据方案大多参考DC元数据而设计。国内外特定学科领域或行业的元数据标准也较为丰富,包括国际标准和国家标准,如美国联邦地理数据委员会(FederalGeographicDataCommittee)制定的“地球空间数据资产元数据标准”(NationalGeospatialDataAssetsMetadata)[19];描述地理信息和服务相关的标识、范围、质量、空间、时间、内容、空间参照系、描绘、分布等属性的“地理信息元数据”标准(ISO19115)[20]等。
3.1.2数字对象唯一标识符及其标准
数字对象唯一标识符(DigitalObjectIdentifier,DOI)[21]是“用于识别数字环境下对象的知识产权的字符串”[22],是指“一个对象的数字标识符”(digitalidentifierofanobject)而不是“一个数字化对象的标识符”(identifierofadigitalobject)[23],主要用于对对象的数字化内容进行原文获取、引文链接、数字版权管理及永久标识等,已经在国际国内出版领域得到了广泛的应用。DOI由国际DOI基金会于1998年发起,已于2012年成为ISO“信息与文献”领域的一项国际标准(标准号ISO26324:2012),并沿用至今。
科学数据作为一类重要的数字资源,其管理机构也同样应用DOI来对数据资源进行管理以促进科学数据的出版和传播,如世界数据中心(WDC)、国际科技数据委员会(CODATA)德国委员会等。DOI因其能够对数据资源进行持久唯一标识、动态更新、与物理地址变动无关、能跟踪版本更新信息、引用方便等特征[24],满足了目前科学数据管理的主要需求(DOI特征与数据管理与出版需求对应情况见表1)。
3.1.3数字记录与保存系统的可信赖性标准
“可信赖”成为衡量数字记录与保存系统质量的重要标准,包括成为可信赖的数据知识库的标准要求和对数据知识库进行审计与认证的标准。如2012年,ISO针对数字记录的存储与管理问题制定“数字记录可信第三方库”(trustedthirdpartyrepositoryfordigitalrecords)[25]标准(标准号ISO17068),该标准主要包括可信第三方库(TTPR)服务、TTPR系统要求、管理要求等三方面内容。
其中,第三方库的“可信”特征便是指TTPR的质量可信,而认证服务和认证系统、验证系统及审计管理也都是数据质量控制的有效方式。同年,空间数据系统咨询委员会(CCSDS)[26]、研究图书馆工作组(RLG)等制定的数字存储库审计与认证规范在较为广泛的实践和较好的实施效果的基础上,成为“空间数据和信息传输系统”领域的一项国际标准“可信赖数字存储库审计与认证”(标准号ISO16363)[27]。该标准定义了评估数字存储库的可靠做法,数字存储库的审计与认证主要包括组织基础设施、数字对象管理、基础设施与安全风险管理等三方面的内容。
3.2相关工具、平台与数据质量控制
3.2.1数据管理计划及其工具
数据管理计划(DataManagementPlan,DMP)是描述研究过程中和研究完成后如何处理数据的正式文件[28],是研究者遵从相关数据政策要求而制定的关于如何有效管理和共享自己的科学数据的简要计划与行动方案,通常涵盖了部分或全部的数据生命周期。
DMP作为资助机构或研究机构的一项要求,是在数据创建之前对未来可预期的数据管理与共享进行规范化指导的有效工具,对数据管理与出版的意义体现在两方面:一是基础性,无论从数据管理生命周期还是数据出版流程看,数据计划都是最基础的第一步,正所谓“良好的开端是成功的一半”。
若数据管理计划的质量和计划执行的质量都能得到保证,那么数据出版的质量便能在很大程度上得到保证;二是统筹性与规范化,数据管理计划驱动了数据管理与出版的生命周期,数据管理计划作为纲领性文件统筹着数据管理的每一个环节并奠定规范化基调,如沈彤等[29]认为数据管理计划是最重要的数据管理文件之一,是保证数据质量的根本文件。
常用的数据管理计划工具包括英国数字监护中心(DCC)开发的DMPonline、美国加利福尼亚数字图书馆和DataONE联合开发的DMPTool以及加拿大研究图书馆协会开发的英法双语工具DMPAssistant,三者在美国、加拿大、英国及其它欧洲国家中得到广泛应用。
3.2.2数据管理与出版开源系统
根据图书馆出版联盟(LibraryPublishingCoalition,LPC)发布的2014-2018年度《图书馆出版名录》[30]可知,图书馆及出版行业常用的在线出版平台和基础设施包括OpenJournalSystems(OJS)、DSpace、bepress、WordPress、CONTENTdm、Dataverse、Fedora等,而研究数据管理领域的主流平台所使用的开源软件产品包括Dataverse、Dataconservancy、CKAN和DSpace等[31]。
其中,哈佛大学定量社会科学研究所(IQSS)与哈佛大学图书馆、哈佛大学信息技术组织联合开发的Dataverse[32],麻省理工学院图书馆和惠普公司实验室联合开发的DSpace[33]是国内外应用最为广泛的数据管理与出版开源系统。
DSpace和Dataverse作为数字化资源管理的开源软件有很多优点,如元数据标准及方案、数据引用标准、系统本地化或个性化、数字保存等。以DSpace和Dataverse等开源软件为基础的知识库系统整合了元数据、DOI的全部元素,也集元数据、DOI的全部功能于一身;是将数据管理计划付诸实践必需的载体平台,也是目前为止进行数据管理与出版可选的理想工具。
3.2.3数据知识库的管理运行及质量控制
数据知识库是数据作者、研究资助机构及用户管理和利用数据的操作平台,数据知识库本身的管理、运行、维护、评价也是整个数据管理与出版生态系统中的重要环节,而数据库注册、审计和认证是其中现行且有效的质量控制办法。
根据相关研究[14,34]可知,常见数据知识库注册系统有re3data.org、FAIRsharing、ROAR和OpenDOAR等;常见的数据知识库审计、认证与评估工具包括DRAMBORA方法、数据认可印章(DataSealofApproval,DSA)、“可信赖知识库审计与认证(TRAC)”、“可信任数据知识库标准nestor目录”、“CCSDS推荐/DIN31644标准/ISO16363标准”以及欧盟可信赖数字仓储审计与认证框架[35]等。
数据知识库注册、审计、认证的作用体现在:首先,利用数据知识库目录系统对其注册与发展情况进行统计分析,过滤掉因质量问题而不能进行注册的知识库;其次,从基础设施建设与审计、数字对象管理、安全风险管理的维度对数据知识库进行有效的审计与评估,有利于及时监测、报告数据知识库的风险并提供有效的解决办法;最后,对达到审计与评估标准的数据知识库进行认证并授予认证标识。因此,注册、审计、评估与认证是提升数据知识库可信赖性,进而提升数据质量的有效方法。
3.3数据内容、形式评审与数据质量控制
数据评审是同行评审的新发展,Peer和Green[36]将数据评审定义为“采取必要措施对数据及相关文件进行评估,确保文件可被独立地理解以便重用的有效过程”,该过程涉及对文件、文档、数据及代码等的评审。
3.3.1数据评审的三个考察维度
相关研究[8,37]表明,数据评审可分为科学性评审(scientificreview)、技术性评审(technicalreview)和监护性评审(curatorialreview)三个维度,评审对象分别为数据内容、数据形式与元数据、语境信息和/或其他相关文档,主要评审主体分别为同行专家/编辑、学科领域内数据专家和/或数据管理人员、数据管理人员,但在数据出版实践中数据评审通常融合三个维度的内容与方法,对数据进行综合的评审和全面的质量控制。
科学性评审则是对数据内容的各类科学性特征进行评审,以保障数据的科学性质量,数据的科学性质量包括但不限于数据源的完整性、真实性、准确性、可靠性;数据渠道的可访问性、可获得性、访问安全;数据利用的可理解性、有用性、增值性等。
技术性评审主要包括对数据格式和元数据的评审,数据格式评审包括:①格式标准化,方便使用及格式转换;②格式标准开源化,最大程度上实现格式标准的实施范围与程度;③格式兼容性最大化;④格式独立,对软件及平台的依赖性最小化;⑤格式处理成本最低化。元数据评审包括:①元数据完整性;②元数据准确性;③元数据描述的真实性;④元数据的增强功能。
监护性评审是对数据内容、数据格式、元数据以外的上下文/语境信息、数据相关文档、编码、源代码等进行监护性的检查和审核,其监护性评审可能包括的质量因素有:①文档的相关性;②文档的充分性,如数据来源、数据环境、数据收集/处理/分析方法等文档是否齐全;③文档版本控制及相关文档信息更迭的及时性;④数据与其他文档关系的协调性(如数据对政策、标准等的遵循)。
3.3.2数据评审的两个操作层面
在目前的数据出版实践活动中,数据质量控制主要集中在技术性审查,对数据本身的科学性评审开展得相对较少且以基础的科学评审为主;此外,数据出版实践活动通常融合不同的内容与方法[8]、协同不同审查主体的角色[38],对数据进行综合的审查和全面的质量控制,科学性审查与技术性审查并不总是分开进行。因此,将数据质量控制划分为技术与科学层面、管理与传播层面的质量控制更贴合实际,前者包括元数据标准方案选择与应用、元数据检查与验证、数据格式推荐与转换、数字标识符应用、数据检验、数据同行评审等;后者包括数据知识库注册、审计与认证,数据引用原则制定与格式推荐等[12]。
4数据出版质量控制体系构建
4.1数据出版质量控制体系框架要素
以数据出版流程及其协同环节为基础,本文制定了科学数据开放出版质量控制体系的框架要素(见表2)。
4.2
面向流程的数据出版质量控制体系构建
在本文所呈现的“科学数据开放出版生态系统”的基础上,结合数据质量控制的三个维度和两个操作层面所涉及的数据质量控制办法,本研究初步构建面向出版流程的“科学数据开放出版质量控制体系”(见图5),以期较为全面地呈现数据出版的全局内容,为数据出版质量控制的路径选择提供参考。
该体系以“科学数据开放出版生态系统”为主体,以数据出版流程为主轴,针对数据出版各环节及其协同环节提供可能的质量控制办法:(1)数据政策:国家政府机构、研究资助机构、教育科研机构等制定的数据政策是数据出版应该遵循的一种规范,对数据出版具有指导性或约束性作用,而数据政策也能够在数据管理与数据出版的实践中不断完善,从而更具适用性;(2)数据标准:国际组织、政府、学科、行业等制定的数据标准是数据出版应该符合的一种规范,对数据出版具有指导性,依照标准出版的数据往往具有更高的规范性、兼容性、可靠性,也因此更可能具有较高的数据质量和利用价值。
(3)数据计划:首先可利用数据管理计划的向导式创建工具(提问式引导或高质量模板)进行数据管理计划的创建,另外还可对数据管理计划内容框架的覆盖范围、质量等进行评审;(4)数据描述:最重要的是利用标准化、规范化的术语对数据进行描述,使用合适的元数据标准方案;(5)数据提交:数据知识库最好采用性能较好的数据管理与出版系统,以便数据提交及发布等过程的自动化、规范化;(6)分配(永久)标识符:DOI已成为国内外较为广泛应用的数字对象标识符,DOI具有唯一且永久标识、首发确认、版权保护等作用,数据出版可以完全实现DOI标识。
(7)数据知识库注册、审计与认证:数据知识库管理者应主动进行数据知识库的注册,而期刊出版商、数据作者往往倾向于优先选择已注册的数据知识库以确保其信誉,数据知识库可以积极主动地接受审计和认证并获取相关标识,提升公共诚信的可见度;(8)数据附件、数据论文、数据知识库同行评审:对数据附件、数据论文和数据知识库的内容与形式进行评审,确保其质量;(9)推荐数据引用格式:由于数据引用标准远不如文献著录标准那般丰富和完善,因此拟定要素齐全的数据引用格式加以推荐有利于数据重用;(10)质量控制标识:为采取数据出版质量控制手段并取得一定成效的数据知识库授予“质量控制标识”,为用户判别其质量和信誉提供参考。
5结语
数据出版是数据开放共享的有效途径,质量控制是提升和保障数据价值的重要手段。数据出版内容、方法、工具呈现多元性,数据出版活动具有复杂性,数据出版有多种模式,对应不同的质量控制方法,一定程度上使得把握数据出版及其质量控制的全貌变得困难。
因此,文章梳理不同数据出版模式的流程特点及其角色主体,协同数据管理与出版的关联环节,以此为基础构建融合多种数据出版模式的数据出版生态系统;将数据出版质量可控环节划分为三个维度,分别是起间接质量控制作用的标准、规范和起直接作用的工具、平台,以及针对数据本身的内容与形式评审;在出版生态系统和质量控制内容与方法的基础上,确定质量控制体系的要素,构建数据出版质量控制体系,为综合的、复杂的数据出版及其质量控制活动提供全局视角和完整参考。
相关论文范文阅读:基于IPFS的分布式数据共享系统
现在的社会是一个信息化社会,在科技的不断发展过程中,我们生活中用到的高科技产品也越来越多了,最常见的手机也进行了很多次更新换代。本文是一篇学报论文发表范文,主要论述了基于IPFS的分布式数据共享系统的研究。
转载请注明来源。原文地址:http://www.xuebaoqk.com/xblw/4827.html
《科学数据出版生态系统与质量控制体系构建》