学术咨询服务正当时学报期刊咨询网是专业的学术咨询服务平台!

热点关注:论文检索页是什么意思 如何证明自己发表的论文见刊了 可以快速见刊的普刊有哪些?
当前位置: 学报期刊咨询网学报论文范文》科学大数据背景下的科研协作:特征、案例与机遇

科学大数据背景下的科研协作:特征、案例与机遇

发布时间:2020-10-10 15:29所属平台:学报论文发表咨询网浏览:

摘 要:大科学装置和大规模科学基础设施产生的科学数据促进了领域科学研究的新一轮发展,更加驱动了科学研究者之间的创新科研协作。科学数据驱动的科研协作,成为科学研究的新范式和大趋势。第六届中国科学数据大会以科学数据与重大科研基础设置为主题,关注

  摘 要:大科学装置和大规模科学基础设施产生的科学数据促进了领域科学研究的新一轮发展,更加驱动了科学研究者之间的创新科研协作‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。科学数据驱动的科研协作,成为科学研究的新范式和大趋势‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。第六届中国科学数据大会以“科学数据与重大科研基础设置”为主题,关注科学数据管理与开放共享过程中的政策、方法、技术及基础设施建设等问题。文章以大会分论坛“科学数据驱动的科研协作”内容的梳理和总结为基础,从科学数据驱动的科研协作之机理、特征、案例、研究路径等视角进行述评,揭示了科学数据驱动的科研协作的新范式,提出了未来研究方向与机会。

  关键词:科研协作;科学数据;科学装置;科学基础设施

科学大数据

  1 引言

  科学数据是国家科技创新发展和经济社会进步的重要基础性战略资源,是科研创新最基本、最活跃、影响面最宽的科技资源。随着大天区面积多目标光纤光谱天文望远镜(LAMOST)、大亚湾核反应堆中微子实验、500米口径球面射电望远镜(FAST)等近年来相继投入运行使用,这些科研基础设施将产生大量可靠的科学数据资源。以这些大科学装置产生的数据为代表,科学数据引发领域科学研究的范式变革,驱动了科学研究者之间的科研协作创新。科学数据驱动的科研协作方式,成为科学研究的新范式和大趋势。

  在此背景下, 2019年8月21-23日在中国贵阳主办的第六届中国科学数据大会以“科学数据与重大科研基础设施”为主题,设有5个大会报告、21个并行分会、216个分会报告,关注科学数据管理与开放共享过程中的政策、方法、技术及基础设施建设等问题。

  中国科学数据大会是在2013年由国际科技数据委员会(Committee on Data for Science and Technology,CODATA)中国全国委员会发起并开始筹备, 旨在推动我国科学数据的开放、技术交流及数据科学的发展。中国科学数据大会在我国加快科研大数据开放共享、大数据时代科研信息化基础环境建设、全球影响力科技创新中心建设、科学数据与数据科学学科建设、科学数据服务创新发展等方面起到积极的推动作用。

  科学大数据是中国科学数据大会长期以来关注的重要问题,首届科学数据大会就以“科研大数据与数据科学”为主题;在第四届科学数据大会上,中科院副院长张亚平还指出,在科学研究领域,继观测实验、理论分析、计算模拟之后,一种“大数据驱动的科学发现”新模式已经开始显现,科学大数据已经成为科技创新的新引擎。

  本次中国科学数据大会上,南京大学信息管理学院颜嘉麒副教授、闵超助理教授、南京理工大学经济管理学院余厚强副教授、西南大学计算机与信息科学学院贾韬教授与香港城市大学资讯系统系的马建教授共同发起并筹办了“科学数据驱动的科研协作”主题分会。来自上海交通大学、中科院成都文献情报中心、大连理工大学等机构的演讲嘉宾和科研人员共50余人参加了分会的现场讨论与交流。本文通过对会议内容与嘉宾研讨的梳理和总结,从科学数据驱动的科研协作之机理、特点、案例、研究路径等视角进行述评,提出未来研究方向与机会,以期为相关实践与理论发展提供参考。

  2 科学大数据背景下科研协作范式的转变

  科学数据产生,通常是由科学研究者以特定的科学装置(或者特定的实验环境)通过某种实验程序收集而来。从信息系统(Human, System, Information)的研究角度[1]来看,科学数据驱动的科研协作主要是由科学研究者、科研装置(环境)、科学数据三个因素组成的科研协作新范式。科学研究者是科学实践的主体,确定研究对象并设计科学活动。科学装置(环境)是科学活动中科学研究者采用的实践工具,也代表科学活动的程序和规范。科学数据是表征研究对象客体各种特征的产物,是通过科学活动由某种科学装置(环境)而产生的。

  传统的科研协作是科学研究者主导的[2]。科学研究者使用科学装置,科学装置产生科学数据,科学研究者处理科学数据。科学研究者的基本特征是能动性和创造性。科学研究者以个体面貌出现,也以群体面貌出现。科学研究者之间的科研协作随着研究者之间越来越明确的分工而显得越来越明显。科学装置(环境)的基本特征是规范性和工具性,而科学数据的基本特征是客观性和对象性。随着科研协作的发展,多套科学装置协作同时研究一个科学问题、多份科学数据互相验证科学研究的情形也变得越来越常见。

  科学大数据是指与科学研究相关的大数据[3]。在科学大数据时代,科学研究者、科学装置和科学数据三者之间的相互作用和影响进一步促进了科学协作新模式的出现。重大科研基础设施的建设与更新,引发数据快速累积;高通量仪器设备以及新数据处理技术和方法带来了科学数据的快速增长,打破了过去由科学研究者主导科研协作的平衡。五百米口径球面射电望远镜(FAST)多科学目标巡天每天将产生约500TB的零级未压缩数据,需要100G高速网络将数据传输至数据中心进行处理①。

  FAST科学工程的建立和产生的大量难以处理的科学数据,驱使天文学家主动寻求与全球范围内计算机科学家、人工智能专家、软硬件工程师的跨领域科研协作。同样的,在生命科学领域,高通量测序技术能一次对几十万到几百万条DNA分子进行序列测定。我国具有庞大的基因数据产出能力,随着国家在人口健康领域的战略部署,将产生百PB级的基因数据①,占世界总数的一半以上。这种大规模的基因数据,使得生命科学在生命科学家与数据库、数据科学、信息管理等领域专家的互动与协作中迸发出新的科学发现模式。

  有别于实验科学、理论科学、计算科学,上述这种科学发现模式强调数据作为科学发现的基础,并以数据为中心和驱动、基于对海量数据的处理和分析去发现新知识为基本特征。科学研究者参与到科学数据的采集、存储、管理、分析、可视化和知识发现的各个不同阶段,形成科学协作、科学发现的新方法和新途径。

  3 科学数据驱动科研协作的特征

  科学数据驱动的科研协作模式顺应的是科学研究范式的改变。20世纪,科学史学家普赖斯[4]就曾经指出科学研究的模式将由大学实验室所从事的小科学(Little Science)转变为多学科整合应用性的大科学(Big Science)。普赖斯指出,小科学强调昔日个人化的研究成果,而由于科学文献数量大增、资讯超载,致使科学研究者无法及时充分掌握及利用科学资讯,且造成研究之重复,因而现在的研究趋向集体研究而产生大科学[5]。

  大科学研究模式的改变,使得科学协作也已经从研究者之间的“合作”,逐渐转变为由大量科学数据产生驱动下,科学家、工程师、从业者之间以及他们与科研仪器之间的“协同工作”。具体说来,与传统科研协作相比,科学数据驱动的科研协作至少在以下六方面表现出显著的特征。

  3.1 科学合作规模持续增大

  在过去的数十年间,科学研究的主体整体上经历了从单打独斗到团队合作的发展变迁,尤其是近年来呈现出从小团队科研到大团队科研的明显趋势。科学研究者之间的频繁合作行为表现在不断增长的科研团队规模,而团队规模的增长在科学论文合著行为中体现得十分明显。

  胡志刚②基于科睿唯安公司的InCites工具分析发现,如今论文合著中科研团队的规模已经增长到四十年前的三倍多。在1980-1984年间,一篇科学论文的作者数量平均是3.29人,而这一数字到2015-2019年间已增长到6.91人。与此同时,科学合作在多个层面得到加强,国家间的合作占比从原来的4.1%增加到22.25%,专业学术机构与产业界的合作比例亦增加到原来水平的两倍有余。

  3.2 科学合作模式呈现异质性

  在合作规模持续增长的宏大背景下,科学合作模式在不同主体之间涌现出异质性。(1)在合作模式研究方面,陈云伟③利用论文作者合作网络社团划分的方法,在量子信息、脑科学、碳纤维、稀土、大气灰霾等领域展开大量实证研究‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。他发现不同的科研单元呈现迥异的科研工作模式,如在量子信息领域的四个顶级科研单元中,我国科研单元呈现出显著的集团军式的合作模式,具备明显的联合攻关特征,而国外科研单元中的科学研究者则在论文发表方面表现出较为疏松的合作网络;

  (2)在国际合作方面,沙特阿拉伯是国际化程度最高的国家,约四分之三的论文来自国际合作。中国大陆、土耳其和印度的国际论文比例则处于相对靠后的位置;

  (3)在产学研合作方面,瑞士以高达7.26%的产学研合作论文比例高居全球首位,中国的产学研合作则低于世界平均水平。不同学科内部的合作模式也具有差异性,如天文学与天体物理学由于研究工作的独特性质,近一半的论文来自国际合作;再如石油工程领域的产学研合作比例远高于其他领域④。

  3.3 从合作发文到基于仪器设备、基础设施的科研协作

  合作发文的背后是科研相关人员之间愈发频繁的协同工作,典型代表是以大型科研装置、设备、仪器等科学基础设施为中心,吸引越来越多的科学工作者投身其中。然而,正如本次会议上魏家鹏①和颜嘉麒②总结的,目前科研仪器设备在科研协作中发挥作用还受到一些障碍的影响,如用户范围有限[6]、使用门槛偏高[7]、共享平台缺乏[8]等。他们基于区块链技术思想,分别从制度与技术方面提出一种科研设备共享平台的设计方案。

  在科研设备的共享过程中,通过引入积分、账户等制度,将设备拥有者、申请者、使用者的权益与积分进行锚定,建立一整套安全、高效、可流转的设备共享生态系统;在技术方面,借助区块链去中心化、可信以及不可篡改的技术特征,完整嵌入科学设备的积分记录系统,从而真实记录每一次协作的发生。他们指出,该方案的本质即是在保证科研设备所有权不发生转移的前提下,通过Token积分对科研设备的使用权进行流转与共享,从而增益科学价值,促进科研协作。

  3.4 科学数据的保存和利用需要更加规范化

  科学数据集一方面产生于科研发现与协作过程,如今越来越呈现出数量大、种类多、来源广等特征;另一方面,科研工作者对科学数据的使用需求日益多样化,对这些数据的挖掘与利用也进一步推动着科学发现与协作的升级。与会者分别从天文学与地球科学两个学科角度阐述了这一问题。左雨萌③指出天文历史数据的长期保存是天文数据管理中的重要问题,原因在于数据的未来复用往往受到数据保存中一系列格式转化的影响,这就需要数据生产者、保存者与使用者的多方协同。

  哈佛大学图书馆与史密森天文台的合作项目Phaedra,为天文手稿、文献、文物等多种实体包含的珍贵数据提供了成功复用的案例。余厚强等④从地球系统科学出发,通过对数据共享平台的统计和内容分析,发现科学数据集的使用方式除了学术需求外,还存在教育需求、社会需求等多样方式。不过他们也指出,传统的数据引证方式只能反映不足8%的数据集使用需求,因此有必要建立更加规范化、标准化的科学数据引证、评价与共享体系。

  3.5 科学数据共享在科研协作中具有重要位置

  如今科学研究越来越依赖于数据,对科学数据进行共享也成为科研协作的重要基石与驱动因素[9]。为此,我国采用建立机构知识库、国家级科研数据中心等方式,促进科研数据的跨机构、跨行业共享与交流。科研数据需要共享,其原因在于,一方面科研数据包含的信息类和数据项丰富[10], 包括科研人员数据、科研资料数据、科研技术数据以及科研环境数据等,贯穿于科研的整个生命周期,价值巨大;另一方面,科研数据的共享有利于减少数据的重复生产、降低数据的使用成本、增进科研成果的同行评议[11],进一步有助于提高我国科学研究成果的产出。

  然而,颜嘉麒等①②指出,现有的科研数据共享平台尚未很好地实现共享交流的效果,主要体现在“不能共享”“不愿共享”和“不敢共享”。其主要原因在于,已有平台的接入机制少、成本高、障碍多;数据共享者面临的风险责任与权利收益之间存在矛盾[12];传统有限防护机制未能很好保障数据安全。颜嘉麒等同时认为,区块链中的分布式共享账本技术有潜力为构建开放、安全、可信的科研数据共享网络提供技术与制度方面的参考。

  3.6 科学协作促使科学家在全球范围内流动

  大规模科学设施的投入、科学资源的配置和科学数据的产生同样驱动和引导了科学家的流动,并激发出更多的科学协作机会,这尤其体现在科研人员的国际流动上。科研人员的流动,一方面在流入国与流出国之间建立起联系,背后是科学知识的流动与科学影响的输出,另一方面也有可能造成不同地区科学人才结构的失衡。这更体现了科学装置投入和科学数据产生对吸引人才的重要作用。

  李江等⑤基于对全球范围科学家简历数据的分析,认为科学人员的流动已经从某些地区的人才流失、人才回流发展到全球范围内的人才环流。他们构建出科学家流动的三维地图,按照年份、学科、地区、机构等条件展示科学家流动的特征与趋势。科学家去新的机构、城市与国家任职,这一信息反映在其简历信息上,尤其是以ORCID为代表的大型数据集,系统记录了科学家流动的全球数据。当然,科学家流动除了受到科研条件与科研资源的影响,还受制于诸多复杂的因素,如经济发展、自然环境、社会环境、子女教育等。

  4 案例分析:LAMOST科学数据驱动的科研协作

  大科学装置是一种在物理上不可分割的科研资源,产生的大规模科学数据促使来自不同团体的科学家组成研究团队协同工作,有效降低了科学合作中的协调成本[13-14]。以2008年建成的LAMOST天文望远镜为例,它是中科院国家天文台的国家重大科技基础设施,以大视场、大光谱观测等特点居于国际领先地位。2019年3月,巡天7年的LAMOST望远镜发布DR6数据集,其中包括4902个观测天区与1125万条光谱,成为世界首个突破千万量级的光谱巡天项目[15]。

  LAMOST的建造与使用是大科学装置促进科研协作在全球范围内开展的鲜明案例。Web of Science数据库与美国国家太空总署(NASA)的天体物理数据系统ADS显示,截至2018年,除了中国以外,美国、英国、澳大利亚、德国、法国、加拿大、西班牙、日本、意大利、丹麦等国家均在不同程度上利用LAMOST产出科研论文。

  这些科研成果随着LAMOST观测数据集度过保护期后向国际学术界开放共享的步伐,在成果数量上呈现出指数型快速增长的态势。相关的科研协作主要体现在LAMOST巡天项目与有关科研计划的数据发布、天文观测与研究、多种望远镜观测结果的比较等工作上。主要的研究问题则包括光谱技术、恒星丰度与基本参数、银河系动力学、数据分析方法等众多方面。

  基于LAMOST的科研协作同样展现出多样性的合作来源与异质性的合作模式。在国际合作层面,有国外科研机构参与的论文数量已经超过单纯由中国科研机构完成的论文数量,并且前者比后者多出25%的可观比例。其中,在有国外机构参与的论文中,又有近四分之一是单纯由国外机构自身或者相互合作完成。毫无疑问,中国是国际合作网络的核心,与美国、德国、英国等发达国家之间的合作更加频繁;而欧洲国家如法国、英国、德国、比利时等之间的合作也保持在较高的水平上。

  在机构合作层面,尽管中科院系统的科研院所具有临近优势,但是一系列国外科研机构同样在使用LAMOST与其开放的数据从事科学研究,其中不乏美国劳伦斯理工学院、加州理工学院,意大利国家天体物理研究所,澳大利亚悉尼大学,以及英国剑桥大学等世界著名科研机构。

  同样地,中科院国家天文台与南京天文光学技术研究所作为机构合作网络中的两个中心节点,与国内外科研机构在协同利用LAMOST上起到重要的枢纽与协调作用。在科学家个人层面,如果将个人合作关系绘制成网络图,可以看到某些显著的合作模式从图中涌现出来。

  整张合作网络在微观上呈现密集的合作状态,科学家个人之间的合作逐步在本地形成了内部凝聚的合作群体,这些合作群体的规模有大有小,散布于整张网络的各个位置。在网络中非常显著的位置,出现了一个规模很大的连通分支,它主要是有中国科学家群体组成的密集合作网络,经由各种网络路径与其他网络节点(科学家)产生千丝万缕的合作联系。网络中还有其他一些内部联系紧密的子网络,它们内部发生频繁的合作,同时通过某些桥节点而与其他子网络内的科学家产生联系。如比利时皇家天文台的Peter De Cat连接了多个中外研究群体。LAMOST无疑为全球天文学家解决天文学问题提供了良好的观测工具与协作平台。

  5 未来的研究方向与机会

  随着科学大数据的公开与普及,科研人员如何合理地分配与利用科学装置及其产生的大量科研数据,以及科研人员在更广泛的层面上应该如何更好地开展科研合作,已经成为科学界日益关注的问题。对此议题的深入探讨将推进科学数据共享与科研合作朝向高效、高产与高影响的方向发展。“科学数据驱动的科研协作”科研论坛,经过研讨,与会专家认为科学数据驱动的科研协作在以下三个主要方向上展现出丰富的研究机遇‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。

  5.1 科研协作的分析与描述

  通过应用数理统计和计算技术等数学方法对科研协作活动的过程、形式、规模、影响进行定量分析,从中找出科学数据驱动的科研协作的活动规律性。科研协作的计量与描述研究方法主要源于情报科学和科学学,亦包括网络计量学和替代计量学的方法。

  (1)非正式科学交流环境下的科研协作模式。科学大数据环境下涌现出许多新的科研协作模式。在正式科学交流所使用的平台和工具之外,研究者通过非正式科学交流渠道实现科研协作,也在发挥重要作用。分析和描述非正式科学交流环境里的科研协作模式,包括通过社交媒体平台分享合作信息、推广科研成果,通过众包平台实现数据分布式标注等,将成为科学计量学领域重要的研究课题。

  (2)科研协作的规模与网络分析。科研协作规模是指参与科研协作的人员数量、资金投入、时间投入等要素的规模,能够反映科研协作的整体发展态势。在科学大数据的环境下,科研协作网络层次更加丰富,包括国家层次、机构层次和个人层次的合作网络。未来科学计量研究除了通过合著关系构建,也可以考虑使用基金项目、会议组织等其他各种形式丰富的合作联系,更加立体的揭示科研协作的核心人员、合作模式。

  (3)区域间科研协作发展趋势与影响力。科学大数据环境下科研协作是跨国界跨区域的合作。国家之间科研协作的横向比较,通过统计其科研协作发展随时间的变化,分析各国科研协作的项目、政策,洞察国家科研协作的宏观趋势。跨区域科研协作表现在不同的地理层次,洲际、国际、省际、市际乃至校际之间的科研协作,呈现出不同的特点,在设计初衷和目标使命方面亦存在不同,分析跨区域科研协作项目的影响力,有助于理解地理要素对科研协作的作用。

  5.2 科研协作的设计与实现

  通过信息技术与科学学的组合,解决在科学协作中遇到的技术与工程问题。科研协作的设计与实现的研究方法主要借鉴计算机科学和软件工程等工程学的研究方法,通过不断进步的信息通讯技术实现和支持科学数据驱动的科研协作。该方向的主要课题包括但不限于:

  (1)科学数据资源共享机制、科研协作平台框架设计。在科学大数据环境下,科研资源分享方式与传统科研环境下的科学数据共享发生了本质的改变。多源、多维与海量的科学大数据需要更加高效的共享机制和科研协作平台。如何利用人工智能、区块链、协同计算等前沿信息技术,设计更能保证隐私和权益的科学数据资源共享机制、更有效率的科研协作平台,是未来研究支持科研协作一个重要的研究方向。

  (2)科研智能协作具体推荐与分析算法。科学大数据环境下,科研工作者在不同项目里的角色更加多样化,可以参与的科研协作形式更加丰富,在科研工作可以发挥的作用越来越多。通过机器学习与推荐系统算法,智能推荐与分析科研协作的模式,可以实现更有效率的科研协作服务,并且可以进一步通过数据分析驱动创新的科研协作。

  (3)科学数据共享中的质量控制和信息安全问题研究。科学数据的质量控制与信息安全问题是指数据存储稳定性、数据质量、防止黑客攻击等保障科学数据可被安全访问的基本问题,是科研协作得以开展的基础。科学大数据环境下,科学数据的内容、种类、数量等都发生了变化。在这种新环境下,如何通过各种加密方式、授权管理、质量检测和信息安全手段来控制和保护科学数据的共享,将会成为未来研究的热点和重点。

  5.3 科研协作的管理与规划

  通过社会学和管理学的研究方法,旨在解决科研协作的管理和规划问题。科研协作的管理与规划的研究方法主要借鉴管理学、运筹学和经济学等社会学的研究方法。该方向的主要课题包括但不限于:

  (1)科研协作相关科技政策与科学大数据规范化管理研究。政府和管理部门为了鼓励和支持科研协作,应该如何规范科学大数据的采集、使用、共享等方面的管理,是在科学大数据背景下科技管理的重要课题。科技政策体系实施上,如何将数据管理与科研研究模式相结合,必然为科技管理的研究者带来很多未来的研究机会。

  (2)科技资源统筹、利益分配与共享激励措施。科技资源是创新体系的重要组成要素,决定了创新能力的强弱。在科学大数据环境下,更加需要统筹科技资源总体状况。因此,研究如何根据不同类型科技基础条件资源的发展特点分配利益,设计充分调动参与者积极性的共享激励措施政策,也会是未来的研究热点。

  (3)科研协作项目的评审机制与经济和社会效益评估。科学大数据环境下,对科学产出的评价更加全面和多样化。如何设计健全科学协作项目的评审机制,如对科研协作项目不仅从科技产出,也从经济和社会角度进行多角度评估,会是未来科学评价的重点。

  数据论文范例:大数据环境中资源优化配置策略研究

  6 结语

  随着大规模科学数据的增长,基于科学数据驱动的科研协作成为必然趋势,呈现出新特点和新模式,构成科学数据大会中的重要议题。可以预见,未来人与人、人与仪器之间的交互越来越普遍,科研协作将更加紧密地围绕科学数据来展开。但是,科学数据问题也存在学科差异。

  在自然科学如高能物理学、天体物理学等,基于大科学装置产生的大规模科学数据十分普遍;在工程技术领域如物联网、森林监控体系等,基于海量传感器产生的海量数据得到广泛积累;在人文社科领域如考古、新闻传播领域,基于数字人文、3D建模、社交媒体等的大数据引领学科研究新范式。这些不同学科的科学数据,在属性特点、存储传播和研究路径方面都表现出差异,需要开展针对性的研究。

  参考文献:

  [1] Gregor S.The Nature of Theory in Information Systems[J].MIS Quarterly,2006,30(3):611-642.

  [2] 王赟,魏子晗,沈丝楚,等.世纪科学之问“合作+行为是如何进化的”——中国学者的回应[J].科学通报,2016,61(1):20-33.

  作者:颜嘉麒1 闵 超1 余厚强2 魏家鹏1 贾 韬3 马 建4

转载请注明来源。原文地址:http://www.xuebaoqk.com/xblw/5802.html

《科学大数据背景下的科研协作:特征、案例与机遇》