医学期刊数据出版政策

医学期刊数据出版政策

科研数据是科研成果的重要支撑材料,也是科研活动的重要产出。但在以往的很长一段时间内,科研数据只是保存在科研工作者个人手中或实验室里,随着科研过程的结束而逐渐被搁置,甚至丢失。伴随着数据密集型科研活动的蓬勃发展,科研成果的再现以及相关假设的进一步探索都需要获取这些原始数据,科研数据的开放获取受到科研过程中利益相关者(政府监管部门、资助机构、期刊编辑、研究人员)的关注,越来越多的资助机构以及国际学术组织提出开放数据政策,要求科研数据能够公开可获取,以帮助验证、推进科学研究。数据出版(DataPublishing/DataPublication)是近几年出版界和数据共享界共同提出和积极探索的新概念,是数据共享的新机制。Pene等认为数字时代的数据出版是指在互联网上公开数据,并支持除数据提供者之外的研究人员或者组织机构下载、分析、再利用以及引用数据;从广义上讲,任何将数据上传到互联网或者数据库并支持开放获取的行为都可以称之为数据出版。吴立宗等认为科学数据出版是指将数据作为一种重要的科学成果,从科学研究的角度对科学数据进行同行审议和公开公布,并创建标准和永久的数据引用信息,供其他研究性文章引证。国内外数据出版定义的表述略有差别,国外的定义侧重共享,国内更接近于传统论文出版,有完整的流程和控制标准。近年来,越来越多的学术期刊了数据出版政策,研究人员对这些政策开展了调研分析。如陈秀娟等以美国化学学会期刊为例剖析化学学科的学术期刊数据出版政策;雷秋雨等分析了《期刊引用报告》(JCR)中进化生物学领域期刊的数据出版政策。本文以医学领域的核心期刊为例,系统地研究医学领域学术期刊的数据出版政策。之所以选择医学领域,主要是因为该领域在数据共享政策规定方面的发展较为成熟,能为国内同类期刊、期刊编辑制定和完善数据出版政策提供参考,也能帮助医学领域的科研人员了解相关数据出版政策和要求,便于他们投稿和共享科研数据。

1研究对象和内容

选取中科院科学引文索引(SCI)期刊分区表中医学大类1区里影响因子排名在前50的期刊为样本进行研究,这些期刊是中科院依据美国科学信息研究所(ISI)的JCR列出的医学领域中影响力最大的期刊,在医学领域的期刊中极具代表性和权威性。截至2017年2月20日,中科院SCI期刊分区表中1区医学大类里影响因子排在前50的期刊,按照影响因子从大到小的顺序编号,下文如再次出现,将以编号代替。笔者调研了这些期刊的网站,并对每种期刊的“AuthorInstructions”部分进行了详细调查,调研的内容均为2017年2月的最新版本。对期刊是否要求作者提交支撑性数据或补充数据材料进行出版的论述进行统计,将这些期刊的数据出版政策按照强弱等级细分为4个等级;依据统计结果,进一步调查各个期刊对于数据发表和数据共享的要求和表述,如要求作者提交何种数据、如何提交、提交于何处,以及数据的开放性规定,并进行归纳总结;选取具有代表性的学术期刊,详细介绍其政策规定。

2概况

对表1中50种学术期刊的数据出版政策进行研究,发现有3种期刊没有数据存缴要求,其余47种期刊均要求作者将相关数据或补充材料作为支撑信息(SupportingInformation,SI)随论文一起提交。SI是指能够直接支持论文的主要结论,但对主要结论而言是额外的或次要的,或因为空间或者格式限制等原因不能被列入论文主体中的数据或其他材料。在期刊允许的情况下,同行评审过程中评审专家可以将SI作为评审参考;在以后,SI也会随论文电子版以期刊规定的相应形式发表,感兴趣的科研人员可以获取所需数据并再现作者的研究成果。对有数据存缴和出版政策的47种期刊进行调研发现,出版社对SI的提交要求通常可分为以下3种:1)作者及时提交SI并愿意出版是论文出版的条件之一,不提供SI的论文可能会被期刊编辑拒绝发表;2)建议或鼓励作者将相关数据作为SI同论文一起在线出版,但提交SI不作为论文是否出版的考量,由作者自己决定;3)作者可以提交相关数据作为SI,但SI是否在线出版由期刊编辑决定。按政策强弱细分标准,将每种期刊的“AuthorInstructions”论述中出现“作为论文出版条件”“作者必须提交”“必须愿意出版”等字眼,定义为强数据出版政策;论述中出现“鼓励提交”“建议提交”“应该提交”“可以提交”这些字眼,同时出现“只要作者愿意就提供在线出版”定义为次强数据出版政策;论述中出现“应该提交”“可以提交”,同时出现“由期刊编辑决定是否出版”定义为弱数据出版政策。比照上述标准总结出,在50种期刊中,3种期刊没有数据出版政策,占6.0%;10种期刊具有强数据出版政策,占20.0%;22种期刊具有次强数据出版政策,占44.0%;15种期刊具有弱数据出版政策,占30.0%。由此可见,只有少部分期刊具有强数据出版政策,数据出版政策的强制性力度并不大。有数据出版政策的47种期刊中,只有少数需要由编辑来决定提交的数据是否能够作为SI在线出版,大部分期刊只要作者愿意,就能够提供在线出版,可见SI的出版条件比较宽松和简单。

3期刊数据出版政策分析

3.1数据类型

有数据出版政策的47种期刊依据该期刊自身特点,对以SI形式提交的数据类型有不同程度的要求。属于同一出版集团的期刊通常具有相同的数据出版政策,以SI形式提交的数据类型相同,比如Nature出版集团系列期刊、Lancet系列期刊和AnnualReview系列期刊。所有期刊都说明了SI中可以包含图、表、数据集、音频、视频等通用数据类型,有一些期刊还说明SI中可以包含蛋白质序列数据、DNA和RNA序列数据、大分子结构数据、微阵列数据、计算机代码和临床试验数据等特定数据类型。不同期刊对SI数据的格式有不同的要求,某些特定数据类型被要求先存储到推荐的相应第三方仓储中,而其他的数据类型则可以根据期刊要求以pdf、doc、excel、mov、mp3或zip等文件形式直接上传。

3.2数据存储位置

数据存储位置是期刊数据出版政策的重要组成部分。总体上说,大部分期刊都允许将通用数据直接提交到期刊平台上,特定数据类型则需要提交到适当的公共仓储中,形式不一而足,具体来说,目前主要有以下几种数据存储方式。

(1)直接提交到期刊平台上,由期刊进行存储管理

有数据出版政策的47种期刊都支持通用数据以该方式存储,但有些对文件的数量和大小有限制。如Lancet系列期刊要求音频、视频材料的容量小于50MB;EuropeanHeartJournal要求补充材料不超过10个文件,每个文件不超过1.5MB。

(2)提交到适当的公共数据仓储中

公共数据仓储是分享科研数据的较优方式。与期刊平台的存储相比,公共数据仓储使数据更容易被发现和获取,并提供数据的格式化存储,支持特殊领域的数据报道标准,特别适合对特定数据类型的存储。有数据出版政策的47种期刊中,明确规定和要求将特定数据类型存储到推荐的公共数据仓储的期刊有28种,其中,Nature系列期刊、Lancet系列期刊、ElsevierCell系列期刊甚至为每种数据类型推荐了相应的数据仓储清单。如果某些特殊数据类型找不到合适的存储位置,可选择通用仓储进行存储,如Figshare、Dryad。更多的数据仓储还可以参照期刊认可的推荐列表,如ScientificData、Biosharing整理的仓储信息。

(3)作为数据论文出版

数据论文是近年来兴起的数据出版形式。与学术论文不同,数据论文的主要内容是数据收集、获取和处理等过程和方法的描述,不涉及数据和研究结果的分析、推论、假设和验证。通过这种出版形式,数据可以像学术论文一样纳入到学术评价体系,促进数据分享、获取和重用。Nature集团从2014年开始出版的数据期刊ScientificData,它的主要文章类型是DataDescriptor,它主要提供对数据细节的描述,阐述数据如何被产出、被谁产出以及如何能够被其他研究者再利用。出版的DataDescriptor将与相关的期刊论文和存储在数据仓储中的数据文档链接。调研中涉及到的11种Nature集团的期刊都支持作者将补充资料以数据论文形式出版。

(4)存储到作者所在机构的网站或机构库中

PhysiologicalReviews允许研究人员将补充材料存储在作者所在机构的网站中,并在论文中按照规定格式提供链接到数据集的统一资源定位符(URL)。

(5)作者自行保存一定时间

EuropeanUrology不保存论文的补充数据,而是建议作者在论文出版之时起将数据集冻结5年。如果同行评议需要验证方法和数据的有效性,作者需要提供匿名的数据集;当其他研究人员提出合理的数据利用需求时,EuropeanUrology鼓励作者提供,但认可不同国家对作者义务的不同规定。

3.3数据可用性声明

所有47种有数据出版政策的期刊都明确说明SI数据不会放在印刷本期刊中,而是以电子方式出版。大多数期刊会在印刷稿中声明补充材料SI可在出版期刊电子版的网站中获取。在线出版时,不同期刊对SI数据获取方式的声明和提示目前还没有统一的标准,但大多数遵循以下几种方式:(1)在期刊网站稿件内容发表页面或旁边提示如SupplementalMaterials字样的链接,可通过链接获取数据;(2)在稿件的方法部分声明SI文件获取事项,如没有方法部分,在参考文献或致谢部分之前声明;(3)在文中与数据相关的内容部分引用,通过超链接获取文件,普通数据通常要求单独编号(如SupplementaryFigureS1),特定数据类型在论文中标识数据集的访问控制号、链接或DOI号;(4)向作者申请获取。

4结论

从调研结果可以看出,国际顶尖的医学期刊已经积极地介入科研数据的管理过程,纷纷发表数据出版政策。了解期刊的数据出版政策,期刊出版社可以紧跟国际期刊的政策形势;投稿的科研人员可以准确把握期刊要求,提高投稿效率;而需要复用数据的科研人员可以方便获取所需的科研数据。目前,期刊数据出版政策已经较完善,涉及很多方面,如数据存缴的时间、数据格式、隐私信息的处理。但笔者认为还有许多问题值得进一步改进和探讨。(1)数据出版政策的强制力度不够,有数据出版政策的47种期刊中,只有10种有强数据出版政策,其余37种期刊都只是建议或者鼓励提交数据进行出版,主要取决于作者本人的意愿,并未形成一种客观上的要求,在数据共享方面没有形成强有力的支持。(2)没有良好的数据质量控制标准,绝大部分有数据出版政策的学术期刊都说明由作者自行对数据的质量、真实性等情况进行负责,没有设定专门的数据标准审核专家对数据进行评审,无法保证数据的规范性和质量,并不利于数据的有效复用。(3)数据描述和可使用性不足,大部分期刊提供直接将数据存储在期刊平台上,并且只是在期刊原文的电子版中提供访问链接,有一些期刊甚至要求除了音频、视频文件和大数据集的其他数据都放在一个PDF文件中,并没有对数据内容的单独描述以及结构化存储,不便于对数据的检索、查看和重复利用。(4)期刊平台与第三方仓储整合不足,在上述调研中,只有ScienceDirect平台出版的期刊提到在第三方仓储有相关数据时,会出现仓储标识,其他要求将特定数据类型数据存储到第三方仓储中的期刊,只要求提供在第三方仓储中的获取链接或获取编号。