论文下载指标的基本特征

论文下载指标的基本特征

通过对上述论文的研读分析可知,论文下载指标研究主要涉及下载指标的基本特征、下载与被引的关系、下载指标的应用、代表实时下载情况的下载数据的研究及应用等主题。学术论文在引用前被下载和研读,体现了其社会价值和影响力。因此,学术论文的下载指标也可作为论文评价的外部指标,那么其具有什么特性、与其他指标的关系如何、能否用它来预测并替代引用指标结果以及用于论文和期刊的评价时的适用性如何?学者们利用《中国学术期刊全文数据库Web下载统计报告》大样本数据或中国知网总库或其镜像站数据以及《中国学术期刊综合引证报告》进行了相关研究。

1论文下载指标的基本特征研究

1.1下载频次的分布特征研究

为考察学术论文下载频次的随机变量分布特征,学者们从学科、期刊、机构或论文等不同层次开展了相关研究。其中一项利用《总库》数据的分析结果表明:下载频次在期刊中呈负指数分布,而并非正态分布,认为将下载次数视为连续型随机变量会更为合适[2]。另一研究结果显示:论文、期刊和机构层次的下载频次均不符合负指数或幂律分布,呈现向右偏斜的尖顶峰形曲线形态,且以期刊层次为最,所有曲线与正态分布的差异都很大[3]。针对《总库》数据开展大样本抽样的统计结果表明:期刊论文的网络下载频次分布均遵循负对数函数衰减,衰减速率由最高下载频次、篇均下载频次与载文量3因素决定[4]。另有研究显示:随着下载量的增多,论文数比例较快地增大,增大到某一最大值后再缓慢减小直至最小,认为学科论文的下载频次分布可用对数正态分布函数表征。基于该分布特征,提出学科最可几下载量,用以表征学科论文的下载量水平[5]。毛国敏等运用非线性迭代算法,模拟得出期刊论文下载指标的概率密度服从对数正态分布[6]。上述基于不同层面的研究均一致表明:学术论文下载频次的随机变量均不服从正态分布,为开展进一步研究提供了理论基础。

1.2期刊论文下载频次的布拉德福分布研究

作为文献计量学经典定律之一的布拉德福定律,最早是用来描述科技论文在期刊中的分布规律的,其是“期刊载文量累积数”与“期刊累积数”之间的函数关系,体现了文献在相应期刊中的集中与分散的对立与统一。为探讨论文下载指标是否也遵循布拉德福分布,学者们开展了一些实证研究。研究表明,布拉德福定律在网络环境下也可适用。张洋的研究表明:期刊“Web下载总频次”在期刊中的分布符合布拉德福分布规律,同时也表现出一定的新特点。认为专业论文的纯度是影响布拉德福定律相关数学表达式准确程度的一个重要指标[1]。曹艺等通过考察发现,集中度从大到小依次为机构>期刊>论文,在期刊和机构层次,相邻分区的集中系数差异很大,说明分区效果很差,其中还呈现格鲁斯(Gross)下垂现象[3]。郭强等研究显示:不同学科属性的期刊下载频次从直观上都能较为显著地表现出布拉德福分布的特征,当然学科间会存在一定的差异。研究针对下载频次在期刊中分布的聚类现象以及分散程度进行了解释或是比较,对下载频次与学科属性之间的关系能有更深入的认识,从而为建立期刊下载频次的统计性质与学科影响因素之间的定量关系作了准备[2]。

1.3论文下载频次在论文关键词中的齐普夫分布

传统的齐普夫定律描述的是,若将文章中的词按照出现的频次降序排列,则词频与对应排序值的乘积保持不变。有研究将传统齐普夫定律中的研究对象转换为论文关键词与下载频次,从新的视角对论文下载频次的统计性质进行了考察。研究表明对于下载频次在关键词中的齐普夫分布,其意义从直观上与传统的齐普夫定律的含义也是相吻合的[7]。论文下载频次在论文关键词中的齐普夫分布,也是下载频次统计分布特性的一个组成部分,其在一定程度上反映出用户信息需求的偏好,并可用来探讨用户下载行为及其知识利用的规律性特征,为文献老化的解释性研究带来更多的启示。

2学术论文下载指标和被引指标的关系研究

2.1下载指标和被引指标间的一致性和差异性的比较研究

周燕子等[8]和刘影梅等[9]通过10篇高频论文分别考察了我国图书馆学情报学核心期刊的下载频次与被引频次间的相关性,直观比较后得出:同一篇论文的下载频次远远高于被引频次,高下载的论文不一定是高被引,高被引的论文不一定是高下载。

2.2学术论文下载指标和被引指标相关性的定量统计研究

主要涉及机构、期刊、作者、论文等不同层次上的论文下载和被引指标的相关性研究。其中涉及期刊层次的研究较多,样本量也较庞大,并较多地采用Spearman等级相关分析法进行分析。其中有学者考虑到中文科技期刊文献计量指标与网络计量指标间的线性关系较弱,且大多不服从正态分布,直接采用Spearman等级相关分析,分别对期刊和机构层次的被引频次和下载频次[3]、期刊的下载频次与被引频次[10]等开展研究。也有学者先采用正态性检验(如直方图、QQ散点图、K-S检验)、曲线估计确认后再进行Spearman等级相关分析,从期刊[11]、论文+期刊[12]以及论文+作者+期刊[13]等不同层面上规范地考察了论文下载频次、被引频次与影响因子间的相关性。另有学者在期刊层面上采用线性相关法开展了相关研究[4,14]。而在单篇论文层面,可见采用线性相关分析法、回归分析法考察论文下载频次与被引频次间的相关性[15-17]。从相关研究中发现了一些较典型的问题:如取样的合理性欠佳,样本量过小导致结论不具有普遍性;样本出版年限不够长使得被引行为尚未发生;分析方法不合理,如没有经过正态性检验而直接采用线性相关分析,使得结果不具科学性。通过研究发现,高下载或高频被引论文,在QQ概率图中是一些远离簇位置的散点[3],亦即离群数据[18],容易造成单篇论文整体的相关系数降低,因此以高频论文作为样本,样本量较少,并且被引频次和下载频次存在时间差,以及还有论文的学科差异等种种因素的影响,都会导致研究结论的可信度降低。综上,由于数据来源、样本大小、学科领域、分析层次、统计方法、观察时段等的不同,针对论文下载频次和被引频次的相关性研究的结论也不尽相同。但总的来说,基于期刊、作者、机构层次,论文下载频次与被引频次呈现较显著的正相关性,而在单篇论文层面,论文下载频次与被引频次不具有相关性或相关性偏弱,因此可作为两个独立指标,至于其权重如何,有待于进一步研究探讨。

3学术论文下载频次的应用研究

3.1在期刊、机构、作者层次上论文下载频次对被引频次预测的可行性及实证研究

一些学者持肯定意见,如有研究基于期刊和机构层次的下载频次和被引频次之间关联性显著较强,认为从其中一个指标来推测另一指标是较为可靠的[3]。另有研究认为从作者或期刊粒度利用下载频次预测被引频次是可行的[13]。郭强等则利用期刊的前期下载总频次对其后期的被引总频次进行了估算,并在线性假设基础上,对后期的被引半衰期以及最大引文年限也进行了考察[19]。也有学者持否定意见,认为不能利用期刊论文下载频次对被引频次进行预测,如王雅祺指出被引量和下载数之间的关系较复杂,并不一定是简单的因果关系[12]。

3.2在单篇论文层次上论文下载频次对被引频次预测的可行性

周骥等通过研究认为:根据论文早期的下载频次可对后期的被引频次进行预测[17]。而有几位学者通过高频论文的直观比较或者线性相关分析,认为论文下载频次不能对被引频次进行预测[8-9,16]。另有研究明确指出,从单篇论文粒度利用下载频次预测被引频次并不可行。也有学者提出,下载指标能否用于评价论文的学术影响力还需深入研究[7]。

3.3建议将学术论文下载频次与被引频次都作为学术期刊综合评价的指标之一

张洋[1]、王雅祺[12]等认为文献与期刊的下载频次、被引频次这两个指标都应该在评估中相互参照并综合考虑其影响力。《中文核心期刊要目总览》(2001版)和《中国学术期刊评价研究报告(2013-2014)》中已经分别将“Web下载量”和“即年下载率”纳入期刊评价指标,与引文指标相比,权重系数偏小,分别为1%和5%[17],但也显示了将论文下载频次作为单独一种指标进入期刊综合评价体系成为一种必然趋势。

3.4论文下载频次加入Altmetrics体系参与学术论文影响力评价

Altmetrics,一种新型的学术成果评价方法,强调用面向学术成果全面影响力评价的指标体系来替代传统片面依靠引文指标的定量科研评价体系,其包含了被引量以外的被使用情况、被获取情况、被提及情况和社交媒介等[20]。国内的研究结果验证了Altmetrics将论文下载指标作为独立的单篇论文评价指标的合理性和科学性;目前已有研究者建立了类似Altmetrics的并将论文下载频次纳入单篇英文论文的动态评价体系[21]。