期刊论文被引量预测研究

期刊论文被引量预测研究

1引言

论文的被引量在科研评价过程中具有十分重要的地位,如在科学基金申请、学术奖项评定、机构人才引进等过程中,往往需要科研工作者提供论文的引证报告作为其学术影响力的佐证。但是,单纯地依靠被引量及其相关指标来评价一篇文章学术水平的高低或效用的大小存在着一定的局限性,如论文往往需要在发表后一年或更长时间才可能被引用,存在一定的滞后性,特别是人文社科领域的论文,往往需要3-5年才能达到被引高峰。因此,利用初期的特征因子对论文中长期被引量做出预测,较早地发现未来可能被高被引的论文或高被引学者,将有助于科研人员的管理与决策活动。在预测活动中,预测指标和预测方法的选择是最为重要的两部分内容。预测指标的选择主要基于相关性分析,一般认为两个变量之间是否存在相关性是能否利用一个变量对另一个变量进行预测的基础。关于被引量与其他因素之间相关性的研究已有较多成果【1-6】,如赵思?等人采用相关分析对期刊论文的外部特征、作者特征、引用特征和期刊特征共12个细分指标进行了检验,发现对论文被引量有显著贡献的指标包括第一作者的H指数、第一作者的总被引量、第一作者的平均被引量、样本后两年内的被引量、期刊即年指标等【5】;Haslam等对308篇心理学期刊论文十年被引量进行分析,发现第一作者的权威性、是否具有一个或多个资深作者、期刊声望、论文长度、参考文献的新鲜度及数量等均与论文被引量相关【4】;Tahamtan等在其一篇综述中,将28个与论文被引量相关的因素归纳为三大类,即与论文相关的影响因素(如论文质量、主题新颖性、研究主题和领域特征、研究方法等)、与期刊相关的影响因素(如期刊影响因子、期刊的语种、期刊范围、出版形式等)、与作者相关的影响因素(如作者数量、作者声望、自引情况、作者的国内国际合作情况、国籍、性别、年龄、种族等)【1】;类似地,鲍玉芳等人将影响论文被引量的34个相关因素按作者因素、文章因素、期刊因素、网络计量学、其他因素这五个维度进行梳理,提出了更为全面的指标体系【6】。此外,Jahandi⁃deh等人运用独立样本T检验方法对两组论文进行差别检验【3】,Zavos等人选用TheWilcoxonrank-sumtest方法进行假设检验【2】,来判断被引量和其他因素间的关系。在上述研究中,许多与被引量相关的因素(如作者因素、期刊因素等)都是在时即已确定。然而,就算在同一刊物上发表的同期论文,其后期被引量也存在着较大的差异,显然其长期被引量主要受到了后一些动态变化因素的影响,如早期的被引量【5,7-8】在被引量预测方法的选择上,目前仍以传统的回归分析法为主。通过上述梳理和分析,笔者发现,目前在论文被引量预测的相关研究中,已有多位学者研究了作者相关因素、论文相关因素、期刊相关因素等与被引量的关系,但鲜有学者对论文的被引量与早期动态变化因素进行相关性分析,在基于数据类型及其关系视角下的模型构建和模型预测的方法选择和运用上,还处于初步阶段。因此,本研究中笔者对论文早期动态指标(如早期被引量、早期下载量)、论文总下载量、总被引量、论文题名、论文作者数量、关键词数量以及期刊综合影响因子等指标进行逐一分析和选取,以论文的早期被引量和下载量作为重要研究标的,并结合分位数回归方法进行模型建构和预测,以期寻找到影响论文中长期被引量的有效指标,并构建较为优良的预测模型。

2研究方法与数据

2.1相关性分析

基于样本中变量的不同属性,在本研究中采用Spearman相关分析方法进行变量间相关性分析与处理。

2.2分位数回归

回归分析能够定量地阐释变量间的依存关系,是预测和控制领域常用方法之一。传统的回归分析一般要求数据满足正态性假设或方差齐性假设,但现实生活中,许多数据无法满足上述假设,如论文的被引量分布【16】和下载量分布【10】都属于偏态分布,经典回归模型在此领域的准确性会失效。而分位数回归则利用自变量和因变量的条件分位数进行建模,不特定要求数据的分布形态,能够更好阐释因变量条件分布的全貌而不仅仅分析其条件期望;而且,运用分位数回归,自变量可充分反映其对因变量的分布的位置影响、形状影响等。因此在社科研究中,对于实际所得数据的分析解释,分位数回归分析更胜一筹【17-20】。

2.3研究工具

采用spss20.0对数据的分布形态以及数据的相关关系程度进行了处理和分析;运用R语言对数据进行分位数回归分析、方差分析以及被引量的预测分析和预测效果检验。

2.4数据来源与处理

以中国知网提供的11种图书情报领域期刊2006-2008年发表的且获得过下载的10334篇论文作为研究对象(CNKI从2005年开始有完整的下载数据),选择这些期刊主要是由于这些期刊创刊时间较长,在CNKI中收录完整。剔除数据集中的目录、卷首语、征稿启事、简讯等噪声数据后,得到最终数据集DataSet1,共涉及论文9919篇。在9919篇论文中,通过SPSS模糊抽样,随机抽取总样本中约50%的样本(4988个)作相关分析和分位数回归分析,剩余约50%的样本(4931个)用作后续模型验证以及被引量预测使用。DataSet1中,每篇论文所涉及的数据包含论文的基本题录信息以及该论文在2006-2015年每一自然年的下载量和被引量,分别加总每一自然年的下载量和被引量,得到每篇论文自出版时到2015年12月31日的总下载量和总被引量;由于不同论文出版月份不同,有的在年初出版,有的在年末出版,因此出版月份较晚的论文在出版当年的下载量和被引量无法体现其真实数量,为了更加准确地呈现论文在出版后1年内的下载量和被引量,本文假设每篇论文下载量和被引量在一年的不同月份不存在差异,首先采用如下公式计算绝对下载量:其中M表示论文出版月份,并以此类推获得每篇论文出版后3-7年内的绝对下载量;然后采用同样的处理方法获得了每篇论文出版后1-7年内的绝对被引量,汇总获得新数据集DataSet2(由于2008年发表的论文截止至2015年12月31日只有7年的下载及被引数据,所以将所有论文统一统计年限为7年)。

3研究结果

3.1论文被引量与论文各指标的相关分析

从论文题名长度、作者数量、关键词数量、综合影响因子、分年被引量、分年段被引量6个常见指标,以及总下载量、分年下载量、分年段下载量3个新入指标,共9个指标,对4988个样本运用等级相关分析,发现:表2所示的5个指标中,仅有论文总下载量与论文总被引量之间存在正的强相关关系,而其他几个指标相关强度一般,如影响因子这一指标呈现出极低的相关性,这也印证了Prathap等人的发现——不论是独立的科学家的论文还是研究团队的论文,文章的被引率与其期刊影响因子不存在显著的相关性【21】。Lozano研究发现,来源期刊影响因子高的高被引论文比例正下降【22】。Seglen认为期刊影响因子并不是文章的特殊属性,因此用它来评估论文实质上没有意义【23】。此外,有些学者认为,通过期刊影响因子来判断文章,使得“自己的成果变成由发表在哪儿而不是发表了什么来评判”。表3的结果显示,论文分年下载量、论文分年被引量与论文总被引量的相关趋势相同,即前7年中,论文的分年下载量和分年被引量均与论文总被引量存在正的强相关关系,而后两年则不存在强相关。依据上述结果,进一步分析了分年段下载量与论文总被引量的相关情况,同样发现论文分年段下载量和分年段被引量与论文总被引量的相关趋势也相同,即前2年和中间2年的下载量和被引量均与论文总被引量存在正的强相关关系,末2年下载量和被引量与总被引量的相关关系强度一般(如表4所示)。通过上述分析结果,早期的分年被引量、前2年被引量(选取第1年和第2年)、中间2年被引量(选取第5年和第6年)均与论文总被引量有着强相关关系,由于论文的引用时间有差异,单一年份论文被引有的极少,有的甚至为0,不具有代表性。因此为了提高预测的准确性,我们选择分年段被引,由于前2年被引量和中间2年被引量与论文总被引量的相关结果相差不大,那么选择前两年被引量会有时间优势,正如Ponomarevp所说,越早发现突破性研究,则能有更多时间通过工作坊、资金资助或合作研究等方式促进相关科研领域的发展【12】;且赵思?等人研究发现“样本后两年内的被引量”也是有效指标之一【5】;Levitt研究相关领域的论文发现论文早期引用量与论文总引用量排名具有高强度的相关性【7】;Stegehuis也采用了论文早期引用量作为预测指标之一。基于上述分析,将前2年被引量作为预测指标之一较为适宜【24】。对于下载量这一新纳入的预测指标,从上述分析结果可发现,论文前2年下载量与论文总被引量的相关程度也较为密切,因此前2年下载量也作为一个预测指标用于论文被引情况的预测。

3.2文章被引情况的分位数回归分析

3.2.1回归模型

由于数据的极偏态分布,使得普通回归模型无法较好解释变量的真实关系,如第二节所介绍的分位数回归方法可以有效解决社科研究中数据偏态分布的回归分析。在分位数回归分析中,采用了核估计法对回归模型的各项系数进行检验,得到0.25、0.5、0.75、0.95分位点处的回归模型,且各分位的回归模型拟合良好,各回归参数指标结果如表5所示,其中Intercept代表常量,FTC代表前2年被引量,lnFTD代表前2年下载量的对数。从表中可看出在不同的分位点上回归模型均显著有效。

3.2.2回归系数分析

通过分析各分位点处的前2年被引量、前2年下载量以及常量回归系数分布,由图1发现,常数项随着分位点的升高而逐渐呈现下降趋势;而前2年被引量和前2年下载量与之相反,呈现出逐步上升趋势。进一步分析发现,常量(Intercept)在0.5分位点后下降较其他分位点处幅度增大,其余分位点处的斜率较为保持一致,且斜率平缓;FTC的回归系数,在75%分位点往后斜率开始陡然变大,而lnFTD斜率变大的幅度较为缓和。从图1中不难发现,75%分位点之前,FTC和lnFTD对于总被引量的贡献比例均较为稳定;在75%分位点之后,FTC对总被引量的贡献比例相较之前有明显提高,lnFTD的贡献率也有小幅度的提升。由此发现,前2年被引量对论文未来的总引量具有强有力的贡献,尤其是高被引的论文,且与之对应的前2年下载量对其总引量也具有显著贡献,高下载量在一定程度上。

3.2.3不同分位点处回归模型差异检验

通过分析不同分位点处的回归系数,随着分位数的变化回归系数也随之呈现出略微差异。虽然回归系数的变化看似微弱,但这些变化是否会引起回归结果随分位数的有序递增而呈现某种无差别性等级递增呢?这一疑问,值得进一步探讨。由此,我们通过方差分析推断这一疑问,即分析在不同分位点处的回归模型是否存在一定的差异,并且差异程度是否显著。通过分析发现,总体上来说,不同分位点处的回归模型确实存在着显著的差异(P=2.2e-16***),如表6所示。这也意味着FTC和lnFTD这两个预测指标在不同的分位点处对总被引的影响情况是不同的。那么如果采用线性回归等方法进行笼统地模型拟合分析,这一差异情况就会被平均以至消除,预测的准确性有可能会偏离。这也进一步验证了采用分位数回归分析方法的合理之处。

3.2.4模型总体及不同分位点处拟合结果

常用的评价模型拟合优度的方法有判定系数R方(R2=SSR/SST)、模型F检验、对单个参数的t检验、判定系数增量等,MayankSingh等人和赵思?等人在回归拟合判定方法上均选择了复相关系数R和判定系数R方【5,14】,在此我们选择通过上述对不同分位点的模型结果进行比较,我们进一步对模型的预测结果进行了分析,模型总体拟合度优良(R=0.860,R2=0.740,F=14220.348,P=0.000*,<0.01),分位点拟合结果如图2所示,图中分别是四个分位点处的预测值与实际值的分布情况,并在图中给出斜率为1的参照线,从图中可看出,预测值与观测值的分布较为贴合参照线。此外,0.25分位点的拟合情况总体上预测值比实际值略微偏大,主要原因可能是由于部分论文的早期下载量偏高而被引量滞后所致。

3.3回归模型适用性验证

通过分析0.25、0.5、0.75以及0.95分位点处的分位数回归模型及其拟合效果,在本次预测中,运用SPSS随机抽样出的4931个样本,采用上述各分位点回归模型进行如下模型验证。图3可看出参照线从预测值和实际值的散点中穿出,总体上散点较为贴合参照线。进一步,对预测值和实际值进行拟合优度检验,模型F检验结果由表7所示(F=16568.688,P=0.000*,<0.01),线性拟合效果优良;通过计算可知R2=0.771(R=0.878),标准化残差。

4讨论

4.1前两年下载量较其他影响因素的预测优势

在的最早期(比如刚发表前几个月),期刊影响因子以及论文题名或主题的相关性是读者下载和引用论文的驱动力,此时期刊影响因子等因素连同下载量一同对论文被引量的增长做贡献;但随着时间的推移,论文累积年下载量(比如前两年下载量、中间两年下载量)逐渐取代期刊影响因子等因素,与论文被引高度相关,成为预测论文的重要指标之一。因此,论文的前两年下载量这一累积下载频次,其主要源于论文本身因素(内部因素),对被引量的预测优势不言而喻,首先,论文前两年下载量属于动态影响指标,其不同于期刊影响因子这一基于期刊的较为固态化的指标,前两年下载量有着与论文被引量更高更显著的相关性,对论文被引的动态发展能够更好地追踪和预测,一些学者也证实早期下载量可作为被引量预测的一个指标依据【2-3,11,25-26】;其次,论文前两年下载量作为论文被使用的一个指标,可以及时反映论文被使用的情况,且一定程度上能够先于被引而发现文章的引用价值,一定程度地促进论文被引用,处于一种下载-使用-引用的良性循环中;最后,论文下载量这一动态指标,一定程度上能够反映论文的质量,而论文最终是否被引用,终究取决于论文内容的价值性,而非期刊影响因子等因素。

4.2分位数回归在被引量预测上的优势

传统的基于最小二乘回归分析方法通常描述的是自变量对因变量的条件期望即均值影响,这在经济活动以及科学研究中,通常所获取的数据并不满足最小二乘的理论基础如图4和图5所示的科研论文的前两年下载量(FTD)和前两年被引量(FTC)的极偏分布形态,数据存在显著的异方差,使用基于最小二乘的回归模型其稳健性会较差;而分位数回归理论优势之一即对数据的分布形态不做严格限定,这对被引量回归模型的建立、模型预测较为便利。分位数回归的优势之二:不同于基于均值的线性回归,在大数据偏态分布时,可以从不同分位点给予确切的回归模型,使模型拟合比基于均值的回归更准确、更贴合数据(如论文下载量和被引量)的实际分布形态和发展趋势。在本研究结果中,发现总体上不同分位点处的回归模型存在显著的差异,如果采用基于均值的回归理论对总体样本进行笼统建模和预测,那么这种差异情况会被平均弱化以至忽略,预测结果也会失准。分位数回归优势之三:基于已获取的原始数据进行分析,可不对数据进行各种转换,从而减少原有数据信息量的损失,最大限度挖掘变量间的真实确切关系,以便后期做较为准确的预测。在本研究中,所获取的原始论文的被引量以及分年被引量存在0值情况,数据不适于采取对数转换等;而采取0值样本删除措施亦不可取,这会导致数据样本不完整,样本不具代表性。

5结论与展望

通过知网获取11本图情类期刊中9919篇论文为期9年的论文被引量,笔者运用分位数回归分析等方法,对论文的被引量及其相关影响因素(如论文题名长度、论文作者数量、论文关键词数量、综合影响因子以及下载量等)进行分析,发现除下载量外其他几个因素与被引量的相关性较微弱,因此笔者又对论文的分年被引量和分年下载量逐一分析,发现前2年被引量和前2年下载量是影响论文总被引量的有效指标,以这两个主要指标进行回归和预测,得到了较为可靠的分析结果。(1)运用分位数回归分析,四个分位点的回归模型均显著有效。通过对四个回归模型的回归系数进行分析,发现前2年被引量对论文未来的总引用量具有强有力的贡献,尤其是高被引的论文;与之对应的前2年下载量对总引量也具有显著贡献,BottingNicola等人在研究社交媒体对学术论文影响中,也发现论文下载量和引用率是评价学术影响力的重要指标【27】。下载量作为一个新晋的论文被引评价指标现如今通常会影响人们对论文引用的判断【28】,因此,高下载量在一定程度上能够有效促进论文后续被引用。(2)不同分位点处的回归模型存在显著的差异。通过对四个模型运用方差分析后发现,四个模型总体上出现了显著差异(P=2.2e-16***)。前2年被引量和前2年下载量这两个预测指标在不同分位点处对总引量的影响情况显著不同。那么如果采用线性回归等方法进行笼统地模型拟合分析,这一差异情况就会被平均以至消除,预测的准确性有可能会偏离。(3)运用分位数回归模型对另一组数据进行预测,预测值与实际值拟合优良。通过随机抽样抽取出4988个样本做回归模型和模型拟合,得出回归模型拟合良好;以此运用该模型对剩余4931个样本进行了模型检验,发现总体上回归模型可以较为准确地预测论文预期总被引,R=0.878,R2=0.771,标准化残差均值为0.000,运用该模型做预测较为有效。随着文献开放获取的不断发展,论文的下载和使用变得越来越便利,下载量这一即时性数据也更容易获取并用于文献被引分析,论文下载量对被引量的分析和预测在未来的学术影响力评价中具有潜在的影响和优势。不过由于不同的学科,其下载量对被引量的影响可能存在一定的差异,单一学科的预测模型可能具有一定局限性。在后续研究中,拟采用多学科大数据进行融合分析和预测,以进一步研究在多领域学科文献中下载量是否依然是被引量模型预测的有效指标及其对学术影响力评价贡献的可持续性。