学术期刊综合评价研究

学术期刊综合评价研究

1引言

作为传播科学思想、呈现研究成果和科技水平的一种重要媒介,学术期刊在促进科学知识的创新、科技成果的转化以及社会科技的进步等方面发挥着重要的作用。不同的学术期刊(以下简称“期刊”)有着不同的影响力。期刊的影响力通常指在一定时间内该期刊所发表的学术文献对后续某段时间内相关科学研究与应用的促进能力,即反映期刊对知识创新的影响程度。期刊影响力的大小通常由某种或某些文献计量学指标来度量。好的期刊影响力度量对总体评估期刊的学术质量、宏观考量期刊的办刊定位与出版策略具有非常重要的参考意义。期刊影响力本质上来源于学术文献的科学价值与应用价值的大小,但同时也受到该段时间内社会对其价值的认知水平与认同程度、期刊内容的多样性、学科发展程度、以及期刊自身及其相关渠道的传播与扩散能力等诸多因素制约,所以对其做出客观、准确的定量分析是一个具有挑战的任务。现有研究工作试图开发一个合理的期刊影响力度量指标。最常见的期刊影响力度量指标是由美国已故著名学者加菲尔德博士提出将影响因子。目前,许多学者将影响因子作为衡量期刊影响力的指标,认为影响因子越大,期刊影响力就越大。于挨福等利用面板数据建立多元回归模型,分析了期刊基金论文比、期刊的类型等指标对期刊影响因子的关系;俞立平等利用散点图、回归分析和分组统计的方法,系统研究了基金论文比、平均引文数、引用半衰期等指标与影响因子之间的关系;俞立平等基于分位数回归模型,分析了期刊时效性等指标对期刊影响因子的关系。然而,随着各个学科知识创新日渐加速、跨学科研究日趋普遍、文献出版方式日呈多样化及知识传播速度日益加快,只使用影响因子来衡量期刊影响力存在一定的缺陷。探索可以较为全面反映学术期刊质量和影响力的新型度量指标,越来越受到学术界的重视。Braun等首次将h指数用于衡量期刊的学术影响力,李启正等对纺织学科期刊的h指数、总被引频次和影响因子进行相关性和回归拟合分析。Egghe提出的基于h指数改进的g指数用于评价期刊影响力,张垒等则利用灰色关联分析法和相关性分析法分别研究h指数、g指数和影响因子与载文数、被引频次等指标的相关关系。特征因子的概念由Bergstrom等提出并用于期刊的影响力评价,俞立平等采用面板数据模型研究了期刊影响因子、总被引频次等文献计量指标对特征因子的影响关系。我国学者邵作运等在载文量的基础上来计量被引频次,提出了一种新型指标f(x)指数评价期刊影响力,然后采用Spearman相关系数分析了f(x)指数与总被引频次、影响因子等指标的相关性。中国科学文献评价研究中心在2013年的《中国学术期刊影响因子年报》中,提出一个全新的评价指标:学术期刊影响力指数(AcademicJournalCloutIndex,CI),该指标一种综合总被引频次和影响因子的非线性综合指标。丁筠首次对期刊影响力指数进行了分析,并采用Pearson相关系数研究了CI与影响因子等传统指标的关联性。杨浦对学术期刊影响力指数CI进行了非线性分析。目前公认,期刊的影响力是多个方面因素的综合影响结果,其影响因素指标体系是由一系列具有内在关联的评价指标所构成。综合各种指标的期刊影响力评价方法能够从多个层面反映出期刊影响力的实际情况。近年来,越来越多的研究趋向于利用期刊的多种计量指标对其进行影响力进行综合评价。程慧平利用主成分分析与熵权TOPSIS方法进行了综合指标学术影响力评价。俞立平综合多种文献计量指标提出了隔年影响因子和隔年h指数。张发明和王伟明运用因子分析和诱导密度算子对学术期刊组合评价。张和平和陈齐海分别利用因子分析-DEMATEL定权法对期刊进行综合评价。俞立平等对学术期刊影响力指数CI进行了改进研究。综述所述,从影响力评价指标研究方法上看,尽管多数学者采用相关系数、线性回归、因子分析等线性分析方法能够对期刊影响力进行综合评价,然而这些方法却无法捕获期刊计量指标直接的非线性关系。另外,尽管CI提供了一种非线性关系影响力综合评价指标,但是它主要由影响因子和总被引频次两个指标确定,并且受发文量的制约。一个影响因子接近0的期刊短期快速提高CI的最好途径就是无限增加发文量。为了抑制这种盲目行为,量效指标(JournalMassIndex,JMI)能够抑制发文量对CI值的过度影响。然而,JMI人工干预过多,其中的参数选择具有太多主观性。在人工智能和机器学习领域,深度学习不仅能够表达变量之间的高度非线性关系,而且能够压缩多个变量的关系从而为期刊影响力提供一个可视化的表达和分析。目前在期刊综合评价领域,尚未有深度学习模型的应用。因此,本文运用深度学习中的自编码器模型对期刊影响力的影响因素进行系统地定量研究、可视化分析,并应用其为缺少CI值的期刊进行CI预测。

2方法

2.1数据选取

本文数据来源于2017年中国学术期刊影响因子年报(人文社会科学),以公布的“法律”学科中94种期刊为研究样本。针对其中的每一个期刊,本文选择学术期刊影响力指数(AcademicJournalCloutIndex,简称CI)、期刊量效指数(Jour⁃nalMassIndex,简称JMI)作为学术期刊指数(简称指数),选择复合类指标、综合类指标、人文社科影响因子指标、出版指标、引证指标、网络传播指标等多类指标体系作为学术期刊因素(简称因素)。“法律”学科总共包含2种指数和24种因素。因为少量期刊缺失个别因素的数据,需要对数据进行筛选。本文采用如下筛选方案:剔除存在缺失数据的因素。经统计,“复合5年影响因子”等7种因素存在缺失数据。此外,《中外法学》、《清华法学》和《比较法研究》的“引用半衰期”并非确切数值(如“>20”)均已20替代。经过数据筛选,筛选方案最终选择的因素体系如表2所示。另外,针对《安徽警官职业学院学报》缺失CI数值的情况,本文将在后续的实验中给出其在筛选方案下的CI预测值。

2.2数据预处理

因为所有期刊影响力因素的取值范围差异很大,比如复合总被引的数值量级可达上万,而复合影响因子的数值量级只有10左右,所以本文采用数据标准化来减少计算误差。

2.3深度自编码器

以神经科学为支撑点,深度学习具有表达变量之间的高度非线性关系的能力,已经被成功地应用在计算机视觉、机器翻译等诸多领域。深度自编码器(以下简称自编码器)作为深度学习领域的重要组成部分,是一种无监督的深度神经网络。它不仅能够表达高维非线性变量关系,而且能够将其压缩为低维关系,从而为期刊影响力提供一个可视化的表达和分析。在实际应用当中,自编码器具有重建过程简单、可堆叠多层等优点。自编码器由输入层、编码解码隐含层和输出层组成。其中,输入层和输出层维度(神经元数目)相等,输入层和隐含层之间构成编码器,输入信号x∈Rd通过编码过程在编码隐含层产生含数据特征的激励a∈Rm,解码隐含层和输出层之间构成解码器,a通过解码过程得到重构信号y∈Rd。在本文中,x代表期刊,用d个期刊因素表示,y表示重构之后的期刊。自编码器的训练目标是使原始输入y≈x,从而获取数据中最重要的信息。

2.4CICI和JMI的定义

2013年中国科学文献计量评价研究中心和清华大学图书馆提出了一种学术期刊影响力指数(AcademicJournalCloutIndex,简称CI),能够对学术期刊影响力进行综合评价。它将期刊在统计年的总被引频次(TC)和影响因子(IF)进行组内线性归一化后并进行向量平均计算所得的数值,用于对组内期刊排序。期刊的CI值越大,该期刊距离组内“影响力最大期刊”的差距越小,即该期刊影响力越大。在2017年发表的“中国学术期刊影响因子年报(人文社会科学)”(以下简称“年报”)中,的CI值均乘以1000。以“法学”学科的期刊组为例,组内影响力最大的期刊是《中国法学》,它的总被引频次和影响因子均为组内最高,因此α=β=k=1,从而CI值为1414.214。然而,CI定义中只采用了TC和IF,并未考虑其它计量指标,如即年指标、半衰期等。一个影响因子接近0的期刊短期快速提高CI的最好途径就是无限增加发文量。为了抑制这种盲目行为,提出了新的量效指标(JournalMassIndex,JMI)来修正CI值。然而,JMI人工干预过多,k的选择具有太多主观性。本文拟利用深度自编码器综合复合类指标、综合类指标、人文社科影响因子指标、出版指标、引证指标、网络传播指标等多类计量指标体系,并在深度自编码器生成的学术期刊隐元空间内调查期刊学术影响力CI的分布,从而帮助期刊进行学术影响力排名。

3实证分析

3.1两两因素的相关性分析

针对前述17种期刊因素,我们进行了两两因素相关性的统计分析,使用Spearman相关系数对该相关性进行度量。结果表明,在136个Spearman相关系数中,12.5%的相关系数大于0.90,18.38%的相关系数大于0.8,36.03%的相关系数大于0.7,48.53%的相关系数大于0.6,54.68%的相关系数大于0.5。更为重要的是,因素的两两相互关系可分为以下四种类型:近似独立关系、简单线性关系、单调非线性关系、以及复杂非线性关系。图2分别展示了这四种关系的一个示例。每种关系具体描述如下:(1)近似独立关系。即一种因素与另一种因素几乎无关。例如,“可被引文献比”与“基金论文比”之间,“可被引用文献量”与“基金论文比”之间。特别地,“可被引文献比”与其它所有的因素的相关性均很小,Spearman相关系数绝对值的平均值仅为0.1097。(2)简单线性关系。这种关系通常存在于各种影响因子相关因素之间。例如,“复合影响因子”与“复合他引影响因子”之间,“复合影响因子”与“综合他引影响因子”之间,“复合影响因子”与“人文社科影响因子”。其中“复合影响因子”和“复合他引影响因子”之间的Spearman相关系数高达0.9924。(3)单调非线性关系。有些因素之间表现为近似单调曲线关系。例如,“被引期刊数”和“总下载量(万次)”之间;“复合总被引”与“被引期刊数”之间。两对因素的Spearman相关系数分别高达0.9515和0.9632。(4)复杂非线性关系。有些因素之间呈现为复杂的非线性关系。例如,“基金论文比”与“被引半衰期”之间;“他引总引比”与“互引指数”之间。此类关系无法使用常规的相关系数表示。综上所述,大多数期刊因素之间不仅存在较高的线性相关性,而且存在单调和复杂的非线性关系。本文将利用深度自编码器去除蕴含在多个因素间的冗余信息、刻画其中的非线性关系,将多个因素映射到一个三维隐元空间内,从而进一步分析综合因素与期刊学术影响力指标的关联关系。

3.2期刊影响力指数可视化分布

针对筛选方案中的17种指标因素,应用三层自编码器进行变换,其中输入层的神经元数目与指标因素的数目一致,等于17;中间编码隐含层的神经元数目分别为50和25,输出层的神经元数目为3。具体网络结构,请参见图1。最终,将94种期刊经过自编码器将其17种指标映射到三维隐元空间,每一个期刊的前三个隐元值分别被视作其三维坐标值。如图3-a所示,所有期刊可被呈现在三维空间中,其中三个隐元轴分别标记为X、Y和Z,每一个圆点表示一种期刊。利用自编码器综合多种因素的隐元空间可以对期刊学术影响力进行评价。为了验证其有效性,我们对比了2017年《中国学术期刊影响因子年报》(人文社会科学)中提出:学术期刊影响力指数(CI)及其修正的期刊量效指标(JMI)。我们设计了一种可视化方案来进行对比:代表期刊的圆点的直径与该期刊CI值的自然对数值成正比;同时采用从深蓝色逐渐过渡到深红色的色谱来表示此自然对数值从小到大的变化。图3-b,图3-c和图3-d展示94个法学期刊分布在隐元空间中经过可视化处理之后的三维空间视图和两种二维平面视图。从图3中,我们观察到了几个重要的现象。首先,所有期刊分布在一条曲线上附近。沿着该线,期刊的CI值在总体上呈现明显的变化趋势。特别地,根据第一隐元轴,随着X值从小到大变化,CI值逐渐增加。两者之间的Spearman相关系数为0.911,p值为0。第二隐元轴Y和第三隐元轴Z与CI的Spearman相关系数分别为0.8961和0.8453。因此,CI与隐元空间高度正相关。换句话说,CI值可以由期刊隐元空间推测获得。利用这一点,可为无法计算或缺失CI值的期刊提供CI值预测。其次,根据X的数值,这些期刊可以分为三个梯队。第一个梯队由《中国法学》和《法学研究》组成,它们的X值大于0.38,对应的CI值分别为1414.214和1235.893,占据CI排名的前两名。属于第二梯队的X值位于[0.23,0.31]之间,该梯队中的前三位期刊是《中外法学》、《法学》和《法商研究》,其对应的CI值分别为696.566,658.358和578.78。第三梯队由其它期刊组成,其中排列最后两位的期刊是《中国刑警学院学报》和《武汉公安干部学院学报》,它们的CI值分别为5.203和1.4。因此,这条期刊分布线可以作为学术期刊影响力评价线,它提供了一种学术期刊影响力可视化评价方法。最后,《法制与社会》显得与众不同,它远离期刊分布曲线,是属于指标值异常的离群期刊。《法制与社会》的复合总被引(11596)、期刊综合总被引(1427)、可被引文献量(5131)、引用期刊数(2510)、被引期刊数(1370)、总下载量(128.94万次)都非常高,远超于其它期刊。然而在所有法学类期刊中它却具有较小的CI值(11.208)和最小的JMI值(0.019)。为了抑制片面追求总被引频次盲目扩大发文量CI利用JMI进行了校正,从而可对单一指标的一般性奇异行为具有较好的抑制效果。在这一点上,自编码器隐元空间是与CI值是一致的。不同的是,CI值是基于人工来设定校正系数的,而本文方法是自动识别的。可以进一步利用异常程度(距离远近)来设定惩罚或矫正系数。偏离越远、异常程度越大。

3.3自编码器的应用—预测自编码器的应用—预测CI值

在本节,我们直接应用深度自编码器对期刊进行CI值预测。在2017年《中国学术期刊影响因子年报》(人文社会科学)中并未提供《安徽警官职业学院学报》的CI值。针对缺失CI值,我们选择与CI值相关性最大的隐元空间第一隐元X作为基准,预测《安徽警官职业学院学报》的CI值。我们观察到,按照CI值从大到小排布时,除了《安徽警官职业学院学报》之外的93种法学期刊的CI值呈现非线性分布。通过曲线拟合得出其分布拟合函数为幂指数f(x)=1846x-0.3416-441.5,如图4-a所示。因为如果直接利用具有幂指数分布特性的CI值和第一隐元X的关系进行预测,在预测过程当中会由数值差异较大而引起较大的计算误差,所以我们采用CI的自然对数值来减少计算误差。

4结语

本文以94种法学期刊为研究样本,运用深度自编码器模型对学术期刊的影响力进行了系统地定量研究和可视化分析。首先,分析了复合类指标、综合类指标、人文社科影响因子指标、出版指标、引证指标和网络传播指标等六大类指标包含的17种期刊因素的两两相互关系。结果表明,期刊因素的两两相互关系存在以下四种类型:近似独立关系、简单线性关系、单调非线性关系、以及复杂非线性关系。其次,利用深度自编码器去除蕴含在多个因素间的冗余信息并刻画其中的非线性关系,将多个因素映射到一个三维隐元空间内,从而进一步分析综合因素与期刊学术影响力指标的关联关系。结果表明,法学期刊在三维隐元空间内呈现显著曲线分布,这条分布线可以视作学术期刊影响力评价线,不仅与学术期刊影响力指数CI密切相关,而且能够对学术期刊自动分组,同时能自动发现异常期刊。最后,利用期刊的隐元坐标和期刊的CI值,建立拟合函数,预测《安徽警官职业学院学报》的缺失CI值。结果表明,隐元空间第一隐元X与与CI值相关性最大,同时CI值呈现幂指数分布规律;以此作为基准,所建立的二阶有理数分式拟合函数能够有效地预测《安徽警官职业学院学报》的CI值。总而言之,本文提出了一种新的多因素期刊学术影响力综合评价方法,同样也适用于其它学科的学术期刊,其结论可以为期刊学术影响力建设提供借鉴意义。