期刊有效信息密度测度研究

期刊有效信息密度测度研究

1引言

近10年来我国CSSCI核心期刊载文量出现了持续下降现象(见图1).自CSSCI核心期刊产生以来,我国人文社会科学论文大致呈现了两个发展阶段:第一阶段是1998-2009年,其特点是载文量总体处于上升态势,从1998年的67805篇增加到2009年的150069篇,平均每年增长7.49%;第二阶段是从2010年至今,载文量持续下降,2019年载文量为119866篇,平均每年下降2.22%.经济管理类论文发展规律与人文社会科学所有期刊基本相同.经济管理类论文也分为两个阶段:第一阶段是1998-2009年,载文量总体处于上升态势,从1998年的21607篇增加到2009年的48102篇,平均每年增长7.55%;第二阶段是从2010年至今,载文量持续下降,2019年载文量为32397篇,平均每年下降3.88%.在人文社会科学研发经费和研发人员持续增加的情况下,载文量下降是不正常的.根据教育部中国人文社会科学信息网公布的数据,2009年我国人文社会科学研发经费为54.63亿元,研究人员为425939人,2018年研发经费为190.54亿元,研发人员为764235人,平均年度增长率分别为13.31%和6.02%,均处于高速增长状态.由于广大高等院校是人文社会科学研究成果产出的主要力量,在人文社会科学投入不断增加的情况下,无论是CSSCI期刊论文还是经济管理类期刊论文均同步下降,这进一步说明其中包含着人为的因素,是一种异常现象.研究学术期刊的信息密度及其测度问题非常重要.所谓学术期刊的信息密度,就是单位版面内期刊学术论文知识和信息量的平均大小.在学术期刊版面相对不变的情况下,载文量下降意味着论文篇幅变长,总体上反映了期刊信息密度的下降.当然对于这个问题的分析只局限于宏观层面,对于微观而言,决定单篇论文信息量的完全是其内容,与篇幅长短并没有太大的关系.在载文量下降背景下,研究期刊的信息密度测度问题具有十分重要的意义:(1)有利于补充完善现有学术期刊信息密度测度指标的不足;(2)分析信息密度指标与其他文献计量指标之间的关系,丰富学术期刊评价理论;(3)有利于防止人为降低信息密度现象,稳定载文量,促进学术期刊健康发展.学术期刊的信息密度最早是指每个印张的平均论文数量.1994年国家科学技术委员会颁布五大类科技期刊质量要求及评估标准,其中信息密度是指每个印张刊载结构、概念完整的文章数量的多少,规定信息密度在5篇/印张以上才可评为优,低于3篇/印张则列为不合格.这项规定当时对于期刊载文量增加有显著影响,随着这项规定逐渐被废除,一直到2009年前后,这种影响才逐渐消除.当时对信息密度的界定确实存在不少问题.何英、李育琪等通过对版心尺寸进行修正进一步优化了版面信息密度评价指标[1].孙景峰认为学术期刊的信息密度是测定期刊输出能力和生产率的一个基本依据,是评价期刊有用性的主要指标之一,但每印张论文数量并不科学[2].李晓红、冯保初指出过分强调信息密度,限制论文篇幅,影响论文完整性,不利于阅读和引用,对学术风气也有不良影响[3].赵均认为信息密度不能作为学术期刊评价指标中的定量指标来使用,但是用作定性指标还是非常有意义的[4].王蔚良、陈咏梅认为文章的长短与其学术质量没有一个必然关系,不同学科和不同体裁的论文篇幅也有差异[5].针对近年来学术期刊出现的载文量下降现象,李睿认为论文的核心在论证,所以应该关注论证质量,而不是刻意增加篇幅[6].许力琴、顾黎等认为载文量减少而页码不变,会使期刊的信息密度减少,从而渐渐演变成虚肿的、隐形的“亚健康”状态,一些期刊通过压缩载文量、做小分母来增加影响因子是不对的[7].鉴于信息密度存在的问题,方润生提出了科技期刊有效信息密度的概念,分析了科技期刊有效信息密度、期刊目标、读者需求之间的关系[8].史春薇、赵杉林等根据我国科技期刊的现状,介绍了有效信息和无效信息的概念,分析了产生无效信息的原因,主要有中英文摘要过长、推导过程太详细、专业应知应会的知识介绍过多、科研背景介绍过多、参考文献过多和图表加英文标题[9].李世涛认为论文的学术水平高,出版周期短,可读性强,信息含量就高,编辑的责任感和高素质是扩大信息量的保证[10].曾绍伦、陈于后等研究了信息密度指标与已有期刊评价结果之间的关系,结果表明信息密度指标与期刊影响因子、平均引文数和篇均页数均呈现负相关关系[11].从现有的研究看,关于信息密度问题的相关研究主要是早年国家提出信息密度考核规定后不久,一些学者开展的相关领域的研究,随后此类研究逐渐淡出人们的视野.随着近年来期刊载文量的下降,学术界重新开始关注这个问题.对于单纯用每印张论文数量衡量信息密度的作法,学术界总体上持反对态度,认为其不能很好地反映信息密度,其负面效应较大.还有一些学者从广义有效信息密度的角度进行了一些分析,但缺乏定量研究.总体上在以下方面有待进一步深入:(1)摈弃每印张论文数量作为信息密度指标,却没能提出更好地反映信息密度或有效信息密度的指标;(2)在载文量异常下降的背景下,迫切需要引入期刊有效信息密度考核指标,以防止载文量异常下降现象日趋严重;(3)如果设计出期刊有效信息密度考核指标,有必要分析其与其他文献计量指标之间的关系,从而对该指标的适用条件和注意事项作进一步的讨论.本文以CSSCI经济学期刊为例,基于中国知网(CNKI)的引文数据,根据期刊扩散情况、关键词数量和载文量,提出一个新的反映期刊有效信息密度的指标———期刊信息密度因子,然后分析其与其他文献计量指标的关系,并对其适用条件进行了讨论.

2期刊信息密度因子提出的原因及其原理

2.1近年来期刊载文量下降原因及危害分析

期刊载文量持续下降的原因,很大程度是为了提高期刊的影响因子.影响因子的计算公式是用学术期刊过去两年在统计年度的被引次数除以载文量.由于分母是载文量,因此人们误认为只要筛选出优秀论文,另外适当降低载文量,就能提高影响因子.这是影响因子操控现象之一,是不道德的.法拉加(FalagasME)和阿莱克西欧(AlexiouVG)系统归纳了影响因子操控的行为,包括学术宣传、引用干涉、拒绝消极研究、增加综述论文、喜欢合著者多的论文、拒绝隐藏摘要研究、发表热门话题论文、喜欢名家论文等等[12].俞立平、宋夏云等基于情报学期刊的研究发现,载文量与影响因子无关[13].刘晨霞、张昕等对涉农类科技期刊的研究发现,对载文量较小或较大的期刊而言,影响因子与载文量正相关,对载文量中等的期刊而言,影响因子与载文量呈负相关,但拟合优度并不高[14].降低载文量是否能提高影响因子,本质上取决于学术期刊是否能够筛选出优秀论文.如果学术期刊因为载文量的限制剔除的那些论文已经达到了发表要求,那么降低载文量不仅不能提高影响因子,反而有可能降低影响因子.如果人文社会科学研究水平提升很快,期刊稿源非常丰富,那么这种情况出现的概率就非常高.而我国目前即是这种状况,作为具有一定研究质量的CSSCI核心期刊,其论文录用率总体偏低.撇开载文量与影响因子的关系不谈,人为降低载文量还会带来其他负面效应:(1)迄今为止,通过载文量操控影响因子的行为主要存在于中国,国外尚未见报道,这极大地影响了我国学术期刊的声誉;(2)在相同版面下,人为降低载文量牺牲了期刊的知识和信息含量,不利于人文社会科学的健康发展,也是学术期刊缺乏社会责任的体现.对于单篇论文而言,在保证论证完整性的前提下,论文篇幅加长并不能增加信息量,信息密度反而会降低;(3)我国人文社会科学期刊办刊资源和办刊能力总体上比较丰富,如果说2009年论文达到高峰时办刊资源尚显不足的话,那么经过10年的发展,这个问题也得到了根本改善.人为降低载文量,本质上是对办刊资源的一种浪费.

2.2简单用论文篇幅来衡量信息密度的缺陷

传统采用每印张论文数量衡量期刊信息密度之所以受到学术界反对,主要有以下原因:(1)学术论文的信息量或者知识含量主要是由其内容决定的,论文篇幅虽然某种程度上能反映一定的问题,但毕竟有限;(2)人为限制信息密度的方式大致有以下几种:一是人为延长论文的长度,降低信息密度;二是将长篇论文分为两篇,同样降低信息密度;三是缩小论文长度,表面上能提高信息密度,但可能导致论文论述不够全面,影响论文质量.不管什么方式,都是强行用形式来影响内容,均不可取;(3)期刊信息密度受学科发展速度影响,此外不同学科期刊的信息密度也存在较大差异,不宜一概而论;(4)用传统论文篇幅指标衡量信息密度,信息密度并非越大越好,如果精简过多,导致论文难以看懂,这也影响了信息和知识传播,本质上还是会降低信息密度;(5)我国学术期刊属于准公共物品,论文篇幅本质上应由作者和学术共同体决定,作为期刊主管部门,本不应加以干预,除非学术期刊出现市场失灵现象.综上所述,不宜直接采用载文量、论文平均篇幅、每印张论文数量等简单指标衡量学术期刊的信息密度.

2.3期刊信息密度因子的原理

(1)期刊关键词视角对于某一学术期刊而言,关键词数量越多,说明其涉及的领域越广阔,拥有的信息密度越大.当然不同期刊的办刊风格不同,有的期刊在某一相对较窄的领域内展开研究,拥有较少数量的关键词,有的期刊在相对较宽的范围内研究,拥有更多的关键词.从研究问题和话题的角度,一般而言,拥有更多关键词的期刊信息密度较大.当然,关键词也只是衡量信息密度的一个方面,两篇论文关键词相同,长度相同,信息密度也可能相差较大,完全取决于论文内容,由于尚没有很好的指标能直接反映内容,所以本文暂时从关键词的视角进行一些探索.本文提出一个新的指标———关键词指数KW,即用期刊关键词数量除以载文量.需要注意的是,对于一些专业性比较强的期刊,其关键词数量总体上偏少,在这种情况下,只要做到同类可比,即在评价时注意必要的细分,就可以有效地防止这个问题.(2)期刊论文扩散视角期刊后,从被引用期刊角度也可以反映其信息密度.弗兰森(FrandsenTF)提出新扩散因子(NewJurnalDffusionFctorsoia,NJDF),即用期刊被引用刊数除以期刊载文量[15].一般而言,期刊后,引用其论文的往往是同学科的期刊,此外还有一些相近学科的期刊.对于人文社会科学而言,由于中国学科分类相对较细,因此引用期刊所跨学科相对就会多一些.比如美国将经济管理学科分为一个学科———经济学与商学,而我国分为理论经济、应用经济、工商管理、管理科学与工程、公共管理、农林经济管理、图书馆情报与档案管理等许多分支学科.不同期刊的办刊风格、选题范围、重点内容相差较大,某一期刊论文被引用刊数越多,说明该期刊覆盖的学科领域越大,研究内容越广泛,相对而言就拥有更高的信息密度.之所以不用扩散因子表示信息密度,因为扩散因子是期刊每100次引用所涉及的期刊数,从引用角度看,许多引用信息是重复的,难以衡量信息密度.(3)期刊信息密度因子的提出基于以上分析,采用关键词指数、新扩散因子与载文量同时衡量信息密度是一个较好的选择.本文基于并联电路的原理,采用调和平均数来计算期刊信息密度因子.关键词指数、载文量和新扩散因子均可以用来测度信息密度,前两个是来源指标,第三个是引用指标,三者的共同作用决定了期刊信息密度因子的大小,但是其作用机制并不清晰,传统加权汇总的评价方法并不合适,因此采用并联电路计算电阻的原理来计算其共同效果即期刊信息密度因子的大小是合适的.由于期刊信息密度因子计算时,原始指标关键词指数、载文量和新扩散因子的量纲并不相同,因此,首先要进行归一化处理,采用极大值方法进行标准化:

3研究数据与实证结果

3.1研究数据

本文以2019-2020年版CSSCI核心期刊中的70种经济学期刊作为研究对象.研究数据来自中国知网(CNKI)的引文数据,可以检索到一定时间范围内的期刊关键词数量、被引刊数、载文量,这样可以计算关键词指数和新扩散因子,进而计算出期刊信息密度因子.为了分析期刊信息密度因子与其他文献计量指标的关系,进一步检索出影响因子、h指数.需要注意的是,为了使数据具有可比性,必须界定同一时间范围,因此本文载文量时间范围为2016-2017年,被引量即统计年度为2018年.

3.2实证研究结果

3.2.1期刊信息密度因子的计算

经济学期刊信息密度因子的计算结果如表2所示,排在前面的期刊是«经济纵横»«农业经济问题»«经济研究»«现代经济探讨»«中国工业经济»等.作为经济学领域公认的权威期刊«经济研究»排第3位,主要原因是其新扩散因子排第8位,载文量排第10位,但关键词指数不高,仅排66位.在传统的CSSCI评价中«经济研究»肯定排在第一,但这主要是从期刊影响力角度进行排序的,本文排序不一致,恰好说明信息密度因子提供了期刊的一些新的信息.期刊信息密度因子描述统计如图2所示,其均值为0.149,极大值为0.205,极小值为0.083.有趣的是,在许多文献计量指标并不服从正态分布的情况下,期刊信息密度因子的JarqueGBera检验值为1.147,p值为0.564,不能拒绝正态分布的原假设,即期刊信息密度因子服从正态分布,这是作为评价指标的一个较好性质.

3.2.2期刊信息密度因子构成要素之间的关系

首先,期刊信息密度因子指标,综合了关键词指数、新期刊扩散因子和载文量3个指标,而这3个指标又都与期刊的载文量直接相关,在一定程度上可能导致对“载文量”数据的过度性(或冗余性)使用依赖,有可能会降低期刊信息密度因子的评价效果.如果载文量指标统计比较复杂,这个问题当然需要重视.但是载文量作为文献计量学的基础指标,界定清晰,统计相对简单,不会带来统计误差,因此不会带来对关键词指数、新期刊扩散因子统计的影响。其次,有必要分析关键词指数、新扩散因子和载文量的关系,或者其原始信息提供能力.在期刊信息密度因子的构成要素中,关键词指数、新期刊扩散因子中的载文量都在分母上,与关键词指数、新期刊扩散因子负相关,而载文量指标作为一个单独的指标,是正向的.这样两个指标负相关,一个指标就是载文量自身,是正向的,正负指标共同作用会产生一定的稀释效果,从而降低了期刊信息密度因子与载文量之间的关系,总体上是值得肯定的.关键词指数和新扩散因子之间正相关,相关系数不高,为0.153,关键词指数与载文量负相关,相关系数也不高,为-0.348,新扩散因子与载文量也是负相关,相关系数也较低,为-0.369.相关系数同时有正有负,总体相关度不高,说明这3个指标均能提供独立信息,冗余信息较少,是理想的评价构成要素.

3.2.3文献计量指标与期刊信息密度因子的关系

期刊信息密度因子与影响因子、h指数、载文量的关系如表4所示.期刊信息密度因子与影响因子的相关系数为0.419,与h指数的相关系数为0.707,与载文量的相关系数为0.633.信息密度与影响因子相关度较低,说明其能够提供除了期刊影响力以外的其他信息.h指数是一个兼顾影响力和质量的指标,其与信息密度相关度较高,说明信息密度一定程度上反映了期刊的质量和影响力.信息密度与载文量相关度中等,这是因为信息密度计算时已经包括了载文量因素.

3.2.4独立样本t检验

(1)影响因子高低对期刊信息密度的影响

将影响因子由高到低排序,最高的为«经济研究»,影响因子为18.793,最低的为«世界经济与政治论坛»,影响因子为2.643.大致根据30∶70的比例进行分类,影响因子高于7的期刊有20种,据此将期刊分为高影响因子期刊与低影响因子期刊.高影响因子期刊信息密度因子的均值为0.159,低影响因子期刊信息密度因子的均值为0.144,两者相差不大.独立样本t检验值为1.928,p值为0.058,不能拒绝原假设,因此影响因子与期刊信息密度因子无关,这一点和回归分析的结果一致.由于影响因子在学术期刊评价中所占地位比较重要,而期刊信息密度因子与其不相关,这是作为评价指标的一个非常好的性质.

(2)h指数高低对期刊信息密度的影响

将h指数由高到低排序,最高的为«经济研究»,h指数为66,最低的为«劳动经济研究»,h指数为11.同样大致按照30∶70的比例进行分类,h指数高于30的期刊有21种,据此将期刊分为高h指数期刊与低h指数期刊.高h指数期刊信息密度因子的均值为0.173,低h指数期刊信息密度因子的均值为0.138.独立样本t检验值为5.446,p值为0,拒绝原假设,说明高h指数期刊的信息密度均值大于低h指数期刊.

(3)载文量高低对期刊信息密度的影响

将载文量由高到低排序,继续大致根据30∶70比例进行分类,发现2016-2017年载文量超过300篇的期刊共有18种,最高的是«税务研究»,载文量为615篇,最低的为«世界经济文萃»,载文量仅为76篇.18种高载文量期刊的平均期刊信息密度因子为0.175,剩下的52种低载文量期刊信息密度因子均值为0.139.独立样本t检验值为5.410,p值为0,拒绝原假设,说明高载文量期刊的平均信息密度要高于低载文量期刊的平均信息密度.

4结论与讨论

4.1学术期刊信息密度问题应该引起足够的重视

最近10年来我国CSSCI核心期刊和经济管理类期刊的载文量出现持续下降的现象,这在人文社会科学经费投入快速增加的背景下是不正常的,其主要原因是影响因子操控问题.学术期刊试图通过控制载文量来提高影响因子,但这样做牺牲了期刊的知识和信息量,浪费了办刊资源,而且目前通过载文量操控影响因子现象主要出现在中国,这非常不利于我国学术期刊界的整体形象,对于这个问题必须引起足够的重视.

4.2信息密度因子可以用来测度期刊的信息密度

本文采用新扩散因子、关键词指数、载文量3个指标标准化后进行调和平均来反映信息密度,这3个指标之间相关度较低,能够提供独立原始信息.基于经济学期刊的数据,综合采用相关系数、回归分析、独立样本t检验的研究表明,期刊信息密度因子与影响因子不相关,与h指数和载文量正相关,能够提供除期刊影响力以外的信息密度信息,并且期刊信息密度因子服从正态分布,是一个较好的期刊评价指标.

4.3期刊评价指标设计应该具有动态防人为操控功能

影响因子操控现象在学术期刊中并不鲜见,载文量下降仅仅是其中的一种.文献计量指标的设计应该随时跟踪学术期刊的宏观发展动态,针对其中存在的问题进行动态设计.期刊信息密度因子的推广有利于防止载文量异常下降,在目前应该作为期刊的评价指标,如果学术期刊信息密度发展逐渐恢复正常,学术质量得到有效保证,那么期刊信息密度因子在评价中的权重可以适当降低。