医学期刊统计学错误思考

医学期刊统计学错误思考

本文作者:张巧莲 郑玉建 单位:新疆医科大学学报编辑部 新疆医科大学公共卫生学院

在医学论文写作中,医学统计学方法应用是必不可少的,正确使用能保证科研工作顺利进行,并使科研成果更具有科学性、代表性和可靠性。反之,如果使用不当或者误用,会直接影响研究结果的质量,反而会使读者产生误解,甚至有时会导致错误的结论。近年来,医学统计学方法在医学科研中的应用越来越受到国内广大医学科研工作者的重视,统计分析结果表达已成为医学论文中一个不可缺少的重要组成部分。医学统计学是评价医学科技论文质量优劣的重要依据,然而从近年发表的论文来看,有不少作者对统计方法的使用还不熟悉,实际应用中统计方法滥用、错用和误用的情况时有发生[1]。据国外20世纪60年代到80年代对不同医学期刊的调查,有统计学错误的论文比例最高者达66%,最低者也有20%[2-4]。国内有学者对5种中华医学会系列杂志论著中统计学方法的应用状况进行了调查,结果显示,1985年统计错误的论文比例为24%,1995年为36%[5]。这些调查研究均说明统计方法误用的严重性以及正确应用的紧迫性。国外从20世纪70年代起就有针对医学论文的科研设计与统计方法应用情况的调查研究,国内学者也进行了相关研究[6]。这种研究有助于及时了解医学科研论文中统计方法的应用质量,发现存在的问题,提高医学科研工作者应用统计方法的水平。笔者总结了近年来已发表的医学科技论文中常见的统计学问题,希望能引起各位专家学者和临床医生的共识与重视,促进我国医学期刊质量的提高。

1 统计设计存在的常见问题

统计设计是整个研究中最重要的一环,是研究工作应遵循的依据。常见的统计设计问题有:忽视组间均衡性,样本缺乏代表性,样本例数不足,未设置对照组,未随机分组,未提出统计分析方法等。针对以上问题,在科研设计中一定要遵循实验设计的四大原则即“随机、对照、均衡、重复”的原则[6]。

1.1不遵循或不重视随机化原则

随机化是科研设计的重要原则,直接影响研究结果的可信度。随机化既要随机抽样,还要随机分组,并有足够的样本量作前提。然而,在医学论文中许多作者对此不够重视,主要表现在论文中统计处理随机化不突出,随机化缺失情况比较常见,有的论文甚至将随机误解为随意、随便,不采用随机化处理方法,导致结果缺乏可靠性。还有些文章中没有提出“随机”抽样的设计与方法,没有排除标准,给人随意选择病例之感,且病例数少,因此没有代表性,所得出的结论不可靠。部分文章虽然注明了“随机”,但未提及采取什么方法进行随机化研究或两组间的例数相差甚远,不符合随机化的一般规律,没有临床参考价值[7]。

1.2缺少对照研究或对照组设计不合理

正确设立对照是临床或实验研究的一个核心问题,设立对照的意义在于说明临床试验或实验研究中干预措施的效应,减少或防止偏倚和机遇产生的误差对试验结果的影响。目前,国内许多期刊发表的论文对照组设计不合理现象比较普遍,尤其有些作者对某种新药或新技术在临床的应用观察研究中,不设对照组,缺乏对照观察,得出的结论缺乏科学性,令人怀疑。有的文章虽然设立了对照组,但在分析结果时,却没有将试验组与对照组的结果进行比较,而仅将各组间的自身前后进行比较,从而使该研究失去对照意义。对照组选择不当,还表现在两组间重要的临床特征和基线情况相差太大,无可比性,如性别、年龄、病情、经济情况和文化程度等不一致,如有些论文将健康人或志愿者作为对照组,使结果受到非处理因素的影响,产生偏倚或系统误差,使结论不可信[7]。

1.3均衡性原则掌握不够

均衡性原则要求实验中的各组之间除处理因素不同外,其他可控制的非处理因素要尽可能保持一致。特别对疾病预后有重要影响的临床特性一定要在组间分布均衡。各组间越均衡,可比性越强。有些作者在对病例进行分组时,忽视了均衡性原则,两组之间没有可比性,结论自然是错误的。具体表现在:有的文章对治疗组与对照组的相应统一指标没有设在均衡的水平上。对治疗组情况交代的比较详细,而对对照组的年龄、性别、病情等不予交代,或所选对照组的年龄与治疗组不在一个年龄段,影响了作者对指标的观察[7]。

1.4重复的原则掌握不好

所谓重复,一是指重复试验或平行试验,二是指各样本组的例数要有一定的数量,即样本的例数要足够大。虽然随机化是增强非处理因素均衡性的重要方法,但当各组内例数过少时,尽管采用了随机化分组的方法,也难以保证非处理因素的均衡一致。在随机化分组的基础上,只有样本例数足够大,才能使非处理因素均衡一致,同时也才能使抽样误差减小,增强样本对总体的代表性。一般来说,在随机分组的前提下,样本例数越大,各组之间非处理因素的均衡性越好;但当样本量太大时,往往又会给整个实验和质量控制工作带来更多的困难,同时也会造成浪费。为此,在实验设计时,还应保证在实验结果具有一定可靠性的前提下,确定最少的样本例数。一般说来,计数指标每组样本不得少于20~30例,计量指标每组样本不得少于5~10例。在多因素分析时,一般认为样本例数至少为观察指标的5~10倍[8]。

1.5样本的含量

样本的含量的大小直接影响到结论的可靠性。样本量过少,则抽样误差大,结果可靠性差,且经不起重复验证;反之,盲目加大样本量也会造成人、财、物的浪费,同时也造成非抽样误差增大。故应在保证研究结果精确可靠的前提下,确定最小的样本量。如某篇论文报道某药治疗的临床疗效,实际总例数为10例,其中6例有效,于是作者得出有效率为60%。显然,有限的病例数不能充分说明该药是否有效,作者贸然得出结论,容易给他人造成假象甚至误导[9]。

2 统计方法选择与使用不当

在选择统计方法之前,首先应确定研究资料是计数资料还是计量资料。只划分其类别而得到的资料为计数资料,也叫定性资料,如根据治疗结果计算出的治愈率、阴性率、阳性率等。测定某个具体数值而得到的资料为计量资料,如血压值、血细胞计数、血氧分压测定等许多物理诊断和化验检查的结果。目前,医学论文中计数资料最常用的统计方法为χ2检验,计量资料最常用的统计方法为t检验。值得注意的是,各种假设检验方法均有其适用条件,应根据资料特点来选用最适当的方法。均数与标准差分别是描述正态分布资料集中和离散趋势的指标。能否选用“均数±标准差”来描述某一资料的分布特征,关键看该资料是否符合正态分布。当资料不符合正态分布或方差不齐时,应将资料转换使之符合正态分布,方差齐性后再用t检验或方差分析,否则用秩和检验。有些作者在使用t检验时,未考虑到上述适用条件而盲目使用,造成统计学处理不当或统计学计算错误[10]。#p#分页标题#e#

2.1统计指标应用不当

2.1.1描述计量资料的统计指标描述计量资料的统计指标主要有平均数指标(算术均数、中位数M等)和变异指标(标准差s和四分位数间距Q等),在应用时一定要注意它们各自的适用范围。对于非对称分布资料,算术均数不能反映数据的平均水平,应采用中位数描述。一般地,正态资料或对称资料用描述,偏态资料用M和Q来描述。在不能确定数据的分布类型时,应选用M和Q进行统计描述。四分位数间距Q是75%分位数P75和25%分位数P25之差,即Q=P75-P25,所谓百分位数Px是将全部观察值分为两部分,理论上x%的观察值比它小,(100-x)%的观察值比它大,中位数M是50%分位数P50。、s、M、Px与Q可通过统计软件直接输出[9]。

2.1.2描述计数资料的统计指标描述计数资料的统计指标有绝对数和相对数。绝对数是原始资料经汇总得到的小计或总计数。相对数是两个有关的绝对数之比,主要包括率和构成比(百分比)。医学论文中相对数应用的主要问题之一是分母较小。分母较小时,相对数的可靠性不能保证,在这种情况下,宜直接用绝对数进行描述而不宜计算相对数。医学论文中相对数应用的主要问题之二是将构成比误用来说明事物发生的强度。构成比只能反映事物的内部构成,不能说明事物的发生强度。医学的研究对象主要是人以及与人体有关的各种因素。由于生物现象的变异较大,各种影响因素又错综复杂,研究常是抽样观察,使事物本质差异与抽样误差混杂,故需用统计方法透过偶然现象来探测其规律性。如果不能正确运用统计学方法,造成统计学上的偏差或失误,就很容易把本来成功的结果当成失败而放弃,或把失败的教训误认为成功的结论而加以宣传。在进行科研设计时要严格遵循科学的统计学分析方法,不能留下隐患,否则,再高明的统计学专家和统计学软件也无法弥补科研设计缺陷造成的损失。总之,统计学分析在医学研究和论文写作中意义重大。作者在撰写论文时,应注意识别、总结有代表性的、有借鉴意义的统计学领域的缺陷、失误或错误的多发点,特别留心易出现统计错误的险区,从而使论文中的统计学问题减到最低限度。认真检查、仔细核验,尽量避免上述错误,必要时还可以请统计学专家帮助把关[12]。

2.2统计方法描述或选择不当

统计方法选择非常重要,它直接影响结论的可靠性[12]。临床资料的结果变量可分为计数资料、计量资料和等级资料。计数资料指将观察对象按两种属性分类,如生存、死亡,治愈、未治愈,有效、无效等,通常转化为率。如果是两组间的比较,则采用四格表χ2检验或其校正公式,如果是多组间率的比较,则采用行×列表资料χ2检验。计量资料指对某一个研究对象用定量的方法测定某项指标得到的资料,一般均有计量单位。通常资料呈正态分布时,两组间均数比较用t检验,多组间均数比较用方差分析和q检验。当资料不呈正态分布或方差不齐时,也可用秩和检验等非参数检验法。

2.2.1统计方法描述不清

医学论文中常可发现作者未交代所用的统计方法,如是配对设计的t检验还是成组设计的t检验,是Ridit分析还是χ2检验,是作相关分析还是作回归推断。统计方法交代不清或根本不予交代,使读者对论文结论的正确与否无法判断。有的作者只提一句“经统计学处理”后,就写出结论。有的甚至直接用P值说明问题,笼统地以P<0.05或0.01、P>0.05便称结果差异有无显著性,P值的大小不说明差值的大小,它还与抽样误差大小有关[13]。因此,还应写明具体的统计方法,如有特殊情况,还应说明是否采用了校正,应写出描述性统计量的可信区间,注明精确的统计量值和P值,然后根据P值大小作出统计学推断,并作出相应的医学专业结论。

2.2.2假设检验方法交代不清不交

代假设检验方法或假设检验方法交代的不具体、不清楚是医学科研论文中常见的错误。如果不交代假设检验方法或假设检验方法交代的不具体,读者就无法考察论文的统计学方法选择的是否正确,无法核对计算结果是否准确。每一种假设检验方法都有其特定的适应条件和严格的适用范围。对于同一组资料,采用不同的假设检验方法可能得出截然相反的结论。如将配对设计的资料按成组设计资料的方法处理,将会损失样本提供的信息、降低检验效率,可能使原本有统计学意义的结果无统计学意义[14]。在论文写作时,不但要交代选用的是什么统计学方法,而且统计学方法要尽可能具体。如选择t检验,要说明是配对t检验,还是成组t检验;选择方差分析时,要说明是完全随机设计的方差分析,还是配伍组设计的方差分析。对于四格表资料,应说明是一般四格表χ2检验、配对四格表χ2检验及四格表资料的精确概率法等。

2.2.3统计方法选择常见错误

①误用χ2检验。χ2检验有一定的适用条件,n>40且理论数(T)>5时,可用一般χ2检验;n>40,但至少有1个T>1且T<5时,可用校正χ2检验;n<40或T<1时用χ2检验的确切概率法[15]。②t检验误用于多组资料的比较。在医学期刊中常会出现将t检验误用于多组资料的比较。多组资料的比较应该采用方差分析(F检验),当差异具有统计学意义时,再进一步作两两比较。当各组均与一个对照组比较时采用Dunnettt检验;当各组相互循环比较时,则常采用Student-Newman-keuls(SNK)检验,又称q检验[16]。③配对t检验与成组t检验误用。大部分论文只注明采用t检验,而未注明是配对t检验还是成组t检验。配对t检验常用于处理前后的自身对照,即差值均数与总体均数“0”的比较;成组t检验适用于成正态分布的两个小样本均数间的比较。④资料不呈正态分布时未用非参数检验。t检验F检验等适用于呈正态分布、方差齐且有确切的测量数值的资料,而非参数检验(如符号检验、秩和检验Wilcoxon法、秩检验-KruskalWallis法、Friedman法、Ridit分析、Seperman相关等)对资料无特殊要求,对按大小顺序、评分、等级、反应程度甚至色调深浅等资料都可进行分析比较[17-18]。因此,对于多组计量资料的比较,呈正态分布且方差齐时用F检验,方差不齐时可用变量变换,或采用秩和检验;对于两个小样本均数的比较或处理前后的比较,方差齐时用成组t检验或配对t检验,方差不齐时用t′检验[19]。

3结果解释时存在的问题

统计分析的结果是推翻无效假设或是不能推翻无效假设。无效假设在一般的统计检验为两组总体参数相等。推翻无效假设只能说两组总体参数不相等而并不能说两组相差很大。两组相差如何要对可信区间进行研究观察后得出。由于统计检验不能得出差别的大小,因而结论不能说“有明显差异”或“有显著差异”,也不能说“差异非常显著”,更不能说“差异明显”。在国外的统计书籍上的英语表达为“significant”,它的正确意义应当是“有意义的、有重要性的”。俄语为“Значмый”和日语中的“有意”也是这个意思。国内只有极个别的英汉词典把“significant”误译为“显著的”。正确的说法应当是“差异有统计学意义”或“差异有高度统计学意义”等[20]。在解释差别有统计学意义的结果时,有些人常常根据P值的大小作出对实验效应差别程度不同的专业结论[21]。例如某实验研究,比较甲、乙两种治疗方法对某病的治疗效果(假定甲法的疗效优于乙法),若得到“P<0.001”,则认为甲法极显著优于乙法;若得到“P<0.01”,则认为甲法非常显著优于乙法;若得到“P<0.05”,则认为甲法显著优于乙法。犯这种错误的原因是错误的理解了统计学中P值的概念[7]。统计学上根据假设检验原理推算出来的P值表示拒绝特定的无效假设可能犯假阳性错误的概率。P值的大小并非指差异的太小,只能反映两者相同或不相同。P值越小,说明越有理由认为两种处理方法效果不同,而不能反映对比的两组或多组之间差异的大小。差异的大小只能根据专业知识来确定。此外,甚至在部分投稿文章中未交代所采用的统计分析方法,也未见应用统计学的迹象,仅从各组数据的均数大小做出了统计推断。医学期刊论文中暴露出来的统计学错误,从表面上看是编辑部和审稿者把关不严所致。事实上,即使审稿时发现了上述错误,也无法改正。因为实验设计的错误只有在科研工作开始之前才有可能得到纠正。即使编辑工作者能够阻止有严重统计学问题的,也仅仅是治标而已。如何使广大医学论文作者在医学研究中正确应用统计学,提高科研质量才是治本[7]。#p#分页标题#e#

4对策与建议

众所周知,统计学是从事科学研究不可缺少的工具。从试验设计、资料收集与表达、数据处理和结果分析,每一个环节都需要正确地运用统计知识,才能真正发挥统计学在科学研究中应起的作用。然而,在已出版和发表的一些学术专著和论文中、通过评审的科研成果和答辩的学位论文中,经常可以看到忽视、轻视和误用统计学的现象[22]。

4.1提高编辑人员的统计学

知识应完善编辑人员的知识结构,保证统计学应用的准确性。为此,可定期聘请统计学专家对审稿人员进行统计学知识培训。科技期刊的群体效应理论[23]认为,期刊编辑的专业结构应多元化,以利于编辑互相学习,实现知识互补。医学期刊编辑部可考虑聘用统计学专业的研究生作为编辑。编辑应将医学统计学作为自己的必修课,通过多种方式,如自学自修,参加讲座或培训班学习统计学知识,有条件的编辑部,如医学院校学报编辑部,可以有计划地组织编辑参加本科生或研究生医学统计学课程的学习,也可鼓励编辑人员在职攻读统计学专业研究生学位。这样,可以提高全体编辑人员的统计学水平,最终使编辑和审稿人都能够发现论文中存在的统计学错误,并指导作者修改,正确进行医学论文中有关统计学分析的描述[24]。另外,有关职能部门或学会可组织与医学统计学相关的培训班,聘请统计学专家讲课,对编辑人员进行定期统计学知识培训,加强科研设计、统计学知识的学习[19]。

4.2加强医学统计学专家审稿

医学研究论文专业性强,经常涉及统计学处理问题,有时会遇到统计方法复杂的稿件,这不仅需要本学科专家审稿,而且需要医学统计专家把关,只有这样,才能保证论文所报道的研究成果的真实性和可靠性。医学期刊编委会中应有统计学专家,专门负责稿件统计学方面的审查工作。

4.3强化作者的统计学意识

目前,我国医学科研工作者对统计学的重视不够,没有认识到统计学的重要性。因此,要加强宣传,提高医学科研人员对统计学重要性的认识,强化他们的统计学意识,务必在科研工作中和撰写论文时做到正确应用统计学。另外,还可以对作者开办有关科研论文撰写知识的培训班,面向临床医生,特别是年轻医生定期培训。请有研究经验的专家讲授科研课题的设计方法、如何正确运用统计学方法等。这些措施有利于强化作者的统计学意识,并树立其精品意识,有利于增加优质稿源,从而提高期刊学术质量[19]。

总之,提高医学期刊中统计学应用的质量是一项长期而又艰巨的工作,它涉及到作者、编者、审者及读者等多个方面,需要大家共同努力,才能逐步减少以至消除统计学误用现象,从而提高医学论文的科学性[14]。