聚类分析论文范例6篇

聚类分析论文

聚类分析论文范文1

[摘要]文章以CNKI《中国优秀硕士学位论文全文数据库》中收录的2588篇高等教育学硕士学位论文为数据源,利用BICOMB、Excel2010和spss20.0软件进行数据提取和共词聚类分析,研究了各高频关键词之间的关系,探索了我国高等教育学硕士学位论文的研究热点,并在此基础上进行了一系列深度思考和趋势预测。  

聚类分析论文范文2

【关键词】山西省 物流 聚类分析

一、导论及相关文献综述

经济全球化催生了许多新事物的出现和繁荣,加强了世界上不同国家及地区之间的经济往来和专业化分工,一件商品从设计、生产到最后的销售,有可能都会在不同的国家和地区,同时生产所需的原材料也往往是集中在某一地区,因此生产要素和商品都需要在不同的地区进行自由流通,在这种大背景下,物流越来越深入到生产的各个环节中,他已经成为经济运行的一个重要环节,其发展的进度已经是一个衡量国家综合国力和现代化的一个标志,有学者将物流誉为是企业的“第三利润源”。中国的物流行业起步较晚,但随着中国经济的不断发展,我国的物流行业保持着高速的增长,物流业的运行也日益规范与成熟,相关的物流体系不断完善。在《中共中央关于制定“十二五”规划的建议》的主要内容中,有一部分是要大力发展服务业,让服务业的发展成为我国目前产业结构优化战略的重中之重。然而,现代物流业作为我国国民经济的加速器,必将引来全新的发展机会。

季模模(2010)在硕士论文中运用主成分分析和聚类分析法,从物流规模、效益、结构、需求、环境五个方面对浙江省的物流竞争力做出了综合评价和分析。孙祖斌(2010)采用的研究方法是波特五力模型,他通过定性分析,提出生产要素,需求条件,相关支持性产业,企业战略和市场竞争影响是影响快递业发展的四个比较重要的方面,本文在构建指标体系中考虑到了需求条件和相关支持性产业。徐晓妹(2010)在硕士论文中运用主成分分析和聚类分析方法,从经济发展水平、市场供需状况、交通支撑条件和其他支撑条件四个方面对安徽省各城市的物流竞争力做出了综合评价。朱中华(2010)在自己的硕士论文中,对江西省内11个城市的物流发展水平进行了主成分聚类分析。研究方式选择了定性与定量相结合,使用组合预测的方法,对江西省11个城市的物流需求量进行了预测。

二、聚类分析基本思想及计算步骤

古语说的好“物以类聚,人以群分”。分类问题在科学研究中是最常见的。聚类分析就是研究分类问题的一种多元统计方法,聚类分析的目的是把相似的或相近的对象量化归并成类,通常分为Q型聚类和R型聚类。其中对样本进行分类处理的是Q型聚类,对变量进行分类处理的是R型聚类,文中选用的是Q型聚类。

系统聚类分析的基本思想是:根据一定的方法计算样本之间的距离,然后先把彼此之间离得较近的样本归为一类,把离得较远的样本后聚成类,反复进行此过程,最后将每一个样本都归到合适的类别中。

系统聚类过程是:假设总共有n个样品,

⑴将我们所选取的样本单个聚成一类,这样下来,一共聚成n类;

⑵根据距离公式计算每一个样本彼此之间的距离值,将距离较近的两个样本聚成一类,其他的分类不变,共聚成n-1类;

⑶再继续将距离相近的两类聚成一类,共聚成n-2类;

不断的进行此过程,直到将所有的样品聚成一类,这一聚类过程可以用树形图来形象的表示出来。

三、聚类分析及结论

对山西省各个地区的物流发展水平梳理和分析,可以用所选取的11个指标进行聚类,这样一来变量比较多,计算过程烦复并且出错率高,本文在前面通过主成分分析,已经得出了2个能够反映原始变量绝大多数信息的综合主成分指标,并且彼此之间互不相关,所以本文直接采用了这2个主成分指标,用系统聚类分析对山西省各个地区的物流水平进行了分析,得到树形图4-2,这样可以大大简化研究过程。

聚类分析论文范文3

关键字:创业板 灰色聚类 股票投资分析

中图分类号:F830.91 文献标识码:A

文章编号:1004-4914(2010)08-107-03

一、引言

中国创业板市场自2009年10月30日启动以来,其基本面的变化与市场表现受到了社会各界的极大关注。在中国发展创业板,为那些具有发展前景的创新高科技型公司提供了一个不可多得的融资渠道。截至到2010年3月10日,已有58家公司在创业板上市。这些公司的共性是:成立时间短,规模小,具有较高的成长性。但是,由于上市门槛低,这些公司的投资资质良莠不齐,有些公司实力强劲,有些公司实力较弱。如何从创业板的众多公司中,选择出具有投资价值的公司股票,对发展完善股票投资价值的理论研究、帮助投资者做出合理的投资决策,都具有重要意义。

在对股票投资价值研究的诸多方法中,聚类分析以其重要的理论与应用价值受到了众多学者的青睐。学者们对应用聚类理论进行股票投资价值研究进行了广泛而深入的探讨。通过文献梳理,笔者发现目前利用聚类分析对股票投资价值的研究存在以下倾向:一是研究对象,偏重于对主板市场和中小企业板市场的股票研究。二是研究方法,多采用传统聚类分析方法,如系统聚类法、分解法、动态聚类法。三是研究思路,通常以大样本面板数据或大样本横截面数据展开实证分析。

然而,创业板市场作为资本市场的新生力量,具有以下特点:可供交易的股票个数少;企业披露的财务信息不完备。此时如果继续用经典的聚类方法作为分析工具,其分析结果的科学性将无法保证。

对此,本文将灰色系统理论的“小样本”、“贫信息”思想引入创业板股票投资价值的评价研究中。采用灰色系统理论中的灰色聚类方法,尝试对创业板中的11支股票按照6项聚类指标进行灰色聚类,通过计算不同指标的灰色聚类系数,最后以聚类类型来定性评价股票的投资价值,从而为投资者提供理性的投资参考数据。鉴于灰色理论在股票投资价值方面的研究应用较少,本文对股票价值的灰聚类研究是一个有益的探索。

二、灰色聚类理论概述

灰色系统理论以“部分信息已知,部分信息未知”的不确定性系统为研究对象,是一种处理“小样本”“贫信息”数据、解决灰类问题的有效方法。近年来,灰色系统理论不仅在理论上迅速发展、日臻完善,而且在实践中得到日益深入和广泛的应用。其中,灰色聚类理论是灰色系统理论的一个重要分支。

灰色聚类是根据灰数的白化函数将观测对象聚集成若干个可以定义类别的方法。灰色聚类通过将聚类对象对于不同聚类指标所拥有的白化数,按几个灰类进行归并,经过计算所有指标的综合效果,判断聚类对象所属灰类。灰色聚类的分析过程通过以下步骤完成:

1.设有n个聚类对象,m个聚类指标,s个灰类;dij为第i个聚类对象对于第j个聚类指标的样本值,其中1≤i≤n,1≤j≤m。则样本指标矩阵为D=(dij)n×m。

2.将n个对象关于指标j的取值相应地分为s个灰类,称之为j指标子类。j指标k子类的白化权函数记为fkj(dij)。白化权函数的表达式为:

上限测度白化权函数

三、指标体系的建立与样本选取

1.指标体系。通过梳理前人研究的成果,结合创业板上市公司股本规模小、成长潜力大的特点,本文选取每股收益(di1)、净资产收益率(di2)、每股现金流(di3)、主营收入增长率(di4)、净利润增长率(di5)、每股净资产(di6)这6项财务指标组成灰聚类财务指标评判体系,从盈利能力、成长能力和扩张能力三个大的方面对股票的投资价值进行考察。

2.样本的选取。本文选取在创业板上市,并于2010年3月10前已经披露2009年年报的11家公司组成样本集。本文的数据均来自于国泰君安经济数据资料库。

四、实证分析

1.指标数据标准化。为消除原始指标数据量纲和数量级的差异所带来的影响,本文按照下式对指标数据进行标准化:

dij=dij/max(dj)(6)

其中,dij为i公司第j个指标的样本,max(dj)表示第j项指标的最大值。采用此式对数据进行标准化的优点是,同一指标内部相对差距不变,且解决了不同指标间的相对差距不确定的问题,同时保证了标准化后极大值都为1。

2.确定指标灰类的白化权函数。本文将每项聚类指标分为3个灰类(k=3),并设定灰类1(k=1)最好,灰类2(k=2)次之,灰类3(k=3)最差。灰类1的白化权函数表达式依据公式(1)写出,灰类2的白化权函数表达式依据公式(2)写出,以此类推。

同理,写出净资产收益率、每股现金流、主营收入增长率、净利润增长率、每股净资产的优、中、差灰类的白化权函数。将对象i关于j指标的样本值dij带入j指标的k类白话权函数,计算出dij关于k灰类的白话权函数值。

3.确定j指标k子类的临界值λkj。根据λkj=X1,写出j指标k子类的临界值λkj。临界值是区别不同灰类的数值标志,反映了由某一灰类过渡到另一灰类界限。

表3说明,聚类指标优等灰类的临界值λ1j在0.6至0.8之间,当样本值dij超过λ1j时,便离开中等灰类区间,进入优等灰类;聚类指标差等灰类的临界值λ3j在0.15至0.3之间,当样本值dij低于λ3j时,便离开中等灰类区间,进入差等灰类。在优等灰类和差等灰类的临界值之间,属于中等灰类的范围。样本值dij越接近λ2j,其隶属于中等灰类的可能性越大。

4.计算j指标关于k子类的权重ηkj。按照公式(4),计算出j指标关于k子类的权重ηkj,为进一步求得灰色聚类系数σkj做准备。权重系数刻画了指标在整体评价中的相对重要程度。由表4可以看出,在3类权重系数列向量中,每股收益指标的权重系数ηk1数值最大,依次为0.2、0.21、0.33。这说明每股收益指标在本文的指标评价体系中是最重要、最能有效甄别股票投资价值大小的财务指标。位列第二的是每股净资产这一指标,其余4项指标对股票投资大小的影响则较为平均。

5.确定灰色聚类系数σkj。按照公式(5),计算灰色聚类系数,σki表示了对象i属于灰类k的程度,σki越大,对象i属于k类的程度越深。经计算,灰色聚类系数如下表所示。

由表6可知,11支样本股票可以分为3类。属于最优类的股票有,机器人,宝通带业,新宙邦,中元化电,万邦达。这类股票的总体特征是每股收益高,每股现金流充沛,净利润成长率显得尤为引人注目。这表明,这类公司正处在大力开拓市场范围的高速成长阶段,是快成长、高盈利、扩张力强的“潜力股”。这应是投资者首选的一类股票。在这类股票中,表现最为突出的是。其每股现金流净利润增长率为14.36元和94.9%,远远超过综合实力排名第二的机器人。

属于第二类的股票有特锐德、硅宝科技、汉威电子。这类股票的特点是净资产收益率较高,净利润增长率保持在一个比较平稳的水平,但成长能力稍显逊色。这表明,第二类公司已经进入稳步发展的阶段,投资这类股票的风险较小。

第三类股票属于低收益、低成长股票。虽然从单项指标来看,钢研高纳的每股现金流和每股净资产都不低,福瑞股份的净资产收益率更是高达33.32%,但是从综合实力来看,这两只股票的各项指标值相差悬殊,远不如其他股票的投资价值高,投资者应谨慎观察其表现,再作出定夺。

五、结论和展望

本文将灰色聚类理论引入股票投资价值的评价当中,为聚类分析股票的投资价值开辟了新途径。本文在介绍灰色聚类理论的基础上,首先建立股票投资价值的指标体系,然后通过计算不同指标的灰色聚类系数,最后以聚类类型来定性评价股票的投资价值。实证结果表明,灰色聚类方法不仅降低了对数据量和信息量的要求,而且能有效区分出具备不同投资价值的股票。

本研究下一步的工作重心是引入行业概念和公司的核心竞争能力这两项新的指标因子,扩大样本集,对创业板股票的投资价值作更深一步的研究。

参考文献:

1.张迎春,陈洁,张晨希,万忠,张燕平.聚类在股票研究中的应用[J].计算机技术与发展,2006,16(4)

2.陶冶,马健.基于聚类分析和判别分析方法的股票投资价值分析―关于中小企业板的初步研究[J].财经理论与实践,2005(26)

3.于华.上市公司子综合评估的聚类与主成分分析[J].西南金融,2007(9)

4.刘思峰,郭天榜,党耀国.灰色系统理论及其应用[M].北京:科学出版社,1999

5.俞立平,潘云涛,武夷山.学术期刊综合评价数据标准化方法研究[J].图书情报工作,2009(53)

(作者单位:刘益平.南京航空航天大学经济与管理学院副院长.会计学教授;王琼瑶.南京航空航天大学经济与管理学院会计学硕士研究生;吉朝阳.长庆油田兴庆路综合服务处办公室主任;朱超余.南京航空航天大学经济与管理学院硕士研究生)

聚类分析论文范文4

关键词:模糊聚类;传递闭包;特征分析;考试分析

中图分类号:TP18文献标识码:A文章编号:1009-3044(2009)33-9579-02

Methed of Examination Analysis Based on Fuzzy Cluster

ZHANG Dong-sheng, JI Chao, ZHENG Wen-kui

(Computing Center of Henan University, Kaifeng 475004, China)

Abstract: Examination analysis based on cluster can cluster the testees with same feature of score to one class, and bring to light the level of knowledge and capability of testees more objectivity and more correctly. The way is to looked upon each examination question as a feature item, and make use of transitive closure for fuzzy clustering analysis. Based on the reselt of the clustering, use the Excel to analysis the clustering feature item farther, to get the reason of the clustering and to validate the reselt of clustering. The simulation show that reselt of examination analysis based on clustering is clear, believable and effective, and can get the hard-won phenomena and rule what by traditional examination analysis. It has important meaning for individuation teaching and education for all-around development, and it is extending and applying worthwhile.

Key words: fuzzy clustering; transitive closure; feature analysis; examination analysis

1 概述

基于聚类的考试分析可以从应试者的全部考试数据中,将各试题得分作为特征值,并依此将应试者划分若干类簇,从而客观、准确地揭示应试者知识点和能力点的掌握情况。相比传统的对试卷所作的信度、效度、区分度等统计学数据的分析,聚类分析可以更深入更全面地表现考生的认知水平和能力水平。例如,一群考生的考试成绩可能均为70分左右,但其对考试的知识点和能力点的掌握情况可能有很大不同,聚类分析可以找出这些差异,而传统的成绩统计分析却难以做到。模糊聚类分析是众多聚类算法中较为成熟和聚类效果较好的一种,包括传递闭包法、直接聚类法和C-划分法等三种分析方法[1-2]。模糊聚类分析已成功应用于数据挖掘、模式识别及经济、管理、生物医学等许多领域。本文作者应用传递闭包法对某考试数据进行聚类分析,取得良好效果。第2节介绍考试数据,第3节介绍聚类算法,第4节介绍仿真实验,第5节分析聚类结果。

2 数据材料

考试数据来自河南大学本科生的某次考试。试卷包括4个大题(仿真题号分别为A、B、C、D),每题25分。全体考生平均成绩78分,符合正态分布。不失一般性,本文抽取得分为78±5分的考生20人的考试数据进行聚类分析。数据见表1。

3 模糊聚类算法

3.1 聚类对象定义

设论域U={x1,x2,…,xn}为被聚类的对象集,其中xi|i=1,2,…,n称为一个样本;每个样本有m个特征指标,即: xi={xi1,xi2,…,xim}(i=1,2,…,n),全部原始数据构成数据矩阵X=(xij)n×m。根据本文表1中的数据,有n=20,m=4。

3.2 数据标准化

为使不同量纲的数据可以相比较,通常需要将原始数据xij压缩至[0,1]区间,这一过程称为数据标准化。通常可以通过2种变幻实现数据标准化[6],即平移・极差变幻(式1)和平移・标准差变幻(式2)。

(1)

(2)

其中: 。

3.3 模糊相似矩阵及其性质

分别计算样本xi与xj的相似度值rij,组成模糊相似矩阵R=(rij)n×n。相似度rij的计算方法有欧氏距离法、数据积法、相关系数法、夹角余弦法、最大最小法等多种。不具一般性,本文的实验数据更适合使用相关系数法,其计算方法为:

(3)

其中:。

如果模糊相似矩阵R的主对角线元素均为1,则称其具有自反性;若主对角线对称元素均相等,则称其具有对称性;若满足R・R?哿R,则称其具有传递性。三个性质同时具备的R称为等价模糊矩阵。只有等价模糊矩阵才可用于模糊聚类。

3.4 传递闭包

容易理解,通过上述方法得到的模糊相似矩阵 具有自反性和对称性,但多数情况(并不总是)不具有传递性;其传递性可通过传递闭包变幻实现。

多次进行矩阵R的自乘运算R・R,直到R2k=Rk为止,此时Ek称为R的传递闭包t(R)・t(R)是模糊等价矩阵。文献[7]给出了传递闭包的详细证明,下面介绍传递闭包的计算方法:

对于模糊相似矩阵R=(rij)n×n,有R・R=R'=(r'ij) n×n,其中

(4)

式中∧表示并运算(取最小值),∨表示或运算(取最大值)。运算过程为:R矩阵的第i行n个元素与第j列n个元素对应两两取小值,然后再取其中的最大值。

3.5 截集取得聚类矩阵

取适当阈值λ(λ∈[0,1]),对模糊等价矩阵t(R)作截集处理,求出聚类矩阵R"=(r"ij) n×n,其中:

(5)

将r"ij为1的相应样本聚合为同一类,聚类完成。容易证明,λ值选取越大,聚合出的类别数越多,选取得越小,则聚合出的类别数越少。 但聚类结果并不矛盾:较粗类别是较细类别的上位类,利用λ取值不同,可获得不同程度的聚类,形成多层次分类结构。特别当λ=0时聚类最粗,λ=1时聚类最细。

4 仿真实验

仿真编程工具:Matlab7.0. 编程实现的主要步骤如下:

Step1. 使用平稳・标准差变幻公式(2)将表1中的原始数据标准化;

Step2. 使用公式(3)计算模糊相似矩阵R=(rij)20×20;

Step3. 使用公式(4)计算传递闭包,得到模糊等价矩阵R'=(r'ij) 20×20;

Step4. 使用公式(5)进行截集处理,取λ=0.85, 得到聚类矩阵R''=(r''ij) 20×20;

Step5. 根据R''得出聚类结果(图1)。

5 结果与讨论

根据上节步骤进行仿真实验的聚类结果为:第Ⅰ类:{02,09,13,17},第Ⅱ类:{04,07,08,12,16, 19},第Ⅲ类:{05,06,14,18},第Ⅳ类:{03,15},第Ⅴ类:{11,20},第Ⅵ类:{01,10}。

为验证聚类结果是否可信和有效,本文将表1中的原始数据导入Excel工作表,添加上述类别列,再分别按类别求各特征项均值,结果见表2。

容易发现,第Ⅰ类的聚类依据是A题得分较低;第Ⅱ类的聚类依据是B题得分较低;第Ⅲ类的聚类依据是C题得分较低;第Ⅳ类的聚类依据是D题得分较低;第Ⅴ类的聚类依据是D题得分较高;第Ⅵ类聚类依据是4个题得分比较均衡.。证明聚类是可信和有效的,聚类结果的意义是明确和有用的。

6 结束语

基于聚类的考试数据分析,其主要分析对象虽然也是试题分数,但聚类分析的意义明显优于仅以成绩值的比较和排序所进行的试卷分析。如果按传统的成绩值分析方法,本文所列举的20位考生应属于同一类,但聚类分析却可以更加深刻和准确地找出这些学生知识点和能力点掌握的不同情况,并将其自动划分为若干类。聚类结果可用来有的放矢地指导个性化教学和素质教育,因此,基于聚类的考试分析值得更加深入地研究探讨和更加广泛地应用于各级各类教学和评估测试活动。同时,该方法清晰、规范、稳定,容易编程实现,可嵌入已有的考试系统或教育、教学软件中运行。

参考文献:

[1] Carl G Looney. A Fuzzy Clustering and Fuzzy Merging Algorithm[D]. Computer Science Department/171, University of Nevada, Redo, NV89557,1999.

[2] Keller A. Fuzzy clustering with outliers[C]//Proceedings of the 19th International Conference of the North American Fuzzy Information Processing Society. Atlanta, USA: IEEE, 2000: 143-147.

[3] 皋军,王士同.具有特征排序功能的鲁棒性模糊聚类方法[J].自动化学报,2009,35(2):145-153.

[4] 冯梅.基于模糊聚类分析的教师课堂教学质量评价[J]. 数学的实践与认识,2008,38(2):12-15.

[5] 杨淑莹.模式识别与智能计算―Matlab技术实现[M].北京:电子工业出版社,2008:271-298.

[6] 梁何松,曹殿立.模糊数学及其应用[M].北京:科学出版社,2007:72-75.

[7] 胡宝清.模糊理论基础[M].武汉:武汉大学出版社,2004:148-175.

聚类分析论文范文5

〔关键词〕Scientometrics;信息可视化;文献共被引分析

〔中图分类号〕G250.252 〔文献标识码〕A 〔文章编号〕1008-0821(2012)10-0061-05

科学计量学是20世纪60年代以来,随着科学技术的飞速发展而创生的一门对科学和技术本身进行定量化研究的新兴学科。它是一门实证性很强的应用科学,对于定量地、科学地认识和把握科学的增长(或进步)规律和科学与社会、经济政治及文化意识形态的相互影响程度、发现科学交流系统的机制,制定R&D政策以及从宏观上把握科学研究的方向等,都产生了异乎寻常的影响[1]。1979年,创刊于匈牙利的《Scientometrics》杂志是国际科学计量学研究的第一本专门期刊,同时,该杂志的创刊也在一定程度上标志着科学计量学作为一门学科的正式出现。从创刊至今,《Scientometrics》期刊一直是国际科学计量学研究的前沿理论阵地,也是相关领域研究的核心期刊之一[2]。国内学者从不同角度对其刊载文献数据进行分析[3-4],或者以该期刊为例,进行科学计量指标的研究[5]等。本文在前人研究基础上,对2001-2010年间的数据从文献共被引网络知识图谱和文献聚类分析等进行可视化分析。

1 数据来源与处理

选取《Scientometrics》期刊2001-2010年的刊载文献数据作为分析样本。对下载的数据进行初步的统计分析,以展现国际科学计量学研究的基本现状。图1显示了2001-2010年间《Scientometrics》期刊的载文分布情况,从整体上看期刊的载文量呈逐年上升的趋势,尤其是2008年以后,出现增长迅速的态势。这些文献按照国家分布来看,高产国家主要有美国、比利时、西班牙、中国、英国、荷兰、德国等(图2)。

其中,《Scientometrics》2001-2010年刊载的文献中在Web of Science数据库中被引频次最高的达206次,是Ho Y.S.在2004年发表的《Citation review of Lagergren kinetic rate equation on adsorption reactions》一文。10年间被引频次超过100次的文献共计近10篇(截止2012年6月检索)。

图1 《Scientometrics》期刊载文量按年分布

图2 文献量的国家(地区)分布

本文数据分析主要通过当前国际信息可视化技术研究的先进工具——CiteSpace应用软件系统。它是由美国Drexel大学的Chaomei Chen博士基于JAVA程序语言编写的专门用于引文分析的信息可视化应用软件。软件基于共引分析的原理,通过对文献数据信息的计量和可视化处理,探测和分析学科研究前沿随着时间相关的变化趋势以及研究前沿与其知识基础之间的关系,发现不同研究前沿之间的内部联系。通过对学科领域的文献信息可视化使研究者能够直观的辨识出学科知识结构、研究前沿与知识基础的演进[6-7]。

前10项中,第6项是布朗(Braun T.)发表在《Scientometrics》的关于期刊的H指数计算问题《A Hirsch-type index for journals》。第9项也同样是关于H指数的具体应用问题,瑞安(Van Raan A.F.J.)于2006年发表在《Scientometrics》上的《Comparison of the Hirsch-index with standard bibliometric indicators and with peer judgment for 147 chemistry research groups》一文。

列第二位的是加菲尔德(Garfield E.)于1979年出版的专著《Citation indexing:Its theory and application in science,technology,and humanities》。《共被引指标的理论及其应用》详细介绍了共被引网络的相关指标、理论及其具体的应用案例,已经成为文献计量学领域的经典之作。该专著在Google-Scholar中搜索其被引频次已经超过1 575次(2012年6月17日)。

值得一提的是,位列第三位的节点文献是我国学者周萍(Zhou P.)于2006年发表在《Research Policy》上面的《The emergence of China as a leading nation in science》一文。在共被引网络图谱中,该文从2006年发表以后,引起了学术界的广泛关注,在Google-Scholar中搜索被引频次超过240余次(2012年6月17日),该文的突现度为5.65,说明近年来学术界对该文的引用量和关注度急剧增加,其中心度为0.9,也表明了该文在共被引网络结构中的关键地位。

第四篇文献是丹麦学者英沃森(Ingwersen P.)在1998年发表在《Journal of documentation》上的《The calculation of web impact factors》一文,关于网络影响因子的计算。

第五篇是1990年德国学者艾格(Egghe L.)出版的专著《Introduction to informetrics:quantitative methods in library,documentation and information science》,作为图书馆学和情报科学的定量方法的信息计量学,全面介绍了信息计量学的相关问题。第八篇同样是关于信息计量学的应用问题,丹麦学者艾曼德(Almind T.C.)于1997年发表在《Journal of documentation》上的《Informetric analyses on the World Wide Web:methodological approaches to‘Webometrics’》一文,介绍了万维网的信息计量分析。

第七项是吉本斯(Gibbons M.)于1994年出版的经典专著《The new production of knowledge:the dynamics of science and research in contemporary societies》,新知识产出。最后一项是洛特卡(Lotka A.J.)在1926年发表的经典文献《The frequency distribution of scientific production》。

在文献共被引网络图谱的基础上,我们对文献共被引网络进行了聚类分析,绘制了文献共被引网络聚类图谱,并基于文献标题,使用TF*IDF算法对聚类结果进行了标注(图4)。其中,节点数最多的0#聚类,节点文献发表时间跨度最长,文献平均半衰期也最大,标识词为“统计分析(statistical analysis)”。图谱中最大节点所在的4#聚类的标识词为“H指数(h-Index)”。我们整理了节点数大于5的聚类结果进行分析(表3),探测《Scientometrics》期刊研究的前沿问题。

图4 《Scientometrics》文献共被引网络聚类的知识图谱

其中,Cluster ID是聚类的编号,轮廓值(Sihouette)指的是聚类的“纯度”,也就是聚类中“节点主题的一致性”,轮廓值越高说明该聚类的主题越集中。标识词分别由有3种不同的算法提供,包括TF*IDF、log-likelihood ratio p-level和Mutual Information算法[8]。

0#聚类的标识词是“统计分析(statistical analysis)”,表征了文献计量学的基础方法,该聚类包含的节点较多,共181个节点,其中的主要文献论述了传统经典的引文分析相关问题,如加菲尔德、Small等学者。

4#聚类包含44个节点,文献平均的发表时间为2004年,该聚类研究主题是近年来出现的研究领域。聚类的标识词主要是“h-index,hirsch,scientific research output”,表明该聚类是以Hirsch提出的H指数及其相关理论为主的问题研究。H指数及其相关问题的研究已经成为近年来文献计量学和科学计量学领域研究的热点问题,聚类标识词也出现了由H指数引申的相关指标G指数。

12#聚类包含节点36个,聚类的标识词包括“triple helix,interaction,technology domain,knowledge production,developing technology”,该聚类主要是关于技术领域和知识产出相关的三螺旋理论研究。

7#聚类包含节点13个,节点文献平均发表年份是2000年,聚类的标识词包括“academic web,linguistic,academic web use,linguistic pattern”。该聚类是关于学术网络,语义结构的研究,属于信息科学研究的主要领域。

值得一提的是3#聚类,聚类的标识词出现了“china,researcher,collaboration,metric,contribution”等。这一聚类是关于中国的科研合作及其相关计量问题的研究,新世纪以来,随着中国文献计量学和科学计量学界研究者的不断努力,中国文献计量学和科学计量学的研究越来越引起国际学术界的关注,大量研究成果处于国际领先地位。与此同时,随着中国科技强国战略的实施,中国的科学技术发展日新月异,对中国科学技术及其科研合作等相关问题的研究也为国际文献计量学和科学计量学界的学者提供了大量的突出的研究案例。

3 结论与展望

《Scientometrics》期刊作为国际科学计量学研究的权威期刊和理论阵地,是惟一以“科学计量学”命名的学术期刊,其刊载的学术文献可以在一定程度上反应国际科学计量学研究的热点和前沿问题,代表着国际科学计量学研究发展演进的状况。本文对新世纪2001-2010年的刊载文献数据进行信息可视化分析,通过文献共被引网络分析的科学知识图谱直观展现了科学计量学研究的关键节点文献和研究的前沿问题。近年来,科学发展规律的数量统计分析、H指数及其相关指标研究、三螺旋理论问题、学术网络、语义结构问题;中国科学计量学研究等成为国际科学计量学领域研究的前沿问题。

本文研究在数据的选取和研究的宽度等方面都存在一定的局限性,进一步研究将在此研究基础上,进一步扩展用于分析的数据源和研究的角度。一方面,对国际科学计量学研究知识结构和研究前沿问题的分析,可以将数据源扩展至包括《JASIST》,《Information Science》,《Journal of documentation》等期刊在内的更具代表性的数据样本,或者采用关键词检索的方法,增强研究数据选取的针对性和有效性。另一方面,在本文的文献共被引网络分析的基础上,可以将分析的视角拓展至关键词共现分析、作者、研究机构、国家共现分析等,从多层面、全视角展现国际科学计量学研究的演进历程与现状。

参考文献

[1]魏屹东.国际刊物《Scientometrics》文献计量研究[J].科学技术与辩证法,1995,12(6):40-44.

[2]Editorial statements,Seientometries,1979,(1):3-8.

[3]郭美荣,苏学.科学计量学前沿演进可视化研究[J].情报杂志,2010,29(12):1-4.

[4]王炼,武夷山.从Scientometrics期刊的自引看科学计量学的学科特点[J].科学学与科学技术管理,2006,(2):10-13.

[5]王丽,袁军鹏,王娜,等.学术期刊的引用认同分析——以Scientometrics为例[J].情报杂志,2011,30(2):18-22.

[6]Chen,C.CiteSpace II:Detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society for Information Science and Technology,2006,(57):359-377.

聚类分析论文范文6

[关键词] 最小离差平方和法 主要经济指标 聚类分析

聚类分析又称群分析,是多元统计分析中研究样本或指标的一种主要的分类方法,起源于考古分类学。随着经济和社会的发展,结合了更为强大的数学工具的聚类分析方法已经越来越多应用到经济分析和社会工作分析中。在经济领域中,主要是根据影响国家、地区乃至单个企业的经济效益、发展水平的各项指标进行聚类分析,然后根据分析结果进行综合评价,以便得出科学的结论。聚类分析的方法主要有两种,一种是“快速聚类分析方法”(K-Means Cluster Analysis),另一种是“系统聚类分析方法”(Hierarchical Cluster Analysis)。本文将根据2004年浙江省各市国民经济主要指标,利用系统聚类的Ward’s Method,对浙江省11个市进行分类。

一、聚类方法简介

系统聚类法(hierarchical clustering method)是使用最多的一种聚类方法。它的基本思想是:

1.将全部n个样品各看成一类,即得到n类;

2.确定样品与样品和类与类之间的距离;

3.计算各类之间的距离,并将距离最近的两类合并为一类,形成一个新的类;

4.重复步骤3。这样从有n类开始,每次合并一类,经过n-1次合并后,所有的样品成为一类;

5.将上述合并的全部聚类过程用一个直观图形画出来,即画出聚类图;

6.决定类的个数,并由上述步骤得到相应的聚类分析的结果。

以下我们用Gij表示第i个样品与第j个样品的距离,G1,G2,…表示类,GKL表示GK与GL的距离。本节介绍的系数聚类法中,类与类之间的距离与样品之间的距离相同,即DKL=dkl。

二、 数据处理

(来源:2005浙江统计年鉴,见参考文献[13])。

:国内生产总值 GDP(亿元);:社会固定资产投资(亿元);

:全社会消费品零售总额(亿元);:城镇居民人均可支配收入(元);

:农村居民人均纯收入(元)。

1.原始数据标准化

标准化后的数据

2.SPSS软件处理结果

我们采用系统聚类分析法的Ward’s Method对标准化后的数据进行处理,下面对软件输出结果进行详细介绍。

使用SPSS的ClassifyHierarchical Cluster程序进行聚类分析。其中Method子对话框里,方法选择最小方差法(Ward’s Method),间距测度变量选择Squared Euclidean distance(欧氏距离的平方),然后得出如下结果:

(1)系统聚类分析的概要结果,

从表3中可以看出,11个样本都进入了聚类分析。

本表格的第一行表示,第4个样本和第6个样本最先进行了聚类,样本间的距离为0.195,这个聚类的结果将在后面的第五步聚类中用到;第二行表示聚类的第二步中第8个样本和第11个样本进行了聚类,样本间的距离为0.653,这个聚类的结果将在后面的第八步聚类中用到。其他行的含义和上面的类似。可见,经过了10步聚类,11个样本聚成了一个大类。

该表格是样本系统聚类分析聚成3个类时,样本的类归属情况表。从该表格可以看出,杭州市,宁波市2个市聚为一类;温州市,嘉兴市,绍兴市,台州市4个市聚为一类;湖州市,金华市,舟山市, 衢州市,丽水市5个市聚为一类。

(4)聚类图

这个图是系统聚类分析的谱系图(Dendrogram)。从图中可以看出,各个类之间的距离在25的坐标内。借此可以直观地显示整个聚类的过程。

3.通过以上的分类表和龙骨图(谱系图)可以清楚的看到,离差法聚类分析结果

(1)较发达城市:杭州市,宁波市;

(2)中等发达城市:温州市,嘉兴市,台州市,绍兴市;

(3)发展中城市:金华市,湖州市,舟山市,衢州市,丽水市。

三、 结果分析

通过上面的聚类分析,根据2004年浙江省各市国民经济的主要指标,我们将目前浙江省各市县的经济发展水平划分为3个经济区域:

1.较发达城市:杭州市,宁波市

2.中等发达城市:温州市,嘉兴市,台州市,绍兴市,金华市,湖州市,舟山市

3.发展中城市:衢州市,丽水市

从聚类结果我们可以发现,发达城市杭州市和宁波市,由于城市发展历史悠久,基础建设比较完善,产业机构比较合理,城市规模较大,城市经济发展快,所以把它们归类为经济发达的城市。而中等发达城市,湖州市、嘉兴市和舟山市由于靠近上海,与上海的社会经济关系比较密切,依托上海,大力发展外贸经济。其他4个城市一般为沿海城市,对外贸易便利,而且这里有浙东两条黄金旅游线(杭州—绍兴—宁波—舟山;杭州—绍兴—台州),旅游业也很发达,因此经济达到中等发达水平,而金华市跟多个市比邻,所以跟其他市的经济贸易也比较频繁,经济方面相对来说也是比较发达的。而衢州市,丽水市由于位于地理位置原因,基础建设相对滞后,产业结构不够合理,财政收入少,所以经济会相对比较落后。

当然,以上分析结果仅是根据一年的经济主要指标得出的结论,如果要想进行更准确合理的分析,还需要进一步结合其它的数据进行分析。

参考文献

[1]张尧庭方开泰:多元统计分析引论[M].北京:科学出版社,1982

[2]王学仁王松桂:实用多元统计分析[M].上海:上海科学技术出版社,1990

[3]钱俊龙:概率论与应用统计[M].北京:中国统计出版社,1992

[4]何晓群:现代统计分析方法与应用[M].北京:中国人民大学出版社,1998

[5]于秀林任雪松:多元统计分析[M].北京:中国统计出版社,1999

[6]李双杰顾六宝:用聚类分析法评估区域经济[J].中国农村观察,2001

[7]苏金明:统计软件SPSS系列应用实战篇[M].北京:电子工业出版社,2002

[8]郝黎仁:SPSS实用统计分析[M].北京:中国水利水电出版社,2002

[9]吴明隆:SPSS统计应用实务[M].科学出版社,2003

[10]卢纹岱:SPSS for Windows统计分析[M].北京:电子工业出版社,2004

[11]何晓群:多元统计分析[M].北京:中国人民大学出版社,2004