前言:中文期刊网精心挑选了统计学决策规则范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
统计学决策规则范文1
目前,中国除了上海之外,其它城市还没有专营消费信贷调查业务的报告机构。1999年下半年,建设银行济南分行出台的《个人信用等级评定办法》在信用评估方面进行了尝试。该办法对不同的指标赋予不同的分值,对借款申请人的还款能力、信用状况等做出综合评价以决定贷款决策。随着信贷业务的需要,国内越来越多金融机构以业务对象的个人信用记录直接作决策参考,或附以一些评分方法,但毕竟以主观经验为主。而国外在信用评估方面已经有人做了大量的工作,提出了有FICO评分模型、神经网络模型、贝叶斯分析模型等等各种评估模型,并采用了各种数学的、统计学的、信息学的方法,取得了一定的效果,特别是FICO评分模型,更是成为西方发达国家信用评分事实上的标准。
二、常用评估方法
1.标准数理统计模型
基于标准数理统计理论的信用评分模型是对大量的个人消费贷款的历史信用数据进行科学的归纳、总结、计算而得到的量化分析公式。在美国,不同的行业有不同的信用评分模型来帮助专业人士进行信用风险管理,如表1所示:
表1美国不同行业常用信用评分模型表
从概念上讲,信用评分就是利用消费者过去的信用表现来预测其未来的信用行为,如图1所示。
信用评分模型的关键是科学合理地选出信用变量,并产生一个公式。信用评分模型的统计方法有线性概率模型、logit模型、probit模型以及线性判别(Discriminant)分析方法。
(1)线性概率模型
线性概率模型假设违约概率Y与信用变量X之间的关系是线性的,用于解释过去信用行为(违约或不违约)的信用变量及其重要性(系数)被用来预测未来的信用行为。线性概率模型数学表达如下:
根据历史样本数据进行优化计算,得出系数βj的估算值。
(2)Logit信用评分模型
Logit信用评分模型是采用数理统计的logit回归方法建模分析。logit信用评分模型的分析方法如下:
这里,Y∈{0,1}是二元响应变量,表示信贷状况;为logit概率累积分布函数。当Xj属于度量变量时,Xj表示为第j个可度量变量;当Xj属于范畴变量时,Xj表示为哑元变量向量。
(3)Probit信用评分模型
Probit模型同样能够把违约概率的预测值限制在0和1之间。它与logit模型的不同在于probit模型假设违约概率服从累积正态分布(cumulativenormaldistribution),即
(4)线性判别模型
判别模型根据过去观察到的借贷者的信用特征,把他们划分成高违约风险和低违约风险类别。线性判别模型(LinearDiscriminantModel)假定信用变量对这种划分的影响是线性的。
2.数据挖掘技术
数据挖掘从大量数据中提取或“挖掘”知识,其任务可以分为描述和预测两类,用于信用评估,可对客户进行分类、聚类、关联规则发现、预测、偏差检测等。其中多数用分类、关联规则发现和预测方法进行个人信用评估。
(1)分类
按分析对象的属性、特征建立不同的组类描述事物。它基于对类标记已知的数据对象的分析,导出描述并区分数据类或概念的模型(或函数),用以预测类标记未知的对象类。导出模式可以用分类规则、判定树、数学公式或神经网络等形式表示。
(2)关联规则发现
某种事物发生时其他事物会发生的一种联系,这些规则展示属性-值频繁地在给定数据集中一起出现的条件,关联规则形式:X=>Y,即“A1∧...∧Am=>B1∧...∧Bm”。
(3)预测
把握分析对象发展的规律,对未来的趋势作出预见,其表示形式与分类同。
三、一种基于历史记录规则相似性的综合评估方法
由于国内银行业现有客户记录多数是不完整的,所以使用单一的方法进行评估未必能体现客户真实的信用历史状况。为了将数据挖掘技术和数理统计完全基于记录本身特征并与能够体现专家判断的评分很好地结合起来,本文提出一种基于关联规则的相似推荐方法,实现如下:
1.应用粗糙集理论对历史数据记录进行属性约简及规则提取
粗糙集理论是数据表简化和生成最小决策算法的有效方法,可以实现知识约简,发现属性表中的属性依赖,从而在信息不完全环境下进行知识发现,其定义如下:
S=<U,A,F,V>
其中,S:信息系统(决策表)
U:论域
A:属性集合
F:UXAV的映射
V:属性值域集合
采用决策偏好信息的挖掘方法(参见文献[3]),对S进行属性约简并提取规则,形成不同支持度S和信任度C决策规则集合DN{фΨ}(其中N代表提取的规则数量,可根据实际情况确定),且D是S不重复的子集,ф是条件属性,Ψ是决策属性,ф、Ψ∈A。
2.对测试记录与步骤1提取的规则进行相似性计算
相似性是某种关系强度的度量,可以通过数值比较来衡量(参见文献[4])。因为决策规则集合D不能完全覆盖所有测试记录属性值组合,而且决策表对象结构相同。测试集合SD中的任一组合(规则)Dd对照D中Dn进行相似性计算,得出SIM1、SIM2...SIMn
其中,B:归一化因子
(B=1/∑Wi)
Wi:属性i贡献因子
(体现数据特性或专家经验,也可通过多种赋权综合评价求得)
SD(Dd,Dn):已知Dd发生,Dn也在同一组发生的概率
3.多赋权综合评价
对上述步骤求得参照各个规则的支持度S、信任度C及相似性SIM组成一个N个对象、3个指标的矩阵XN×3。
(1)运用变异系数法对X进行客观赋权
此时,第j个指标的权重就是这种加权方法是为了突出各指标的相对变化幅度,即变异程度。
(2)对X使用线性插值法进行规范化处理,得到规范化矩形ZN×3,对其使用互补判断矩阵排序法求属性权重:
I=1运用综合赋权法将(1)、(2)两个权向量进行有机集成,得到综合权向量W=(W1,W2,......,WN)。传统的综合赋权有乘法合成归一化、线性加权组合法、基于spearman等级相关系数综合赋权法等,也可采用基于灰色关联度的客观权重综合集成法。
最终求出测试记录对各个规则的评价值fi=∑wj×zij,(i=1,2,......,N),其中MAX(fi)就是与测试记录最相似的规则,可将其决策偏好作为测试记录的预期偏好。
统计学决策规则范文2
关键词:生物统计学;实验教学;改革探索;实践
中图分类号 G642.0 文献标识码 A 文章编号 1007-7731(2013)15-148-02
生物统计学是数理统计原理和方法在生物学中的应用,不仅在生命科学领域、而且也在其他学科领域中得到广泛应用,是一门工具学科[1]。生物统计学的理论性和实践性均较强,涉及的基本原理、公式和概念较多,需有一定的数学基础和逻辑推理能力才能学好,相对于其他专业课程,师生普遍反映难教、难学、难记[2]。《生物统计学》不容易理解和掌握,导致学生缺乏学习兴趣和动力,考试前通过死记硬背接受理论知识,形成短暂记忆,随着时间的延长,所学内容逐渐忘记。这门课程讲授完之后,学生不会灵活运用其中的方法,也不会设计一个简单的试验,更不会将生物统计学的基本理论、技术和常用统计方法应用到本科毕业论文设计中,导致理论教学与实践应用脱节,显然未达到教学目的。以往《生物统计学》教学以单纯理论教学为主,不设或很少开设实验课。因此,笔者结合《生物统计学》的基本原理,利用计算机和统计软件,开设了《生物统计学》实验课,并尝试对该课程的实验教学方法进行改革探索。
实践教学环节非常有利于提高大学生的培养质量,而《生物统计学》课程教学的实践环节亟待加强。在《生物统计学》实验教学过程中,我们利用计算机辅助实验教学,开设以下实验课:(1)《生物统计学》某章节理论知识讲授完之后,利用计算机和相关统计软件,开设相应的实验课。在实验课上,教师通过统计软件演示例题的计算和分析过程,并讲授统计软件的使用方法,学生根据所学理论知识,结合实例在计算机上借助统计软件进行操作,这样使学生获得知识更加直接与快速。(2)学生参与试验设计和科学试验。学生要在生产实践或实验室中设计试验,亲自参与试验数据的采集,并对试验数据进行统计和分析,这样有利于加深学生对所学内容的理解。《生物统计学》教学开设了如下实验:
1 利用Excel绘制常用统计图
Excel绘制图形功能强大,各种版本的Excel软件均提供了14种标准图表类型,每种图表类型中又含有2~7种子图表类型;还有20种自定义图表类型可以套用。讲授完试验资料的搜集和整理后,开设利用Excel绘制常用统计图的实验课。学生在实验课上利用Excel绘图时,可以对图表区、绘图区、数据系列、坐标轴、图例、图表标题的格式,例如文字的颜色、字体、大小,背景图案、颜色等进行修改和调整,使修饰后的图形更加美观好看,爽心悦目。当图和数据放在一张工作表上、学生改变绘制图形的数据时,其图形将发生相应变化;将鼠标放在图中某数据点上,在鼠标下方将弹出一个文本框给出数据点的具体数值;用鼠标单击绘图区中的“数据系列”标志,其图所属数据单元格将被彩色框线围住,便于用户查看图形的数据引用位置。在“数据系列”点击右键可以向散点图、线图、条形图等添加趋势线,并可给出趋势线的方程与决定系数。
2 利用Excel进行数据描述统计分析
讲授完试验资料特征数的计算后,开设利用Excel进行数据描述统计分析的实验课。首先选用与生活联系紧密的数据资料,让学生利用Excel计算这些数据的平均数、中位数和众数,测定和分析这些数据的集中趋势,然后利用Excel测定样本标准差、总体标准差和四分位数,让学生分析这些数据的离散趋势。另外,让学生利用Excel分析总体次数的分布形态,计算总体平均值的置信区间,有助于识别总体的数量特征。总体的分布形态可以从两个角度考虑,一是分布的对称程度,另一个是分布的高低。前者的测定参数称为偏度或偏斜度,后者的测定参数称为峰度。
3 利用Excel进行统计假设检验
讲授完统计推断之后,利用Excel进行统计假设检验的实验课。统计假设检验是根据随机样本中的数据信息来判断其与总体分布是否具有指定的特征[1]。我们选择实际案例,让学生提出假设,利用Excel中适当的统计方法计算检验的统计量及其分布,确定显著性水平和决策规则,最后推断是否接受假设,得出科学合理的结论,这个过程就称为假设检验或统计假设检验。统计假设检验的方法多样,通过比较就会发现它们的基本方法和步骤大同小异,例如t检验、u 检验、x2检验等,可以详细讲述其中1~3种假设检验方法,其它假设检验方法可以采用启迪和推导方式让学生利用统计软件自行轻松地学习和操作。
4 利用Excel和SAS软件进行方差分析
讲授完方差分析之后,开设利用Excel和SAS软件进行方差分析的实验课。利用Excel只能进行单因素或双因素(包括可重复双因素和无重复双因素)方差分析,而涉及双因素随机区组试验、三因素试验和裂区试验等试验数据的方差分析,即让学生利用SAS软件进行多重方差分析。另外,Excel中的单因素或双因素方差分析只能给出方差分析表,不能进行平均数的多重比较,也无法用不同字母标记法表示差异显著性的结果,这些也都需要利用SAS软件。
5 利用多种统计软件进行回归分析
由一个或一组非随机变量来估计或预测某一个随机变量的观测值时,所建立的数学模型及所进行的统计分析,称为回归分析[1]。按变量个数的多少,回归分析有一元回归分析与多元回归分析之分,多元回归分析的原理与一元回归分析的原理基本相似。按变量之间的关系,回归分析可以分为线性回归分析和非线性回归分析。利用统计软件进行回归分析时,首先让学生如何确定因变量与自变量之间的回归模型;如何根据样本观测数据,估计并检验回归模型及未知参数;在众多的自变量中,让学生判断哪些变量对因变量的影响是显著的,哪些变量的影响是不显著的。在方差分析实验课上,先让学生利用Excel进行简单的线性回归分析,然后利用SPSS软件进行相关与回归分析,最后利用SAS软件进行多元线性回归分析和逐步回归分析,使学生了解不同统计软件的特点、功能和作用。
6 利用基本原理设计试验
试验的精确度高低取决于试验设计的各个方面,只有通过有效地控制试验误差才能提高试验精确度。因此,教师有必要正确引导大学生在试验过程中要做到操作仔细,这样有利于提高学生的科研素质。在试验工作中,从试验资料中发现潜在的规律性是极其重要的,这需要科学合理地运用统计学的基本原理和方法。讲授完试验设计之后,要求学生根据试验设计的基本原理,在生产实践或实验室内提出试验设计的基本思路,制定试验方案。然后,学生分组讨论试验设计的可行性,并进行纠正和修改。在试验前期,学生应进行试验前期准备工作。在试验过程中,学生要考虑试验条件的差异对试验数据的影响,可根据试验设计的原理和技巧分析试验出现的问题,使学生获得的理论知识与实际联系起来,从而加深对理论知识的理解。试验结束后,获得大量的试验数据,需要选择正确的统计方法分析试验资料,得出科学合理的结论,以达到研究目的。最后,教师根据学生设计的试验思路、方案、步骤及作出的试验报告给予评价。通过开设试验设计实践课,可以使学生明确试验的目的、试验设计方法、试验因素及水平等内容,有利于提高学生设计试验方案的能力。
实践证明,开设《生物统计学》实验教学后,学生能够在计算机上借助相关统计软件亲自统计试验数据,利用所学的统计学方法分析和检验试验结果,最后得出可靠的结论。最后毕业时,学生能根据试验设计的基本原理,可独立完成毕业论文试验设计,实施设计的试验方案,获得试验数据资料。由于试验数据统计分析耗时,而且繁琐,因而过去毕业生害怕对试验数据进行统计分析。自从我们结合《生物统计学》的基本原理,利用计算机和计软件开设了该课程的实验教学后,学生轻松地掌握了该课程的基本原理和统计分析方法,统计和分析数据的速度、精确度均大幅度提高。现在部分学生还能帮助教师进行科研课题的数据处理和分析,毕业论文水平也大大提高。
《生物统计学》教学实验课的开设,使学生从被动学习转变为积极主动地学习,培养了学生进行科学试验设计的能力,初步掌握开展科学试验设计的方法;培养学生掌握正确收集、整理试验资料的方法,能利用生物统计方法对试验资料进行正确的统计分析;培养学生掌握常见统计软件的使用方法和统计方法。《生物统计学》实验课深受学生的欢迎,这也是对该课程实验教学的尝试和改革探索的肯定。在该课程实验教学过程中,笔者深刻体会到要提高《生物统计学》课程的实验教学效果和质量,教师需要投入时间与精力,钻研实验教学内容,提高教学水平,转变实验教学理念,不断探索和优化多元化的实验教学方法。
参考文献
[1]李春喜,邵云,姜丽娜.生物统计学[M].4版.北京:科学出版社,2008:1-3.
统计学决策规则范文3
1 数据挖掘的概念、步骤及常用方法
1.1 数据挖掘概念、步骤 数据挖掘(Data mining,DM)即数据库中的知识发现,是从大型数据库的海量数据中提取人们感兴趣的知识,这些知识是隐藏的、事先未知的、潜在有用的信息,挖掘的知识表现为概念、规则、规律、模式等形式[1]。数据挖掘的目的在于使用所发现的模式帮助解释当前的行为或预测未来的结果[2]。挖掘步骤大致有:问题定义、数据提取、数据预处理、数据挖掘、知识评估、结果应用这六步。
1.2 数据挖掘常用方法
1.2.1 描述统计 数据总结的目的是对数据进行从低层次抽象、浓缩到高层次,得出它的紧凑描述。最简单的数据总结方法是描述统计,它包括平均数、中位数、分位数等,它常和统计图配合应用。
1.2.2 关联规则 关联规则从本质上讲是条件概率,即当A发生时、B同时出现的概率有多大?只要B离50%较远就有意义。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联包括简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时我们并不知道数据库中数据的关联函数,即使知道也不确定。因此关联分析生成的规则带有可信度。
1.2.3 分类和聚类 这是最常用的技术。分类方法主要有:回归、决策树、神经网络。分类分析在数据挖掘中是一项重要任务。分类器的构造方法有统计方法、机器学习方法、神经网络方法等。聚类是根据事物本身潜在的特性研究对象分类的方法。通过聚类把一个数据集合中的个体按照相似性归成若干类别,使其“物以类聚”,将数据库中的记录划分为一系列有意义的子集。聚类要解决的就是实现满足这种要求的类的聚合。在进行聚类前,这些类别是潜在的,可分割的类的个数(聚类数)也是未知的。聚类大致分为统计方法、机器学习方法、神经网络方法和面向数据库的方法等。
1.2.4 偏差检测 数据库中的数据可能有一些异常记录,检测这些偏差很有意义。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。
2 中医病历中医学数据挖掘的特点
目前中医病历中采集的中医学信息具有如下特点。
2.1 症状的模糊性 中医学对疾病的诊断是通过望、闻、问、切的四诊合参,获取有用信息,再结合医生的经验,对疾病做出诊断。症状的模糊性不仅表现在获得信息的形式多样,而且因中医症状存在着一症多名,或多症一名的现象,因此不同医生即使对同样的症状,可能会用不同的文字加以描述,比如对“患者不欲进食”的记录,可能会有纳差、食欲不振、纳呆等的不同。这种模糊性模式加大了中医学数据挖掘的难度。
2.2 症状的不完整性 病例和病案的有限性使医学数据库不可能对任何一种疾病信息都能全面地反映出来,表现为医学信息的不完全性。同时,许多医学信息的表达、记录本身就具有不确定和模糊性的特点[3],这方面在中医症状未做出标准量化方法并推行应用之前,尤为突出。疾病信息体现的客观不完整和描述疾病的主观不确切,形成了中医病历中医学信息的不完整性。
2.3 证候的复杂性 著名的王永炎院士指出了证候具有动态时空、内实外虚、多维界面的特点,简明扼要的描述了证候的复杂性。中医证候的复杂性给数据挖掘增加了难度,但这也恰好是数据挖掘发挥效力的用武之地。
2.4 治疗信息的个体化特性 中医治病之本是辨证论治,体现在“三因治宜”、“同病异治、异病同治”等方面。即使针对同一疾病相同的证,医生的处方用药也可能会有差异。这种个体化的治疗,充分体现了中医治病的精髓,而其中所蕴涵的深奥哲理和规律,用一般的研究方法难以全面发掘。数据挖掘在这方面很可能会有很高的应用价值。
2.5 挖掘过程的复杂性 中医药领域中的数据属性有离散型的,也有连续型和混合型的,对这些数据的噪声处理等预处理相当复杂,挖掘过程还需要人机交互、多次反复,其中任何一个环节都不能缺少专业人员。只有靠中医药专家的引导,针对具体问题,选择合理的挖掘方法,才能挖掘出真正有价值的知识。
在中医学数据挖掘中,应针对上述数据特点和挖掘目标,结合运用不同的挖掘方法,对非线性、不完全的信息进行智能处理,发挥各自的技术及其整合优势。
3 数据挖掘在中医药研究中的应用
近年来,数据挖掘技术在中医药研究中已得到应用。有学者认为中医药数据挖掘是中医药现代化研究的重要组成部分[4]。
3.1 中医药信息化研究 姚氏等[5]综合文献指出对中医药理论和实践进行信息化、数字化、知识化,能够克服中医名词术语过于繁杂造成的中医发展障碍,对于中医药信息进行文本数据挖掘是促进中医药信息结构化的途径之一,该问题的解决,能极大促进中医药现代化发展的进程。
3.2 中药研究 陈凯先等[6]认为对大量中药化学成分进行药效基团的建模研究,并对中药化学成分数据库进行柔性搜索,能够为更充分利用中药化学成分所含的化学信息提供技术支持。冯雪松等[7]对中药指纹图谱的特点及数据挖掘技术在其中的应用做了综述,指出中药指纹图谱由于反映了药用植物的“共有特征”,又由于地域、生长环境、采收等多种因素影响,具有统计数学中多元随机分布的“模糊性”,利用模糊数学、统计学、计算机技术等建立一种同时反应这两种特征数据库,存储中药指纹图谱信息,应用数据挖掘技术发现和解析其中潜在的信息,以评价和控制中药质量及研究中药定量组效关系。
3.3 方剂研究 乔延江等[4]综述了KDD在中药研究开发中的意义。乔氏等认为中药(复方)的KDD研究是在中医理论指导下,以数据挖掘技术作为知识发现的主要环节,对中药研发、设计、中医组方理论及规律、中药作用机制、构效关系、中药药效集团群的确认、化学成分及药理指标的预测等进行多方位、多学科、系统的现代化研究,是一个高度复杂的系统。其目的是建立传统中医理论同现代中药的科学化、系统化、可描述化的关系,是中医药现代化的重要组成部分。杨林等[8]阐述了数据库技术与Web结合实现网上中医方剂的信息挖掘。将方剂文献资料进行全方位解析,设计内容详细的数据库与Web技术结合,通过Internet开发了网上中医方剂信息分析处理系统,选择支持Web-DB的ORACLE数据库管理系统作为系统开发和运行平台。经过数据预处理、选择和筛选数据、确定分析目标、信息挖掘结果显示等阶段,完成对一批方剂数据的信息挖掘。姚美村等[9]应用数据挖掘技术对治疗消渴病的中药复方配伍的内涵进行探索性研究。以文献收录的106个治疗消渴病的中药复方为对象,经解析后建立复方特征数据库;以数据挖掘系统Enterprise Miner为平台,在单味药层次上进行消渴病复方组成药味之间的关联规则分析研究,结果显示单味药、两味药组合、三味药组合的应用规律与历代中医在消渴病治疗用药方面的论述一致。挖掘结果的可信度可达到或接近中医专家的分析能力。秦首科等[10]在构建方剂、中药和病症数据仓库的基础上,通过对数据仓库内部各种关联和映射关系的定义,利用中药和病症数据仓库的联机分析功能,探讨了方剂和其针对症状之间的联系。蒋永光等[11]对从《中医大辞典·方剂分册》中筛选出1355首脾胃方中的414种药物,经用聚类分析、对应分析和频繁集方法,从功效、归经、药性和药味等方面进行了分类特征分析,并就脾胃方的核心药物、方剂结构、“药对药”组和“方药证”的对应关联方面形成了有关技术规则和处理程序。
3.4 中医证候研究 张世筠等[12]应用流行病学和变量聚类分析的数理统计方法,对2442例中医肝证患者进行了初步研究。由调查组采集核对中医四诊资料,按肝证辨证记分标准记分,分为11个证型。经过聚类分为实证、风证、虚证3类,解决了中医各肝证的归属问题,本研究还定量地阐明肝的实证、虚证、风证的相互关系。白云静等[13]在充分阐释证候系统的非线性、复杂性特征的基础上,探析了人工神经网络方法用于证候研究的可行性,并介绍了基于人工神经网络的证候研究方法。徐蕾等[14]采用boot strap方法对406例样本进行扩增以满足数据挖掘对样本量的要求,采用基于信息熵的决策树C4.5算法建立中医辨证模型。通过决策树C4.5算法筛选出对辨证分型有意义的26个因素,按其重要程度排序;产生出清楚易懂可用于分类的决策规则,建立辨证模型,模型分类符合率为:训练集83.6%,验证集80.67%,测试集81.25%;模型区分各类证型的灵敏度和特异度也较高。认为决策树C4.5算法建立的模型效果较好,可用于慢性胃炎中医证型的鉴别诊断。吴斌[15]等探讨了肾阳虚证的辨证因子分布规律。以肾阳虚证量表为基础,从定性、定量角度收集资料。以定性评分计算各辨证因子的出现频率,用定量评分进行分层聚类分析。发现:畏寒、肢冷、夜尿、腰背发冷等辨证因子出现频率高,聚类分析提示肾阳虚主证、舌象、脉象分布较有规律。认为根据数理统计结果对肾阳虚证的辨证因子进行初筛,为肾阳虚证的量化研究奠定了基础。
4 小结与展望
利用数据挖掘技术探求中医药诊治疾病的规律,形成用数字描述和表达的中医药内容,能有力推动中医药研究的规范化进程。但由于中医药信息的复杂性和特殊性,中医药数据挖掘在挖掘对象的广泛性、挖掘算法的高效性和鲁棒性、提供知识或决策的准确性方面有更高的要求。目前中医药数据库资源已较丰富。数据挖掘技术将成为中医药现代化的重要组成部分。但从目前应用数据挖掘技术进行的中医药研究来看,中医数据挖掘尚处于起步阶段,多数是对古文献数据的整理挖掘,缺乏用于探求中医诊治疾病规律和复方用药规律的研究。这可能与中医数据的复杂性所致的数据预处理繁琐有关;如能通过建立结构化数据库,采用结构化的临床信息采集系统收集数据,将能提高中医学数据挖掘的效率及可信度。有助于发现中医的诊治规律,并创新诊治模式,提高诊疗与科研教学水平。
1 Srikanth R''Agrawal R.Mining Sequential Patterns:Generalizationsand Performance Improvement.In 5th Int’ Extending Database Technology.Avignon France''1996''121-130.
2 翁敬农(译).数据挖掘教程.北京:清华大学出版社''2003''11.
3 Qu JH''Liao QM''Xu WZ''et al.The construction of medical database and datamining.Journal of the Fourth Military Medical University''2001''22(1):88.
4 乔延江''李澎涛''苏钢强''等.中药(复方)KDD研究开发的意义.北京中医药大学学报''1998''21(3):15-17.
5 姚美村''袁月梅''艾路,等.数据挖掘及其在中医药现代化研究中的应用.北京中医药大学学报''2002''25(3):20-23.
6 陈凯先''蒋华良''嵇汝运.计算机辅助药物设计—原理、方法及应用.上海:上海科技出版社''2001''1.
7 冯雪松''董鸿晔.中药指纹图谱的数据挖掘技术.药学进展''2002''26(4):198-201.
8 杨林''徐慧''任廷革,等.数据库技术与Web结合实现网上中医方剂的信息挖掘.中国中医药信息杂志''1999''6(9):71-72.
9 姚美村''艾路''袁月梅''等.消渴病复方配伍规律的关联规则分析.北京中医药大学学报''2002''25(6):48-50.
10 秦首科''牛孺子.利用数据仓库分析处理中医方剂评析.中医药学刊''2002''20(3):341-342.
11 蒋永光''李力''李认书''等.中医脾胃方剂配伍规律数据挖掘试验.世界科学技术—中医药现代化''2003''5(3):33-37.
12 张世筠''沈明秀''王先春''等.中医肝证的变量聚类分析.中国中西医结合杂志''2004''24 (1):35.
13 白云静''申洪波''孟庆刚''等.中医证候研究的人工神经网络方法探析.中医药学刊''2004''22(12):2221-2223.
14 徐蕾''贺佳''孟虹''等.基于信息熵的决策树在慢性胃炎中医辨证中的应用.第二军医大学学报''2004''25(9):1101-1103.
统计学决策规则范文4
关键词:风险度量,正负偏差,综合风险偏差
一,研究的目的和意义
本文的研究目的在于识别和度量证券投资中的风险,按照投资组合理论,通过组合可以分散掉的风险被称作"非系统性风险"或者"公司特别风险",它源自于各个公司内部的特别事项的发生,比如,诉讼,罢工,营销策略的成功或失败,合同签署及履行情况.由于公司各自的情况不同,导致这种风险在各个公司之间的差距较大.进行投资组合的一个基本思路就是通过证券组合使一种股票报酬率的不好的变化被另一种股票报酬率好的变化抵消掉,从而将这种风险最大程度地分散掉.当然,仍存在一部分组合难以消除的风险,被称作"系统性风险"或"市场风险".这种风险通常源自公司外部的一些宏观经济或非经济事项,比如战争,通货膨胀,经济衰退,利率的波动.这些事项的发生会对所有的企业的经营状况产生影响,因而无法通过投资组合予以分散.本文主要讨论前一种风险,分析它对于投资者投资决策的影响.这有助于管理部门进行证券投资风险管理,提供一个管理的客观标准,有利于规范证券市场,优化资源配置,从而促进经济的稳定发展.
二,目前研究的现状
1,风险研究的发展【13】
自从Markowitz于1952年创立了投资组合以来,风险度量和金融资本配置模型的研究一直是金融投资研究的热点之一,到目前为止,金融投资专家和学者已提出很多种不同的度量风险模型.从各种模型提出的动因看,推动风险的度量模型发展的主要因素有:(1)对风险含义认识的深化.Markowitz将风险视为投资收益的不确定性.方差因可以很好衡量这种不确定性的程度而成为风险的度量方法.随着对投资者风险感受心理的研究,人们认识到风险来源于投资项目损失的可能性,因此,出现了半方差等变化了的风险度量模型.(2)风险心理学的研究成果.由于每个投资者的风险偏好和风险承受能力不同,金融界,投资界和理论研究者对此做了大量的研究,希望能找到更符合现实状况的风险度量方法和能更高效获取投资回报的资产配置模型.因此,在风险度量模型中,引进了反映投资者风险偏好和风险承受能力的风险基准点,由此形成另一类风险度量模型.如ExpectedRegret方法等.(3)数学处理简化的需要.在对各种风险度量模型进行理论分析时,经常要用数学方法对其进行处理,为了便于应用数学方法,在不影响模型的特征的前提下,尽可能采用一些数学上较容易处理的模型.如方差与标准离差,其特征基本类似,但方差的数学处理要比标准离差容易,因此在理论上和实际应用中,方差比标准差普遍.最近提出的CVaR风险度量方法,也是在VaR方法遇到数学处理困难时提出的.(4)风险管理实践上的需要.风险度量模型要能够应用于投资实践,其度量结果必须有很好的经济解释,以前的很多风险度量方法.如方差,半方差,标准离差之所以未能得到现实投资者的广泛接受,很大原因在于它们不能给投资者提供一个可理解的风险评价值.90年代以来出现的VaR尽管在理论界受到广泛的批评,但仍然得到监管部门和现实投资者的广泛接受,其原因在于它提供一种易于理解的描述风险的普通语言.
2,风险的定义
关于风险概念,学者们下过许多定义.可归纳为以下七种【11】:
将事件本身存在不确定性视为风险;
将未来结果的变动可能性视为风险;
将各种可能出现的结果中的不利结果视为风险;
将不利结果出现的可能性及不利程度视为风险;
将各种可能结果之间的差异本身视为风险;
以客观实际结果为参照对象,将主观预期结果与客观实际结果的距离视为风险;
以主观预期结果为参照对象,将未来结果与主观预期结果的差距视为风险.
概念①和②主要关注事件结果的不确定性;概念③则关注与预期不一致的不利结果;概念④进一步强调不利结果发生的程度;概念⑤,⑥,⑦是一类,主要关注结果与某种参照标准之间的差距.由于出发点和认识上的不同,上述定义并没有准确界定风险的一般性.因此,保险业说的是可能导致财产损失的风险,金融管理界说的则是可能导致金融体系动荡甚至崩溃的风险,证券投资者说的又是投机交易可能出现巨额亏损的风险,风险投资者说的却是可能因投资失败导致血本无归的风险.还有诸如技术风险,市场风险,管理风险,财务风险,政策风险等等.用的虽是同一个词汇,但叙述的内容则有差异,对风险概念和定义的描述不尽相同.因此,本文的研究对象主要集中在③,④两种概念范畴,以缩小范围,集中注意力研究这个问题.
3,风险的量化
目前,常见的风险度量指标可分为三类.
第一类:用风险分布的数字特征来构造风险度量指标,而不直接涉及行为主体对风险的偏好特性程度.典型的有:
(1)方差风险度量及其引申
马克维兹(Markowitz)在投资组合理论中以投资收益率r的均值(mean)E(r)度量投资组合的收益,以投资收益率r的方差(variance)σ2(r)度量投资组合的风险.这被称为均值-方差决策规则.
方差是用来衡量一个随机变量波动大小的指标,当随机变量的波动呈对称性分布时,收益波动越大的随机变量,其潜在的损失也就越大.因此,当随机变量的分布为对称型时,用方差来表示风险是恰当的.由于Markowitz在1952年进行投资组合分析时,假设投资组合的各项资产的收益率的联合分布为正态分布.因此,它的分析方法是恰当的.标准离差(standardderivation)与方差的特征一样,只是标准离差在数学分析时较容易处理,因此传统上,度量随机变量的波动性一般采用方差而不采用标准离差.不过,方差虽然在分析其性质时容易数学处理,但利用它进行投资组合优化时,存在计算上的困难,因为必须求解二次规划问题,Konno和Yamazaki(1991),胡日东(2000)提出,利用标准离差作为风险度量指标,可以简化投资组合优化的运算.因为只需求解线性规划问题即可.
举个例子,设有两个投资方案,其收益率分别为随机变量X和Y,数学期望分别是x和y,标准差分别为σX和σY,则在均值-方差决策规则中,所谓X优于Y,是指其满足如下两个准则:
准则1:x≥y,σX≤σY
准则2:
其中:rf为市场上的无风险利率.
虽然方差度量具有良好的特性,但是自从Markowitz提出方差作为风险度量指标后,还是受到众多的批评和质疑.其焦点在于投资收益率的正态分布特性,它对收益率波动的好坏不分(将高于均值的收益率也视为风险).法玛,依波持森和辛科费尔德等人对美国证券市场投资收益率分布状况的研究和布科斯特伯,克拉克对含期权投资组合的收益率分布的研究等,基本否定了投资收益的正态分布假设.半方差(semivariance),半标准离差(standardsemiderivation)---半方差的平方根,正是在这种背景下提出来的,哈洛提出半方差的概念用来度量风险,即只关注损失边的风险值(DownsideRisk).用于解决收益率分布不对称时的风险度量问题,但从模型包含的变量看,这两种方法并不"纯净",因为模型中含有投资收益的均值,风险量值的大小不仅取决于各种损失及其可能性等不利情景,而且还与投资收益的有利情景有关.而人们广泛所接受的仍然是以方差作为风险的度量.均值-方差决策规则也在投资决策中得到了广泛的应用.
(2)含基准点的风险度量
从风险的原始语意出发,风险应该反映投资资产出现不利变化的各种可能性,从投资收益率角度看,风险应该反映投资收益率在某一收益水平下的各种可能性高低,从投资组合价值变化角度看,风险应反映投资组合价值损失超过某一基准点的可能性大小.因此,对投资者而言,关注风险,就是关注其投资收益率或其投资价值出现在某一基准点以下的分布状况.基准下方风险度量(downsideriskmeasure)被认为是对传统证券组合理论的一个主要改进.但是由于各投资者的风险偏好和风险承受能力不同,所以每个投资者都有和他对世界认知相容的与众不同的基准点.包含基准点的风险度量模型很多,最普遍的和经常使用的基准下方风险度量是半方差(特殊情况)和LPM―――LowerPartialMoment(一般情况).其中半方差是一个更合理的风险度量标准(连Markowitz自己都承认这一点).无论从理论上,经验上,还是实践上,半方差都是和期望效用最大化(ExpectedUtilityMaximization)几乎完全一致的【4】【5】.它的一个改进―――半标准离差性质也很好,与基于偏好风险厌恶的一个公理化模型―――二阶随机占优(SeconddegreeStochasticDominance---SSD)也几乎是一致的【1】.但是哈洛(Harlow)的LPM模型更为成熟.哈洛在投资组合理论中引入风险基准(riskbenchmark)———投资收益率r的某个目标值T(targetrate),用LPM(lowerpartialmoments)度量投资组合的风险:
这里r为投资组合的收益率,F()为收益率r的分布函数,v为基准收益率.当n=0时,LPM0=P{r0,称Ri为综合风险偏差.那么上述的风险组合偏差只不过是综合风险偏差在θ=1的特例罢了.我认为,由于风险是不对称的,所以θ≠1.具体的结果,应该通过实证分析得到.
综合风险偏差Ri将正偏差与负偏差有机地结合起来,反映了两种不同性质的偏差对投资决策的影响.Ri越大,说明投资项目越具风险性;若Ri小于0,则非常具有投资价值.综合风险偏差都可以用来比较一系列投资项目的优劣.特别是当投资者比较注重投资的风险性的时候.
四,实证分析
应用上面介绍的理论模型度量金融资产或其组合面临的风险,前提条件是金融资产或其组合的价值变化或收益率分布必须是确定的,这在实际中往往是不可能的.在实践中有两种情况:一种是根据理论推导可以确定金融资产的价值或收益率变化的分布类型,只是分布参数未知.在这种情况下,可以利用统计学的参数估计方法(如点估计或极大似然估计法)来估计模型的分布参数,然后将估计的参数代入上述理论模型就可以测算风险量值.另一种情况是连金融资产的价值或收益率的分布类型也无法确定,在这种情况下,只能根据历史数据或情景模拟数据来刻画它们的经验分布,再根据经验分布测算其风险量值.实践中往往以后一种情况居多,因此在风险管理或控制中,历史资料的积累和相应数据库的建立是相当重要的.
因此,我取的数据为,上证股票从中按同分布随机抽样抽出5只股票历史数据,取每周周末的收盘价,时间范围为2001年1月5日-2003年4月30日经过作一些调整共形成115周的数据;同时在深证股票中进行同样的操作.分别计算它们的综合风险偏差,根据收益越大,风险越大的原则(即无套利原则,否则存在套利机会.),估算它们的θ值.同时,可以按原来的各种方法,模拟它们的分布,计算风险.最后用这些数据来比较各个风险度量标准的优劣.具体的数据表如下:
表一:上海证券交易所的股票
股票名称
浦发银行
啤酒花
九发股份
昆明制药
龙头股份
代号
1
2
3
4
5
20010105
14.41
28.96
12.24
17.85
19.55
14.33
28.20
13.15
17.45
19.01
13.99
27.30
12.75
16.85
18.60
13.19
25.02
11.56
15.58
17.45
11.98
24.60
11.40
15.30
17.92
11.68
24.37
11.40
15.65
17.49
20010302
11.64
25.35
11.84
15.79
17.60
12.12
24.98
11.85
16.00
18.35
12.04
26.78
12.08
15.84
17.67
12.74
27.00
11.52
15.96
17.79
13.06
27.01
12.04
16.87
18.30
12.65
27.96
12.00
16.50
18.29
12.60
27.93
12.01
17.25
18.45
12.98
28.10
11.71
16.75
18.20
12.57
28.12
11.49
16.35
18.20
12.52
28.28
11.40
16.38
18.23
20010511
13.15
28.12
11.68
16.41
18.24
12.99
29.87
11.58
16.50
18.12
13.08
31.02
11.83
16.97
18.54
13.20
31.12
12.04
16.84
18.63
13.10
30.10
11.99
18.00
19.08
12.95
30.58
11.90
18.16
19.77
12.70
31.02
11.74
18.49
20.38
13.18
31.92
11.86
18.88
21.05
20010706
13.69
30.80
11.71
18.70
20.30
13.70
31.12
11.65
18.70
22.08
13.93
31.42
11.75
18.15
22.38
13.65
28.73
11.02
17.78
21.39
13.06
27.57
10.25
17.30
20.79
13.21
28.42
10.29
17.38
21.28
12.84
27.88
9.89
17.25
20.87
12.33
27.67
9.80
16.85
19.88
11.63
27.20
9.11
16.68
19.28
20010907
11.36
27.40
8.97
16.52
19.15
11.96
27.33
9.13
16.84
21.13
11.60
27.47
8.94
16.97
20.56
11.25
26.77
8.84
16.82
19.88
10.46
24.07
8.64
15.00
19.78
9.55
22.50
8.03
13.19
18.52
10.34
23.78
9.76
15.45
20.35
20011102
11.38
24.02
9.71
14.89
21.22
10.77
22.92
9.35
15.18
21.00
10.10
22.74
9.25
14.28
21.10
10.71
24.38
9.60
14.75
20.99
10.80
24.03
9.89
14.82
21.73
11.09
24.45
9.66
15.32
20.99
10.39
23.88
9.10
14.61
21.44
9.95
24.72
8.95
14.11
20.78
9.90
25.21
8.92
13.91
20.62
20020104
9.76
24.57
8.79
13.89
20.63
9.09
23.63
8.03
11.70
19.40
7.95
21.13
8.57
11.60
17.92
8.17
21.92
8.75
12.65
17.71
8.41
22.72
8.24
12.36
18.17
8.87
22.22
8.46
12.19
17.40
20020301
8.81
22.34
8.29
11.80
17.75
9.77
23.72
9.30
13.58
18.97
9.55
23.13
8.78
13.52
19.99
9.85
23.65
8.98
14.09
19.73
10.09
21.95
8.56
13.66
19.51
9.20
22.33
8.58
14.22
19.68
9.58
22.12
8.83
13.93
19.26
9.22
21.34
8.73
13.55
18.68
9.32
21.70
8.72
13.71
18.72
9.43
21.89
8.89
13.92
20.46
20020510
9.16
21.12
8.67
13.76
20.90
8.69
20.69
9.41
13.04
20.94
8.45
19.94
9.77
12.89
20.09
8.23
18.99
9.54
12.77
19.28
8.33
19.39
9.71
13.27
19.72
8.00
18.74
9.48
12.99
19.18
8.56
20.45
10.22
13.50
19.70
9.75
20.91
11.03
15.52
20.11
20020705
9.77
20.57
10.92
15.41
19.56
9.40
20.54
10.51
14.97
19.54
9.39
20.84
10.49
15.00
19.72
9.10
19.74
10.03
15.10
18.95
9.12
19.76
10.10
15.37
18.07
8.99
19.50
9.75
15.30
17.81
8.96
19.95
9.78
15.41
17.35
9.24
20.45
9.88
15.69
17.74
9.19
20.66
9.60
15.85
17.52
20020906
8.88
20.14
9.17
15.50
16.57
8.62
20.38
9.24
15.25
15.96
8.54
19.98
9.42
14.93
15.97
8.54
19.98
9.16
15.35
15.18
8.12
18.62
9.25
14.55
14.33
8.14
18.37
9.43
14.25
13.72
8.10
18.44
9.61
14.22
13.66
20021101
7.92
18.08
9.60
14.40
13.66
7.91
18.26
9.63
14.73
13.40
7.62
16.82
8.43
14.25
13.13
7.19
15.85
8.02
13.85
12.13
7.30
16.39
8.31
14.21
12.68
7.13
15.64
7.93
14.03
12.20
7.09
15.72
7.86
13.98
12.08
7.22
16.24
8.09
14.06
12.92
6.92
15.85
7.72
14.06
12.25
20030102
6.45
15.25
7.37
12.84
11.84
6.77
15.54
7.61
13.41
12.55转.14
16.33
8.44
14.61
13.40
7.04
16.55
8.07
14.78
14.09
7.17
16.54
8.11
14.78
14.22
7.30
16.40
8.14
14.63
14.20
7.15
16.13
8.13
14.28
13.94
7.30
16.80
8.18
14.37
13.79
20020307
7.14
16.35
7.92
14.36
13.45
6.83
15.97
7.70
13.97
13.10
6.81
16.14
7.89
14.16
12.96
6.94
15.73
7.92
14.27
13.01
6.90
16.42
8.05
14.37
13.12
7.03
16.58
8.10
14.94
12.89
6.98
17.27
8.02
15.59
13.69
6.55
16.29
7.55
13.40
13.30
6.33
17.75
7.31
13.72
12.98
均值
9.92
22.57
9.65
15.08
17.73
收益
-0.31
-0.22
-0.21
-0.16
-0.09
正偏差ui
0.24
0.19
0.15
0.10
0.11
负偏差di
0.17
0.17
0.11
0.08
0.19
方差
5.24
22.29
2.12
2.64
8.73
没有参数的
-0.07
-0.02
-0.04
-0.02
0.09
加入参数的
-0.17
-0.13
-0.11
-0.07
-0.03
风险组合偏差
0.72
0.89
0.72
0.83
1.80
表二:深圳证券交易所的股票
股票名称
丝绸股份
江铃汽车
桂林集琦
中成股份
吉林化纤
代号
1
2
3
4
5
20010105
27.80
8.45
22.17
23.28
7.29
24.30
8.34
22.21
23.66
7.89
25.88
8.73
20.90
24.22
7.90
24.36
8.54
20.09
23.00
7.47
25.13
8.42
20.14
22.58
7.68
25.58
8.30
19.97
25.65
7.33
20010302
27.70
8.47
21.60
24.07
7.43
28.58
8.38
21.42
24.05
7.60
28.50
8.32
21.82
24.96
8.16
27.04
8.51
21.10
24.84
8.18
27.86
8.73
22.28
25.36
8.53
29.19
8.67
21.28
25.52
8.94
26.69
8.93
21.50
27.40
8.91
26.82
8.61
21.80
26.37
8.90
25.38
8.45
20.65
25.56
8.45
25.41
8.40
20.73
26.16
8.34
20010511
26.47
8.65
21.08
26.43
8.69
25.83
8.54
22.13
26.76
8.95
25.03
9.00
21.83
23.96
8.55
26.24
8.93
22.98
23.68
8.80
25.57
8.91
23.98
23.77
8.54
24.75
8.82
24.11
23.28
8.73
25.43
9.22
25.15
23.73
9.00
25.43
9.24
24.65
24.21
8.86
20010706
25.34
8.81
24.61
24.14
8.54
26.11
8.86
26.14
23.66
8.44
25.79
8.83
26.54
24.09
8.38
25.74
8.50
23.85
23.56
8.03
24.76
7.89
22.22
23.88
7.36
24.57
7.85
23.87
23.58
7.39
24.19
7.69
23.59
23.35
7.29
23.95
7.49
22.99
23.28
7.48
23.56
6.79
22.13
23.14
7.45
20010907
22.55
6.92
21.21
23.01
7.19
21.97
6.98
20.62
23.14
7.15
21.31
6.76
20.65
23.01
6.98
21.45
6.49
20.39
22.27
6.40
21.36
5.93
18.93
22.02
5.66
20.77
5.70
15.15
21.36
5.87
20.64
6.10
16.73
21.78
6.16
20011102
20.55
6.47
17.06
21.87
6.57
20.43
6.15
15.39
21.74
6.68
20.37
6.15
15.36
21.88
6.80
20.41
6.38
18.36
22.05
7.12
20.98
6.60
19.28
22.28
7.17
20.79
6.66
18.63
22.51
7.05
20.25
6.36
18.23
22.27
6.70
19.18
6.30
16.94
22.23
6.80
18.91
6.08
16.92
23.35
6.44
20020104
18.59
6.02
16.79
23.42
6.37
16.00
5.52
15.11
23.06
5.93
10.94
4.54
12.87
22.63
6.07
10.26
4.32
14.42
22.72
6.43
12.56
4.53
15.03
23.13
6.67
11.89
4.64
15.09
23.12
6.72
20020301
12.34
4.65
15.17
24.10
6.56
14.45
5.55
17.66
24.37
7.08
14.67
5.48
16.83
24.32
6.94
14.63
5.50
18.33
24.81
7.10
14.85
5.24
18.20
24.50
6.75
15.58
5.73
18.08
24.74
6.68
15.17
5.63
18.02
25.16
6.89
14.68
5.52
17.60
24.12
7.74
14.41
5.77
17.48
24.37
8.60
14.65
5.82
18.17
23.64
9.33
20020510
14.47
5.76
17.45
23.89
8.91
13.82
5.61
16.46
23.57
8.39
13.50
5.67
15.87
23.56
8.27
13.19
5.96
15.32
24.32
7.93
13.28
6.19
15.74
25.86
8.31
12.83
5.95
14.99
25.24
8.59
13.98
6.35
16.01
27.03
9.18
14.92
7.02
16.73
27.75
9.44
20020705
15.03
6.94
16.67
28.21
10.04
14.77
6.82
17.66
28.56
9.62
14.81
6.95
18.84
28.32
9.88
14.16
6.87
19.01
27.84
9.36
14.20
6.78
20.01
27.83
9.64
13.89
6.81
20.30
27.54
9.79
14.25
6.79
19.59
28.05
9.58
14.54
6.74
20.01
28.52
9.86
14.56
6.97
19.47
28.50
9.64
20020906
14.04
6.68
19.52
28.12
9.20
13.82
6.52
19.83
27.99
8.80
13.37
6.27
19.88
27.68
8.83
13.23
6.10
19.79
27.83
8.56
12.83
5.76
19.23
27.11
8.19
12.72
5.70
19.22
26.74
8.39
12.65
5.78
19.61
26.69
8.55
20021101
12.63
5.77
19.02
26.34
8.80
12.49
5.65
19.77
26.24
8.31
11.34
5.19
20.03
25.73
8.74
10.62
4.80
19.19
25.24
7.82
11.14
5.15
19.77
26.42
8.15
10.94
4.99
19.82
26.04
8.05
11.19
4.96
19.95
25.64
8.11
11.62
5.12
19.79
26.02
8.19
11.01
4.94
18.65
26.12
7.71
20030102
11.12
4.73
17.58
25.20
7.30
11.55
4.98
17.57
25.94
7.62
11.97
5.34
17.03
26.36
8.23
12.09
5.31
15.96
26.16
8.22
12.15
5.34
16.70
26.71
8.29
12.47
5.35
16.32
26.68
8.41
12.16
5.30
16.16
25.96
8.40
12.33
5.57
16.74
25.83
8.96
20020307
12.06
5.30
16.35
25.24
8.93
11.61
5.19
14.79
25.46
9.16
11.55
5.16
14.13
25.35
9.02
11.53
5.21
14.45
25.68
9.30
11.71
5.18
14.37
25.19
9.51
12.04
5.33
14.40
26.55
10.30
11.89
5.46
15.44
26.21
10.15
11.01
5.06
13.85
25.56
10.68
10.83
5.04
12.68
24.35
12.77
均值
17.81
6.57
18.90
24.90
8.12
收益
-0.36
-0.22
-0.15
0.07
0.11
正偏差ui
0.35
0.21
0.12
0.06
0.10
负偏差di
0.27
0.16
0.14
0.06
0.13
方差
35.43
1.93
9.00
3.41
1.37
没有参数的
-0.08
-0.05
0.01
0.00
0.03
加入参数的
-0.17
-0.11
-0.03
-0.02
-0.02
风险组合偏差
0.77
0.74
1.09
0.95
1.28
备注:(1)所有的数据都不是原始数据,均经过处理,原因很简单,因为在这两年间,这些公司都派发了红利,主要有送股和直接派送现金两种方式,也有的公司进行了配股,因此股价在派发红利时产生剧烈变动,所以我根据派发红利的方式和比例进行了还原计算,将所有价格都调整到2001年未派发任何红利的基准情形.
(2)所有的数据都只保留两位,但是计算并没有简化,只有最后结果才显示两位.所有有时会看到0.14-0.12=0.01的情况,这是正常的.
(3)收益是以均值作为最后价格进行的计算,因为如果只用最后一周的收盘价,显然有失偏颇.正负偏差也是以均值作为期望值的.
(4)由于这两年中国的利息率非常之低,同时还征收利息税,所以我忽略了利息的影响,令rf=0.
(5)两个表格中,所有股票都是按收益从小到大进行排序,编号,以便于比较各种风险度量方式的优劣.
所有的股票都是按收益排序的,根据无套利原则(收益越大,风险也就应该相应的越大),他们的风险也应该是由小到大排序的.从表格的数据中我们可以明显的看到,方差是紊乱的,与收益并没有明显的线性关系,所以可以断定,投资者并没有使用方差作为他们度量的依据.风险组合偏差比方差要好一些,在上海市场上,有一个数据没有按照递增排列,而在深圳市场上有两个.说明这种度量风险的方法也是不够好的.再看看没有参数的情形(也就是没有θ,直接用di-ui来作为度量风险的标准),在两个市场上都有一个数据没有按照递增排列,所以这个情形也不够好,但是相差也不远,所以我引入参数θ.下面通过无套利原则(收益越大,风险也就应该相应的越大)来估算θ的值.
由收益越大,风险也就应该相应的越大的原则(无套利原则),那么,用这四个不等式组成的不等式组,分别计算上海和深圳两个市场上的θ值,可得在上海市场上,0.09<θ<0.67,取中值,所以θ1=0.38;而在深圳市场上,0.57<θ<.75,取中值,所以θ2=0.66.更一般的,令,可得中国市场上,不对称系数θ=0.52.
这个结果令我很迷惑,根据心理学和行为经济学的研究成果【6】,风险是不对称的,负偏差对人们效用造成的影响应该比正偏差大,所以θ应该比1大才对,但是现在居然只有一半,和心理学和行为经济学的研究成果完全不符.这很奇怪!我分析主要有以下几个可能的原因:
1.中国的证券市场并不完备,这是大家公认的.即使美国也只是弱完备市场.我收集不到美国的数据,所以没法进行比较分析.可能市场的不完备性影响了数据的真实有效性.
2.心理学和行为经济学的研究成果可能讨论的是普通人,也就是一般人在经济生活中的行为,比方说买菜,买衣服这一类,但是证券市场上全是投资者,可能他们的效用函数与普通人是不一样的.特别是在中国市场上,存在相当多的投机者,他们都想以小博大,一夜暴富.因此他们往往不在乎负偏差,而更关心正偏差有多大.这几年股票的收益并不好,在上海市场上,全部五只股票收益都是负数,而深圳市场上也有三只股票收益为负.在这样的情况下,投资者虽然有所减少,但是仍有相当数量的投资者选择留在市场中.这充分说明了他们并不关心负偏差,而更关心正偏差有多大,想抓住一个正偏的机会发一笔财.在这种情形下,θ=0.52<1也就不足为奇了.
3.当正偏差超乎寻常的大时,人们就顾不上负偏差了.这就好像彩票,管理中心已经说了,拿出50%作为彩金,也就是任何投资的理性预期收入应该时投入的一半,但是由于有一个微乎其微的概率得到一个超乎寻常的正偏差――五百万,人们对彩票乐此不疲.这实际上也是一个投资中不理性投机的行为.证券市场上也是如此,前些年,市场很不规范,有少数人钻空子赚了不少钱,这就成了那个超乎寻常的正偏差.人们就纷纷仿效,根本没有理性分析情况的变化,就忽视了负偏差.这可能也是θ相当小的原因.
五,新的风险度量标准在投资决策中的应用
用综合风险偏差很容易解决在本文第一部分中所提到的例证.很明显,基金A和基金B相对于rf的负偏差均为0,也就是说两者都不存在绝对风险,两者的正偏差分别为rA=rf+0.5,rB=rf+1,从而两者具有不同的综合风险偏差-0.5和-1.显然B的综合风险偏差较小,故投资于基金B比较有利.
对于一般情况而言,显然投资者应该选择综合风险偏差较小的证券组合.
下面就单一证券投资方案的选择举例,对证券投资组合的选择可类似地讨论.设有A,B,C三种证券,时间周期为半年,预期收益率及发生的概率如表1所示(预期收益率的概率分布可通过对历史数据的观察而得出,此处仅举例说明风险调整收益在投资决策中的应用,故假设各种可能的收益率发生的概率均为1/6)【10】.
表1证券A,B,C半年期预期收益率(单位:%)
Si\Pj
1/6
1/6
1/6
1/6
1/6
1/6
A
-10
-3
20
6
-5
10
B
-20
-8
6
40
20
-2
C
-5
-2
2
8
4
-4
设基准收益率rf=2%,取中国证券市场的不对称系数θ=0.52,则计算如表2所示.
表2证券A,B,C半年期预期收益率的综合计算指标(单位:%)
Si
ri
Vari
di
ui
Rgi
Ri
A
3.00
1.23
8.00
10.00
0.80
-5.84
B
6.00
4.58
12.00
20.00
0.60
-13.76
C
0.50
0.26
5.67
4.00
1.42
-1.05
由上表可以看出:
若考虑平均收益率的大小,应选择证券B进行投资;
若考虑用方差表示的风险指标,应选择方差较小的证券C进行投资;
若考虑以负偏差表示的证券的绝对风险,就选择证券C进行投资;
若综合考虑方差和风险,则证券A的方差比较小,收益比较大,值得考虑投资;
若考虑风险组合偏差,则证券B的风险组合方差最小,应优先考虑投资;
若考虑综合风险偏差,则应选择证券C.证券C的综合风险偏差最小.
事实上,市场上能无风险的获得收益率2%,那么没有人愿意去投资平均收益只有0.5%的证券C,因为这样还要承担一定的风险,虽然有可能使自己的投资收益超过2%.
可以看出,风险度量指标及投资决策指标的选择对投资决策的结果有着决定性影响.因此,风险度量指标与投资决策指标的选择合理与否将直接决定投资行为的成败.
RiskMeasureandItsInfluencetotheInvestmentDecision
JingFang
(BusinessSchool,WuhanUniversity,Wuhan,430072)
Abstract:Thispaperreviewthehistoricalmethodofriskmeasure,pointouttheirlimitation,supplyawaytorecomposeitandanewindexofriskmeasure---synthesisriskdeviation.AnddemonstrateandanalysewithmorethanonethousanddatainthestockmarketinChina,explaintheusageofitwithexample.
KeyWord:riskmeasure,positiveandnegativedeviation,synthesisriskdeviation
参考文献
[1]WlodzimierzOgryczakandAndrzejRuszczynski,《FromStochasticDominancetoMean–RiskModels:SemideviationsasRiskMeasures》,InternationalInstituteforAppliedSystemsAnalysis,InterimReport,IR-97-027/June
[2]DavidNNawrocki,《ABriefHistoryofDownsideRiskMeasures》,JournalofInvesting,1999,Fall
[3]ZengjingChenandLarryG.Epstein,《Ambiguity,RiskandAssetReturnsinContinuousTime》,RochesterCenterforEconomicResearch(RCER),workingpaperNo.474,2000,(7)
[4]JavierEstrada,《Mean-SemivarianceBehavior:AnAlternativeBehavioralModel》,CentroInternacionaldeInvestigacionFinanciera(CIIF),ResearchPaperNo.492,2003(2)
[5]JavierEstrada,《Mean-SemivarianceBehavior(Ⅱ):TheD-CAPM》,CIIF,ResearchPaperNo.493,2003(2)
[6]RichmondHarbaugh,《Skillreputation,prospecttheory,andregrettheory》,2002,(3)
[7]EckhardPlaten,《AMinimalFinancialMarketModel》,2000,(9)
[8]ThomasJ.LinsmeierandNeilD.Pearson,《RiskMeasurement:AnIntroductiontoValueatRisk》,1996,(7)
[9]刘春章黄桐城陈汉军,《风险调整收益及其在投资决策中的应用》,决策借鉴,2002,(10),75-77
[10]马国顺,《一种新的风险度量指标》,西北师范大学学报(自然科学版),1999,(2),19-21
[11]邹辉文陈德棉,《关于风险的若干问题及其在风险投资中的应用》,同济大学学报,2002,(9),1145-1151
[12]张宏业,《证券组合风险的分析》,中央财经大学学报,2000,(6),46-48
[13]陈金龙张维,《金融资产的市场风险度量模型及其应用》,华侨大学学报(哲学社会科学版),2002,(3),29-36
[14]曹永刚王萍类成曜,《现代金融风险》,北京:中国金融出版社,2000
[15]韦廷权,《风险度量和投资组合构造的进一步实证》,南开经济研究,2001,(2),3-6
[16]黄威华,《β系数与证券投资风险的度量》,内蒙古财经学院学报,2001,(3),36-38
[17]傅志超,《股票投资风险的度量与控制》,经济数学,1994,(1),60-63
[18]朱世武张尧庭徐小庆,《一种新的股市风险度量指标及其应用》,经济数学,2002,(6),1-9
[19]戴浩晖陆允生王化群,《单时期下一种新的风险度量方法及其应用》,华东师范大学学报(自然科学版),2001,(9),33-38
[20]吴开兵曹均华俞自由,《风险度量与风险控制》,上海经济研究,1999,(4),42-49
[21](意)皮埃特罗.潘泽(美)维普.K.班塞尔,《用VaR度量市场风险》,綦相译,北京:机械工业出版社,2001