大数据时代的概述范例6篇

大数据时代的概述

大数据时代的概述范文1

[关键词]高等理工教学名词训诂学数据拟合

[中图分类号]G420[文献标识码]A[文章编号]2095-3437(2014)16-0071-02

一、训诂学与高等理工教学的联系

高等理工教育中的文化教育的重要性已得到了社会的普遍认同和接受,我国著名教育学家杨叔子先生[1-2]多次提出“教育的宗旨是素质教育,教育的方式是文化教育”的观点,尤其强调了民族文化的重要性,提出了“民族文化就是民族的基因”的真知灼见,对于“大学有无民族文化,有无民族精神,即有无真正的中国特色”进行了深入的剖析。

如今,深入挖掘中国传统文化,将中国特色的文化底蕴与现工高等教育教学过程相结合是一项具有深远意义的工作。高等理工教学中,包括大量的名词概念,很多概念艰涩而抽象,名词的定义往往占据较大篇幅,并辅以大量的练习加深对概念的理解和记忆。而训诂学是我国传统文化的瑰宝,是文字学的重要研究内容,将古代的话加以解释,使之明白可晓,谓之训诂[3],即指疏通解释古代典籍文献和研究古代语言文字的意义。严格的说,只有训释古语古字的用义才能称为“训诂”,而随着时代的发展,训诂学应不断更新观念,运用科学方法,走多向的现代化发展之路[4],训诂学要从“经学附庸”的旧框子里解放出来,密切联系今天大、中学校的教学[5],使这一古奥艰深的学问成为服务于现代教学的利器。

基于此,本文引入训诂学的方法论,提出在高等理工教学过程中对名词概念——以数据拟合为例——的思想渊源及与之密切联系的概念进行分析,使之达到望文生义的效果,易于理解和记忆,为相关的研究和教学提供参考。

二、训诂学释义示例

(一)数据“拟合”的训诂学释义

数据拟合是数值分析教学中的重要概念,也是教学难点。为了绕开复杂的理论推证过程,形象、直观的对这一概念的含义进行理解,从概念的字面含义入手,探求其字面背后蕴含的意义。

从训诂学的角度讲,“拟”(繁体为“擬”),为形声字,从手,以声,本义为揣度,猜测,后又有类比,效仿,打算,起草、初步确定等意。其中,拟人是一种文学作品中常见的修辞手法。“合”,会意字,从亼,三面合闭,从口,本义:闭合,合拢。

基于上述,“数值拟合”可以解释为:初步确定或草拟(拟)某一函数,调整此函数的参数,使得该函数与已知数据(实验数据)的分布趋势最大限度的重合(合)。如此,通过对“拟合”这一名词概念的训诂学解释,建立名词概念的内涵与字面含义的联系,达到望文生义的效果,将较大程度的有助于对概念内涵的理解和记忆。

(二)“拟合”训诂释义的联系与拓展

训诂学释义可以简单直观的解释名词概念的内涵,还可以根据释义的表述,推断和界定概念的特征与概念之间的联系,从而进一步有助于对概念的理解和记忆。在本文所给的示例中,通过对“拟合”的训诂学解释的表述,可以归纳和引申出如下两点数据拟合计算的基本特征:

1.拟合函数需根据数据的分布趋势“拟”定,并非完全精确的函数或真实函数本身;

2.所求拟合函数与已知数据最大限度的“合”拢,但不会完全重合。

通过对上述“拟合”概念的训诂学解释,并结合数据拟合计算的基本过程,可知对初步拟定的函数,需要代入已知点,形成方程组,将本属于方程变量的参数替换成已知量,求解各个参数,从而确定出拟合函数的具体形式。求解方程系数的过程,其实质是待定系数法。

利用已知点形成含待定系数的方程或方程组,通过解方程或方程组求出待定的系数,或找出某些系数所满足的关系式,这种解决问题的方法叫做待定系数法。[6]一般用法是,设某一多项式的全部或部分系数为未知数,利用两个多项式恒等时同类项系数相等的原理或其他已知条件确定这些系数,从而得到待求的值。[7]可见,待定系数法的基本思想是将本属于方程变量的参数替换成已知量,从而建立成只包含未知系数的方程组,使得未知系数成为方程组的未知数,从而求解方程组得出未知系数。

虽然拟合函数中多项式系数的确定需通过待定系数法,但与传统意义的待定系数法也存在着差别。首先,根据上述拟合的训诂学解释可知拟合需要假定函数形式,与已事先给定函数形式的待定系数法不同。

拟合算法通常设拟合函数由一些简单的“基函数”(例如幂函数,三角函数等等)φ0(x),φ1(x),…,φm(x)的线性组合来表示[8]:

f(x)=c0φ0(x)+c1φ1(x)+…+cmφm(x)

通常取基函数为1,x,x2,x3,…,xm,要确定出系数c0,c1,…,cm,从而确定函数的具体形式,其方法是代入m组实验数据,(x1,y1),(x2,y2),…(xm,ym)组成m个方程的方程组:

求解上述m个方程中的个未知数c1、c2、…、cm即可确定函数形式。

其次,由于函数的基本形式并不是理论上精确的,而是通过c1、c2、…、cm系数值的调整从而尽可能的逼近真实函数(与真实函数“合”拢),加之拟合函数多为非线性多项式,所以方程组的系数c1、c2、…、cm理论上很难求取精确解,其求解精度一般在最小二乘的约束下取得,即使得min[f(xi-yi)]2达到最小。

(三)相关概念的比较

通过上述基于训诂学示例的释义及由其释义引申出的概念特征与联系,可见训诂学能够更加深入的揭示概念的内涵与外延,更容易甄别概念内涵的共性与差别。本文给出的示例中,待定系数法与数据拟合的最基本思想都是利用已知点确定函数中的系数,从而实现函数形式的精确确定,因此存在基本思想的共性。但二者之间也存在差异,为了简明,将上述对二者的特性讨论总结成表1的形式如下:

三、结语

大数据时代的概述范文2

数据库技术的现状及其发展趋势研究开题报告

数据库技术的现状及其发展趋势研究开题报告 专业:信息管理与信息系统 学生:**学号:0924620036

一、选题背景及意义:

数据库技术主要研究如何存储、使用和管理数据 ,是计算机技术中发展最快、应用最广的技术之一。作为计算机软件的一个重要分支,数据库技术一直是倍受信息技术界关注的一个重点。尤其是在信息技术高速发展的今天,数据库技术的应用可以说是深入到了各个领域。当前,数据库技术已成为现代计算机信息系统和应用系统开发的核心技术,数据库已成为计算机信息系统和应用系统的组成核心,更是未来信息高速公路的支撑技术之一。因此,为了更好的认识和掌握数据库技术的现状及发展趋势,本文对有关数据库发展的文献进行了收集整理,以求在对现有相关理论了解、分析的基础上,对数据库发展进行综合论述,对数据库技术发展的总体态势有比较全面的认识,从而推动数据库技术研究理论的进一步发展。

二、论文综述 1、数据库技术发展历程:许多年以来在数据库技术领域很少有重大的技术创新能够引起人们对整个数据库发展历程的回顾与反思。2006年DB2 9中推出的pureXML技术,对过去数十年来关系型数据库的最基本的数据组织方式进行了重大的创新,第一次让我们对数据库的历史,以及过去支撑其发展壮大的理论基础和外部挑战从新的角度进行审视。 今天我们很少去回顾数据库的历史,对于绝大多数IT技术人员,数据库等同于关系型数据库,数据则和表紧密联系。E-R模型几乎是我们描述世界的唯一方式,SQL语言是数据库信息访问处理的唯一手段。关系型数据库已经成为了一种宗教式的信仰,数据相关的所有理论问题似乎都已经解决。

然而历史的发展总是在我们不经意间产生转折,所有重大技术的产生及发展都有其生存的土壤。40年前数据库的诞生并不是关系型数据库,第一代的数据库第一次实现了数据管理与应用逻辑的分离,采用层次结构来描述数据,是层次型数据库(IMS)。第二代数据库奠基于上世纪70年代E.F Codd博士提出的关系型理论以及SQL语言的发明。实现了数据建模和数据操作处理的标准化,关系型数据库在其后的20多年的时间取得了长足的发展,得到了广泛的应用。技术的演进主要集中在性能、扩展性和安全性等方面的提升,其基本的理论框架和技术理念并没有大的变化。

与之相反,在过去的20多年里,IT产业发生了重大的变化和一系列技术及理念的创新。数据库所生存的外部土壤随着Internet以及在网络环境下IT系统互联互通相互协作的趋势,对信息管理技术提出了新的挑战。

2、 国内研究的综述:《移动数据库技术研究综述》《Web数据库技术综述》《Web与数据库技术》《数据库技术发展趋势》

三、论文提纲

(一)数据库技术概论

1、数据库技术概念及类型

2、数据库技术发展历程

3、数据库技术应用

(二)数据库技术发展现状------关系数据库技术仍然是主流

1、发展现状概述

2、Oracle概念及应用

3、Access概念及应用

4、SQL概念及应用

5、DB2概念及应用

6、发展现状总结

(三)数据库技术发展的趋势

1、下一代数据库技术的发展主流面向对象的数据库技术与关系数据库技术

2、演绎面向对象数据库技术

3、数据库技术发展的新方向非结构化数据库

4、数据库技术发展的又一趋势数据库技术与多学科技术的有机结合

5、未来数据库技术及市场发展的两大方向数据仓库和电子商务

6、数据库技术的实践性发展面向专门应用领域的数据库技术

(四)当代与未来数据库研究的热点数据挖掘、知识发现与数据仓库

1、数据挖掘技术

2、数据仓库技术

3、知识发现技术

4、小结

5、结论

四、论文写作进度安排

(一)开题报告:论文题目、系别、专业、年级、姓名、导师

(二)目的意义和国内研究概况

(三)论文的理论依据、研究方法、研究内容

(四)研究结论

大数据时代的概述范文3

一、极限理论和实数理论的发展简史

关于数列或函数的极限定义,课本上首先是用“无限趋近”的语言和表达式“lim”给出的,学生已经能够理解。紧接着又给出极限的第二个定义即“εN”、“εδ”定义,学生反而难以理解,甚至认为这后一定义是多余的。由于此时还未讲到无穷小的概念和导数的定义,我们暂时还只能用适当的数据(例如对1lim(1)1nn∞+=,当ε依次取0.1、0.01、…,时,N相应取为10、100、…)和在数轴上描点等方式进行解释,以使学生对"εδ"定义先有一个初步的了解。后来讲到导数的定义,例如学生对此推导尚能接受,但在此时,教师就要讲述有关历史:首先是18世纪初贝克莱提出的悖论:他质疑x究竟是不是0?若是0就不能做分母,若不是0就不能消去。当时数学界无法回答这个问题,引起了所谓“第二次数学危机”。这说明初创时期的微积分虽然在应用上就已经获得了巨大成功,但在理论上是不严密的,贝克莱悖论切中了这一要害,刺激了数学家们努力建立微积分的严格基础。首先是柯西初创了极限理论,提出极限是变量“无限趋近”的确定目标;以0为极限的变量称为无穷小量,它不一定是真正的0,而是在其变化过程中具有无限接近于0,“想要多小就多小”的特点。但这种说法(即课本上的第一个定义)只是直觉的定性描述,虽然对澄清贝克莱悖论具有重大作用,却没有从根本上解决问题,例如未能区分函数的连续性和可微性,而当时已发现了很多连续但不可微的函数。直到19世纪中叶,维尔斯特拉斯明确提出了"εδ"方法,给极限概念以定量化的定义,用以重建严密的微积分理论体系,才从根本上解脱了“第二次数学危机”。所以"εδ"方法不是多余的,而是完善微积分理论和方法所不可缺少的。既然已介绍了“第二次数学危机”,于是学生自然会问什么是“第一次数学危机”?我们就索性进行解答:古希腊学者信奉“万物皆数”,而这些数只是整数及其比。但当时发现单位边长正方形的对角线长不是整数比,引起了恐慌,这就是“第一次数学危机”。所以从那时起,人们把整数及其比统称为“有理数”,而把非有理数称为“无理数”,有理数和无理数统称为实数。这次危机的解脱不在当时,而在两千多年后的19世纪,并且是在解脱第二次危机的同时,康德等人在极限理论基础上建立了严密的实数理论,才彻底认识了无理数。通过对这些数学史的简扼介绍,学生不仅对本课程的内容有了更深的了解,而且还对以前已熟知的有理数和实数概念有了进一步认识。

二、从古典概率论到近现代概率论的发展简史

从15世纪起数学家就开始研究以问题为主要内容的概率问题,到19世纪已经提出了大数定律、中心极限定理等重要内容,但概率论在理论上仍然很不完善,以致产生了一些悖论。例如,贝特朗悖论:求园内弦长超过圆内接正三角形边长的概率。依据“随机选择”的不同方式选取弦可以得到不同的答案;选择一组平行弦时,所求概率为1/2;选择从圆上某点引出的一组弦,则所求概率为1/2,等等。这种多值性揭示出“概率”这个基本概念本身就较模糊。同时,科学家们们把概率论应用于统计物理时,也感到需要先对概率论自身的基本概念和原理重新进行严密、准确的定义和论证。古典概率论的缺陷,缘由其概念和命题都是以实验为前提的,这种实验有时由问题本身明确规定,有时却不然,亦即概念和命题的建立都具有很大的随意性,缺乏足够的逻辑性、必然性和确定性。

大数据时代的概述范文4

[关键词]贝叶斯分析 情报分析 贝叶斯定律

[分类号]G35

1 贝叶斯分析在情报分析中的应用现状

贝叶斯分析是统计学领域的贝叶斯定理在情报分析中的应用。贝叶斯分析的目的就是通过以往发生的事件的概率,推断未来某一事件发生的概率,即进行未来某一事件发生的预测。

采用贝叶斯分析这一情报分析工具不仅可以精确地估算出各种假设发生的概率,而且可以把大量的证据信息通过概率估算融合成高质量的情报结论,这可为用户提供重要的决策依据。因此,贝叶斯分析在情报分析中有着重要的理论意义和实践意义。鉴于此,本文将试图以案例研究为基础,探讨贝叶斯分析在情报分析中的应用。

尽管贝叶斯分析在情报分析领域有着上述重要的研究意义,但是目前关于贝叶斯分析在情报分析领域的应用研究尚不充分。尽管目前关于贝叶斯分析的学术研究文章有很多,典型代表有文献[1-5],但这些文章仅是在数学领域研究和探讨了贝叶斯分析的基本原理、功能、过程、方法和应用,而没有将其移植、改进和挖掘到情报分析领域的应用研究。文献[6]是众多研究贝叶斯分析的学术研究文章中较少几篇研究贝叶斯分析在情报分析领域应用的文章之一,尽管如此,该文仅是进行了贝叶斯定理在情报分析领域应用中的过程描述,而没有详细、深入地进行贝叶斯定理在情报分析领域应用中的案例研究。因此,本文将以案例研究为主线,着重研究贝叶斯分析在情报分析中的应用。

2 贝叶斯分析的基本原理

2.1 贝叶斯定理的基本思想

该思想是由英国数学家马斯・贝叶斯提出的,具体内容为:虽然世界是不确定的,但如果已知以往事件发生的概率,那么根据数学方法就可以精确地、定量地计算出未来事件发生的概率。贝叶斯的这一思想和有关的公式算法,被人们称为贝叶斯定理。贝叶斯定理在基因工程、天气预报、经济预测等方面有着广泛的应用,特别是在情报分析领域中的情报预测作用更加明显。

2.2 贝叶斯分析的定理

预测的实质就是估算问题的每一种可能事件发生的概率,其本质就是对那些可以预测的事件给出发生的概率。因此,贝叶斯定理指出,对于那些可以预测的问题,各种可能性的概率都可以通过历史数据的统计计算得出。其具体的计算概率包括初始概率、似然比、后验概率,即先算出某一事件发生的初始概率值,在估算出该类事件发生的似然比并计算出该类事件发生的后验概率后,即可预测该类事件未来发生的概率,以完成对未来的情报预测。

2.3 贝叶斯分析的步骤

贝叶斯分析的基本操作步骤包括:建立假设群、估算初始概率p0(H)、建立证据列表{E}t、估计似然比PR、计算后验概率P(Hi|Ei)、持续监控。

3 贝叶斯分析在情报分析中的案例应用研究

贝叶斯分析的具体操作是运用贝叶斯定理对各种假设进行定量的概率估算,对假设群内的各个假设进行缜密的分析评估,并根据新增证据信息的变化随时更新分析结论,以实现对所获取的海量证据信息的真正融合。本文将通过案例来研究贝叶斯分析在情报分析中的应用步骤。

案例:新政府是否会继续支持生产枪支?

某地区的武装政权长期支持有组织的生产枪支的活动,并动用政权大肆向别国走私枪支以换取外汇。然而,近期,该政权控制区发生了暴动并产生了新的政权。那么新政权是否会继续支持生产枪支呢?本文将通过贝叶斯分析进行该类情报分析。

3.1 建立假设群

此步骤即为提出各种可能的假设,形成相互独立的穷尽各种可能的假设群的步骤。

为了分析与预测出该类情报分析的结论,笔者组织相关情报专家进行摸底会议,会上提出了多种可能的结论,这些可能的结论可归纳为以下三种假设:

H1:代表假设1,即新政权已经彻底放弃生产枪支的政策;

H2:代表假设2,即新政权将继续奉行生产枪支的政策;

H3:代表假设3,即新政权将逐渐放弃生产枪支的政策。

根据贝叶斯分析公式,此处H代表假设,{H}代表具有K个假设的假设群,即{H}=H1H2H3…Hk。

3.2 估算初始概率p0(H)

此步骤即情报分析人员根据贝叶斯分析公式,对所有假设赋予初始概率值p0(H)。

初始概率值p0(H),是指在不参照任何概率的情况下,各假设发生的概率。因为在假设群中所有假设发生的概率之和等于1,其数学公式为:∑P0(H)1-k=1,因此,通常情况下,当没有任何明确的证据支持或反对任何一个假设时,这些假设发生的概率相等,这时每个假设的初始概率p0(H)=1/k。根据此公式,案例的H1、H2、H3的初始概率值均为0.33%,如表1所示:

3.3 建立证据列表{E}t

本步骤即是建立案例的相关证据列表。

证据列表是关于某项需证实的问题的相关证据的列表清单,该清单是按时间顺序排列的。贝叶斯分析公式要求用E代表证据,{E}t代表由第1项至第t项证据组成的证据列表,如表2所示:

情报分析人员根据进一步获得的关于“新政权是否会继续坚持生产枪支的政策”的证据信息,建立案例的相关证据信息列表,如表3所示:

3.4 估计似然比PR

3.4.1 似然比的含义似然比是贝叶斯分析在情报分析应用中的核心概念。似然比描述了假设群{H}和某一证据E之间的关系,用数学语言表述为似然比PR=(当假设Hi成立时观察到的证据E的可能性)/(当假设H1成立时观察到的证据E的可能性)。即当假设Hi成立时观察到的证据E的可能性与当假设H1成立时观察到的证据E的可能性之间的比值就是似然比。

3.4.2 估测似然比的原因 之所以要估测似然比,是因为通过似然比可以直接发现情报人员所提供的原始情报中的非诊断性证据。通过这种方法,情报分析人员可以排除非诊断性证据,并为用户提供诊断性证据,以利于用户更准确地进行决策。非诊断性证据是情报分析中的一个术语,该类证据不能直接准确地支持某一类或某一个假设,而是支持所有的假设,对于这种不负责任的假设必须加以排除,才能确保某证据对某一类或某一个假设的准确支持。

3.4.3 似然比的估测步骤在贝叶斯分析中,似然比的估测步骤可以从第一时刻的证据E1开始。首先在假设1存在的情况下观察到t时刻的证据E1的概率相对数是1,然后再估计在假设2存在的情况下,观察到证据E1的概率相对数,以此类推,直到估计了所有假设成立的情况下,观察到证据E1的概率相对数。在此基础上,再对第二时刻的证据E2、第三时刻的证据E3分别进行似然比的估测。该过程通常可用似然比估测表来进行,如表4所示:

3.4.4 案例的似然比估测

根据上述贝叶斯似然比的含义和贝叶斯似然比的估测步骤,对案例的似然比进行估测,并建立估测表。

首先对于第一个证据“新政权领导人向媒体透漏,将放弃生产枪支的政策”进行似然比估测。情报分析人员假设:在新政权彻底放弃生产枪支政策(假设1)的前提下,新政权愿意放弃生产枪支这一经济政策的可能性为1。依据这一参照,情报分析人员通过集体评估认为,新政权在继续奉行生产枪支这一经济政策的前提下(假设2),新政权表态放弃生产枪支的经济政策的可能性为0.7;在新政权逐渐放弃生产枪支这一经济政策的前提下(假设3),新政权领导人表态放弃生产枪支这一经济政策的可能性为1。按照这种估测方式,情报分析人员对案例1其余的8组证据进行似然比估测,得出案例1的似然比估测表,如表5所示:

3.5 通过贝叶斯公式计算后验概率P(Hi|Et)

利用贝叶斯公式及原理进行情报分析的目的就是要对某一事件进行情报预测,而预测的实质就是要计算出每种问题的每种可能事件的发生概率。因此,进行这种情报预测,不仅要进行各种假设,搜集与这种假设相关的一系列证据,估测似然比,而且要计算出各种假设发生的概率,便于用户进行情报决策。

鉴于此,本步骤利用贝叶斯公式及原理,在建立假设群、搜集相关证据、估测似然比的基础上,计算每种假设发生的概率,以便预测某事件即将发生的概率,这一概率用数学公式表述为后验概率P(Hi|Ei),其计算公式为:

P(Hi|Et)=P(Hi|Et-1)/∑j[P(Hj|Et-1),PRtj] (1)

当t=1时,P(Hi|Et-1)=P0(Hi)

公式(1)中,Hi代表假设群中第i个假设,P(Hi|Et)代表t时刻观察到证据E1情况下,假设Hi的概率。Hj代表从Hi到Hk的各种假设。PRtj代表根据证据Ei估测的假设Hj相对于假设Hj的似然比。∑j代表对括号内所有公式计算后从第1到第K个计算结果的加总。P0(Hi)表示假设Hi的初始概率。

公式(1)的具体使用步骤为:依据每个假设的初始概率P0(H)和证据E1的似然比,通过贝叶斯的上述公式(1),计算出时刻1的各种假设的最新概率P1(H),这一新的概率是在考虑了证据E1的情况下,对初始概率的调整和更新。在此基础上,情报分析人员可以根据时刻1的概率P1(H)和证据E2的似然比,再通过公式(1)计算得到各种假设在时刻2的最新概率P2(H)。以此类推,情报分析人员可以将所有观察到的证据的似然比逐步纳入上述计算过程,不断对假设的概率进行更新。每当收集到新的证据,都可以估算出该证据的似然比,并依据上一轮计算得到的假设概率,计算出各假设在当前时刻的最新概率,这一最新概率即为贝叶斯分析的阶段性结论,如表6所示:

根据本文贝叶斯分析步骤2获得的初始概率、步骤4获得的似然比、步骤5的贝叶斯后验概率的计算公式和计算表,即可算出案例的三个假设的后验概率,如表7所示:

从表7中可以看出,案例的贝叶斯分析的阶段性结论为:新政权已经彻底放弃生产枪支经济政策(假设1)的阶段性最新后验概率为0.11,新政权将继续奉行生产枪支经济政策(假设2)的阶段性最新后验概率为0.01,新政权将逐渐放弃生产枪支经济政策(假设3)的阶段性最新后验概率为0.88。这说明,情报分析得出的阶段性结果是新政权将采取逐渐放弃生产枪支的经济政策。得出上述阶段性的结果,并不是贝叶斯分析的最终目的,贝叶斯分析的最终目的是要对该政权所采取的未来经济政策进行预测,因此,下一步就要对该政权所采取的经济政策进行持续监控。

3.6 持续监控

贝叶斯分析是个动态的情报分析过程,当最新的一个证据Et的后验概率估测完毕之后,还可以通过下一个出现的新证据进一步监控该类情报的下一步发展动态。本文通过将案例新出现的事件证据纳入贝叶斯分析步骤3的证据列表中,并通过贝叶斯分析步骤4和5,再次估算出案例假设群的最新概率,以便持续监控该类情报的新动态,如表8所示:

案例出现的新事件内容为:情报机构通过9月10日的情报交流又进一步获悉,新政权试图以制造烟花炮仗为由进口大量的火药,而当地并无大型的烟花制造厂。

情报分析人员以此新事件作为证据E10并对相应的假设概率进行了更新,完成了对该类情报的持续监控(见表8)。从表8中可以看出,新政权已经彻底放弃生产枪支经济政策(假设1)的最新后验概率为0.08,新政权将继续奉行生产枪支经济政策(假设2)的最新后验概率为0.01,新政权将逐渐放弃生产枪支经济政策(假设3)的最新后验概率为0.92。由此可以得出情报分析结论,即新政权未来的经济政策则是采取逐渐放弃生产枪支经济政策的形式。

4 结论

总之,在情报分析中不能像神话中的先知那样进行某一事件是否发生的预言,而应科学地预测某一事件该如何发生。目前,关于情报分析中的科学预测方法有很多种,本文是在案例分析的基础上着重研究贝叶斯分析在情报分析中的原理应用、预测功能及应用步骤。本文没有将重点放在贝叶斯分析公式的原理形成和公式推导过程等数学原理上,而是以独特的视角从实际出发,重点研究了贝叶斯原理及公式在案例情报分析中的实际应用,通过估测案例的初始概率、估算似然比、计算后验概率的科学方式,科学地进行了案例的情报分析和预测。

参考文献:

[1]张剑飞,数据挖掘中的贝叶斯网络构建与应用[J],高师理科学刊,2006(3):35-37

[2]慕春棣,戴剑彬,叶俊,用于数据挖掘的贝叶斯网络[J],软件学报,2000(5):660-666

[3]游达章,唐小琦,戴怡,等,贝叶斯理论的可靠性评估方法及在数控系统评估中的运用[J],中国机械工程,2011,22(3):314-317

[4]江敏,陈一民,贝叶斯优化算法的选择策略分析[J],计算机工程与设计,201l,32(1):266-269

[5]宋兵,李世平,翟兆松,等,动态测量不确定度贝叶斯评定的改进方法研究[J],中国测试,2011,37(1):35-37

[6]崔嵩,再造公安情报[M],北京:中国人民公安大学出版社,2008:579

大数据时代的概述范文5

随着物联网、云计算等技术的发展,软件的规模和开发人数也以前所未有的速度增长。如何利用强大的群体开发力量,采用群体智能技术,快速构造与演化规模庞大、功能复杂、技术创新、更新频繁、高扩展性的软件?以此为目标的群体软件工程论文已经成为云时代软件工程发展方向[1]。然而群体协同开发面临大规模数据的挑战:几十万名开发人员,千万行代码,上千版本版次,大量的需求、设计模型、测试用例、缺陷、变更、任务、讨论记录和邮件等,如何从这些分布异构的大规模数据中高效地知晓信息和发现知识成为难题。例如:当修改一个模块时,会影响软件系统哪些部分?对给定的一个特性、构件或API,谁是最合适的工程师?如何进行准确的缺陷预测和工作量估算?如何找到高质量的可复用代码?等。 

“软件即数据”[2],这些软件工程数据对于开发是至关重要的,但是,目前工业界对这些数据的处理与利用存在两大问题:1)信息知晓大都采用人工阅读、浏览和理解的方式,这样的方式对小规模的传统软件工程尚且适用,但当面对规模巨大的群体软件工程时,效率就显得极为低下。2)数据挖掘约80%研究集中在源代码版本库和缺陷跟踪库,其价值主要限于编程阶段,原因是这两类数据相对容易获得,结构较好,易自动分析。而软件工程的数据极其多样,除了版本库和缺陷库,还有构件、文档、测试用例、项目管理数据、讨论和邮件列表等;除了软件仓库中的结构化数据,还有非结构化的文本描述;它们具有极度异构性,又常常分布在不同的地方,同时由于程序员的遗漏或疏忽,数据之间往往缺乏细粒度语义关联,甚至关联丢失。 

因此,为支持群体软件开发中的信息知晓和数据挖掘,本文研究提出了一套基于本体的软件工程关联数据自动构建的方法,将包括源代码、模型、文档、开发人员信息、邮件列表等群体软件工程开发数据关联起来,并进行语义标注,构造大规模的关联数据(Linked Data),为后续的语义检索和数据挖掘奠定基础。 

本文的主要工作包括: 

1)首次提出了从软件仓库自动构建和融合生成软件工程领域本体的方法。 

2)提出了一种基于关系映射从关系型数据库中自动抽取关联数据的方法,与其他方法相比,本方法通过对抽取出的实例数据进行实例消解和属性消歧减少了数据冗余。 

3)提出了一种基于特征从软件仓库中发现潜在或遗漏的关联数据的方法,实验表明,本关联数据发现方法在精准率和召回率上都明显优于现有的其他方法。 

1相关工作 

本文研究涉及软件工程关联数据、关联数据抽取、关联数据发现三方面的相关技术。 

1.1软件工程关联数据 

关联数据通过资源描述框架(Resource Description Framework, RDF)、网络本体语言(Web Ontology Language, OWL)等形式将大规模异构、无序数据构建成一个计算机能够理解的具有结构化和富含语义的数据网络,相较于传统的数据存放形式具有扩展性强、富含语义信息等优点。因此,关联数据在近年来开始被运用到软件工程领域,用以应对当前越来越多、越来越复杂的软件工程开发数据。 

软件开发团队之间的协作是软件工程中一个长期存在的问题。一个开发团队的开发需要依赖于另一个团队的代码、应用程序编程接口(Application Programming Interface, API)、进度表、文档等项目开发构件[3],同时团队之间还需要经常有效地沟通与合作以保证项目的完成[4]。在这一需求的推动下,微软构建了基于社交网络的跨团队软件开发协作平台Codebook[5],通过建立连接图的方式,Codebook将软件库中的软件元件和相关人员信息都进行了连接。Kiefer等[6]构建了一个基于OWL的软件库数据交换模式EvoOnt,将源代码、知识库、Bug信息等关联起来,通过iSPARQL引擎来查询有关软件开发元件。而后Iqbal等[7]在此基础上提出了基于关联数据的软件开发方法,通过统一资源标识符(Uniform Resource Identifier, URI)从版本控制系统、缺陷跟踪工具和源代码中抽取数据,转化为RDF格式构建出关联数据,再采用SPARQL引擎进行查询。关联数据的引入给软件工程复杂的数据处理提供了一种新的解决方案,但国内外现有的研究大都只包括了源代码、版本信息、缺陷跟踪等,而对于模型、文档、项目计划、开发人员信息、邮件信息等数据还没有涉及。为了建立一个完整的软件工程语义信息网,发掘更多有用的信息,本文将基于本体提出一种更为通用的软件工程关联数据自动构建方法,一方面从已有的关系型数据库中抽取关联数据,另一方面从软件仓库中自动发现关联数据。 

1.2关联数据抽取 

国内外基于领域本体从数据库中抽取关联数据的研究开始较早,目前已有一些成果,其中大部分研究都是针对关系型

数据库到本体概念和关联数据的直接或间接映射。例如,Shen等[8]提出了根据关系模式概念、属性、约束和实例的规则,余霞等[9]提出了通过对关系型数据库分析来进行关系映射和属性映射的基于规则的映射方法。现有的方法大都从关系型数据库出发构建本体概念及关联数据,这类方法尽管在关联数据生成的自动化程度上存在优势,但抽取出的关联数据却存在很多的冗余数据,并且相应生成的本体会因为关系型数据库的不同而出现差异,造成其扩展性大大降低。而本文从软件工程领域本体出发,采用定制映射的方式,从关系型数据库抽取并融合生成具有统一本体概念的软件工程关联数据。 

1.3关联数据发现 

由于软件工程开发过程中的数据源信息存在多样性的特点,目前国内外在软件工程数据的关联发现方面的研究主要针对某些特定关联,通过分析已有关联数据获取特征,从而发现更多关联数据。张洪宇Wu等[10]提出的ReLink利用时间间隔、人员身份匹配和文本相似度三个特征来发现软件缺陷和软件变更之间的关联;Qusef等[11]提出的SCOTCH+通过程序切片和文本分析的方法发现测试用例与源代码之间的关联;McMillan等[12]则利用追踪链图(Traceability Link Graph, TLG)通过文本分析和结构分析的方法来发现需求文档与源代码之间的关联。这些基于信息检索技术的方法由于缺乏对信息语义的分析,仍然会漏掉许多重要的关联数据,同时这些方法用到的特征各不相同,因而难以应用在广泛的关联数据发现上。针对以上不足,本文提出了一种基于自然语言处理(Natural Language Processing, NLP)技术与信息检索(Information Retrieval, IR)技术将文本分析和结构分析相结合的通用方法来实现软件工程关联数据的发现。 

2方法框架 

针对目前群体软件工程开发中协同开发和信息知晓困难的挑战,本文提出了软件工程关联数据自动构建的方法,其框架如图1所示。 

该方法由4个步骤组成: 

步骤1根据软件仓库中的结构化元数据构建初始本体概念,并将来自不同数据源的初始本体概念进行融合产生领域本体概念。例如将软件缺陷跟踪库中的Bug表映射为软件工程领域本体中的一个概念,其字段作为概念的属性。 

步骤2通过构建出的本体概念从软件仓库结构化数据中抽取关联数据。例如Bug表中存放了许多Bug数据,通过映射规则每一条Bug数据都将映射为本体的实例,并与PERSON本体的实例相关联。 

步骤3利用NLP和IR等技术从软件仓库发现潜在的和遗漏的关联数据。通过同义词、动宾短语和结构信息三个特征对软件仓库不同类型数据集进行相似度比较,从而获取关联信息。 

步骤4抽取和发现得到的关联数据将作为实例扩充软件工程本体,同时更新的本体也将参与到本体融合的过程中,不断形成更为完善的软件工程领域本体。 

本文以下三章将着重阐述前3个关键步骤。 

3软件工程本体概念的构建 

软件工程本体概念包括软件工程领域中的核心概念、属性以及概念间的关系,它是构建软件工程关联数据的基础。本文根据软件仓库中的结构化元数据生成本体概念,并将来自不同数据源的初始本体概念融合生成目标领域本体概念。 

3.1初始本体概念构建 

本文首先采用基于规则的映射方法[9]针对软件仓库中的关系型数据库元数据构建相应的初始本体概念,构建过程主要包含以下两个步骤: 

1)抽取关系型数据库中的元数据信息,包括表名、列名、主键、外键和完整性约束等。

2)分析主键、外键等信息,利用关系映射规则创建新概念、概念层次、概念属性和概念关系等。 

利用上述方法构建出的软件工程初始本体概念片段如图2所示。 

3.2本体融合 

为了得到一个统一完整的软件工程领域本体,将来自多个数据源中自动构建的初始本体概念进行融合,首先需要识别出不同初始本体概念中的相似或相同概念进行合并。 

例如,在跨团队软件工程开发过程中,不同小组的软件缺陷数据可能存放在不同的缺陷跟踪工具中。在构建初始本体时,从Bugzilla抽取生成的初始本体中Bug这个概念是以“SoftwareEngineering#Viewbug”的形式存在,这个概念在从Bugfree得到的本体中以“SoftwareEngineering#Bug”表示。 

对于如何自动识别出相同概念,本文借鉴已有的本体融合方法[13-14,18],从概念的命名、属性和关系三个指标分别计算概念之间的相似度,进而对相同的概念进行合并。 

3.2.1相似度计算 

为了计算概念之间的相似度,本文主要考虑3个指标: 

1)命名相似。从关系型数据库中抽取的概念大都以表名作为名称,而在规范软件开发中名称反映了概念的含义,因此相似的名称往往对应着相似的概念。本文通过对字符串的编辑距离以及字符串长度的综合分析,得到概念名称间的相似度: 

Simname(G1,G2)=min(|c1|,|c2|)-edit(c1,c2)min(|c1|,|c2|)(1) 

其中:c1和c2分别表示概念G1和G2的名称字符串,函数edit(c1, c2)表示两个字符串的编辑距离。 

2)属性相似。初始本体的属性来自关系型数据库的列,两个概念包含的属性集越接近说明两个概念越相似。本文通过比较两个概念的属性集来判断其属性相似度: 

Simproperty(G1,G2)=R1∩R2R1∪R2(2) 

其中:R1和R2分别表示概念G1和G2的属性集。 

3)关系相似。在关系相似中,本文主要考虑继承和对象属性关联。即有着相似的父概念或子概念的两个概念越可能相似;和其他概念之间的关联关系越一致的两个概念越可能相似。本文通过考量两个概念的父子概念相似度来确定其关系相似度:

Simstruct(G1,G2)=Simfset(G1,G2)+Simsset(G1,G2)(3) 

其中:Simfset(G1, G2)和Simsset(G1, G2)分别表示概念G1和G2的父概念相似度和子概念相似度,其计算方法借鉴式(1)和式(2)。 

综合考量三个指标,通过比较概念之间的相似度结果和阈值便能识别出相同的概念将其合并。 

3.2.2本体概念合并 

在判断出相同概念后,需要将概念及其属性和关系进行合并以实现本体概念的合并。 

进行概念合并时,为了保持概念的明确性,本文将两个概念合并为一个,将其中一个概念(A概念)的属性和关系都集成到另一个概念(B概念)上,然后删除A概念。 

在进行属性或关系的合并时,将相似度高于阈值的属性或关系合并为同一个属性或关系。特别地,在关系合并时,需要同时合并关系所对应的定义域(domain)和值域(range)。 

4关联数据的抽取 

本文通过关联数据的抽取,将软件仓库中以关系型数据库形式存放的已经存在关联的数据及其属性和关系映射成为本体的实例。 

4.1关联数据映射 

在基于规则的映射方法生成初始本体概念时,本体概念及其属性和关系与软件仓库中关系型数据库的表、列和键等元数据已经建立了对应关系,因此在映射关联数据时,借助这些对应关系能直接创建映射文件,再通过映射文件的映射规则完成从结构化数据到软件工程领域本体的映射。 

领域本体与关系型数据库之间主要的映射关系如表1所示。 

例如,在针对软件工程领域本体与eclipse项目bugs数据集之间建立的映射文件中,视图viewbug与本体概念Bug对应,并以主键bugID作为本体实例标识;description作为视图中的列,与本体概念Bug的属性Bug_Description对应;reporter作为视图列,与本体概念Bug的关系Bug_ReportedBy对应 

(reporter列外键关联到的表Person对应于软件工程领域本体中的另一概念Person)。

通过上面的映射文件例子,viewbug中每一条数据将映射产生一个Bug概念的实例,并以bugID作为该实例的唯一标识符。在一条数据中,列对应的值数据项将作为当前实例的一个属性丰富实例;列对应的外键数据项将作为当前实例与外键对应另一概念的实例之间的关系添加到领域本体中。 

4.2实例消解 

为了将从不同关系型数据库抽取出的关联数据融合到一起,一方面需要将从各个结构化元数据中生成的本体概念进行合并,另一方面需要将本体实例进行对齐。 

例如, Bugzilla中有一个标识为“Katharina@gmail.com”的人,而在Bugfree中有一个标识为“katrin@hotmail.com”的人,而事实上这两个实例都指的是真实世界中的同一个人。因此,需要自动识别出这些相同的实例,并将它们对齐合并为同一个实例。 

本体实例消解时实例相似度计算及合并方法与本体融合时概念相似度计算及合并方法类似。 

4.3实例属性消歧 

本体实例消解是为了合并相同本体实例,消除实例之间的歧义;实例属性消歧则是为了处理在实例消解过程中被合并实例的属性值出现不一致的情况。 

对于多值属性,如Bug概念下实例的属性“Lable”,由于一个Bug可以有多个标签(Lable)描述,因此在出现多值属性不一致的情况时,本方法将保留所有属性值。 

对于单值属性,如SourceCode概念下实例的属性“CreatedTime”,由于一个代码文件的创建时间只能有一个,因此当出现不一致的情况时,需要进行判断选择。本方法采用基于属性所在实例的度(degree)及属性出现次数的“投票”方式决定属性的值。然而,为了不丢失信息,也为了适应本体的动态变化,本方法并不会直接丢弃在“投票”中失败的值,而通过另外创建一个多值属性,如针对“CreatedTime”创建“CreatedTime_Option”来保存这些值,以便在有新的实例合并进来时进行新一轮“投票”,同时当开发者对信息正确性存疑时,也能查到这些“可能正确”的信息。 

利用以上方法从关系型数据库中抽取的关联数据片段如图3所示。 

5关联数据的发现 

与关联数据的抽取不同,关联数据的发现是指针对存在潜在关联但尚未建立连接的数据,通过提取特征并进行分析重新建立连接的过程。 

在众多关联之中,本体不同概念所含实例间的关联一直是研究的重点和难点,如需求与代码间的关联、缺陷与变更间的关联等。本文从数据出发,针对软件工程非结构化关联数据间的三个特征进行建模,发现并重建数据间潜在的或遗漏的连接。 

5.1关联数据特征 

通过分析大量软件仓库数据集,发现存在关联的数据之间往往具有以下3个特征。 

同义词在软件开发过程中,不同的参与者对同一事物的描述并不完全相同。然而尽管各人都有自己的用词用语,但这些词语往往存在同义或近义的关系。 

大数据时代的概述范文6

要] 中美两国初中阶段“统计与概率”的内容标准在教学内容、知识背景、基本理念以及内容广度和强调重点上有异有同. 本文就中国的《新课标》与美国的《美国学校教育的原则和标准》中对初中教育阶段“统计与概率”的内容作了进一步的比较研究.

[关键词] 统计与概率;比较;研究

统计与概率是应用数学中一个非常重要的内容. 随着科学技术的进步与发展,我们的生活正在被以数据所构成的信息包围、控制着. 对一般的公民来说,学会对数据的认识、描述、分析与利用,是一项非常重要的能力. 在我们日常生活、自然、科技领域中,概率同样有着广泛的应用,它是我们解决一些问题时不可缺少的知识. 因此,在当今社会,概率与统计已成为每个合格公民知识素养中必不可少的一部分.

■ 背景分析

从 1933 年苏联数学家柯尔莫哥洛夫在他的《概率论基本概念》一书中首次给出概率的严格的公理化定义开始,随着生产和科学技术的飞速发展,概率与统计的应用也日益广泛. 正是由于概率与统计的这种广泛应用性,英、日、美、法等发达国家,在基础教育阶段就非常注重学生概率与统计知识的获得和概率与统计观念的发展. 美国在20世纪80年代明确提出,把概率与统计内容的教学延伸至幼儿园,提倡概率与统计教学的早期教育. 1989年的《美国学校数学课程与评价标准》是这种理念的具体体现,2000年《美国学校教育的原则和标准》更是强化了把概率与统计的教学提前到了幼儿园这种理念.

20世纪30年代,中国有一本使用很广的高中教材《范氏大代数》,其中列有“概率”的专章. 新中国成立初期,《范氏大代数》曾作为必修教材使用,但20世纪50年代学习苏联的数学教育,概率与统计被排除在中学数学课程之外. 1960 年,在“”思潮影响下的教育改革,把概率与统计内容放进了中学教材. 但由于在理论上要求过高、过深,在联系实际上又脱离中学生的生活实际,使得教师难以教、学生难以学,只在少数学校试验后不久就退出了教育舞台. 从1978年开始,历次数学教学大纲改革都规定了在初中3年级学习统计初步,但在执行过程中,统计教学并没有取得理想的效果. 2001年,我国颁布了《全日制义务教育数学课程标准》(简称《课标》),大幅度地增加了统计与概率的内容,并将统计与概率列入义务教育数学课程的学习领域. 2011年,我国又颁布了《义务教育数学课程标准》(简称《新课标》),《新课标》在《课标》的基础上做了适当地调整,使得统计内容学习的层次性更加明确.

■ 中美内容标准上的比较与研究

1. 中美“统计与概率”内容的比较

?摇本文将统计与概率的内容分为数据的收集组织和表示、数据分析、数据的推断和预测以及概率的应用四部分内容.

(1)中国《新课标》中的数据的收集组织和表示的内容包括:①能够收集、整理、描述数据,了解数据处理的过程;②会用扇形统计图表示数据,能用统计图直观、有效地描述数据. 《新课标》在《课标》的基础上增加了了解数据处理的过程以及能用统计图直观、有效地描述数据. 《新课标》注重学生学习的过程性,培养学生分析问题的能力.

美国数据收集组织和表示的内容包括:①关于两个总体的共同特征或者一个总体内的不同属性,能够形成问题、设计方案和收集数据;②合适而有效地选择、创造和应用数据的各种图象.

(2)中国《新课标》中数据分析的内容包括:①理解平均数的意义,会计算中位数、众数、加权平均数和方差,了解它们是表示数据的集中程度和离散程度;②了解频数和频率分布的意义,能画出频数直方图,能解释频数直方图的数据中蕴涵的信息;③能通过表格、折线图、趋势图等,感受随机现象的变化趋势. 《新课标》在《课标》的基础上增加了能计算中位数和众数的内容,扩大了学生的知识范围.

美国的数据分析内容包括:①发现、使用和解释集中和发散;②讨论并理解在数据组和它们的图形表示之间的联系,尤其是柱状图、茎叶图、直方图和散射图.

(3)中国《新课标》中的数据的推断和预测内容包括:①感受抽样的必要性,通过案例了解简单随机抽样;②体会样本与总体的关系,能用样本的平均数、方差来估计总体的平均数和方差;③能解释统计结果,根据结果作出简单的判断和预测,并能进行交流.

美国数据的推断和预测的内容包括:①从作好的样本发展关于总体特征的推测,通过模拟找出数据的差异;②在数据的散射图和相应的近似曲线的基础上,对样本的两种属性之间可能的关系进行推测;③使用推测去提出新的问题,并计划新的研究来回答它们.

(4)中国《新课标》中的概率的应用内容包括:①能通过列表、画树状图等方法列出简单随机事件所有可能的结果,以及指定事件发生的所有可能结果,了解事件的概率;②知道通过大量的重复实验,可以用频率来估计概率; 《新课标》明确指出所涉及的简单事件属于随机事件,强调事件的随机性.

美国的概率应用的内容包括:①理解并使用相应术语描述互斥事件和独立事件;②使用比例和概率的基本理解去做出和检验关于实验和模拟的结果的猜测;③通过表、树图和面积模型进行简单复合概率事件的计算.

2. 中美“统计与概率”内容的研究

(1)从中美两国义务教育阶段的内容标准可以看出,中美两国都把教学内容分为统计与概率两部分,两国都十分重视统计与概率之间的联系.

(2)中美两国都重视统计与概率知识的具体背景. 如中国《新课标》提出学生要经历在实际问题中收集和处理数据,利用数据分析问题、获取信息的过程,要通过实例了解简单随机抽样、了解频数和频数分布的意义. 美国《课标》则提出中年级学习数据分析时,要为学生提供丰富的情境去提出问题和解决问题. 中国《新课标》重视与实际生活的联系,而美国《课标》更重视使用模拟法处理问题.

(3)从中美两国义务阶段标准的基本理念的比较来看,中美两国都注重知识与技能的发展,都强调对统计与概率的思想方法的进一步学习和意义的进一步体会,如中国《新课标》提出学生能体会统计方法的意义,能体会抽样的必要性,可以通过样本平均数、样本方差推断总体平均数和总体方差,以及进一步学习描述数据的方法. 美国《标准》则提出中年级教师应当在学生已有的数据分析和概率经验的基础上帮助学生回答更加复杂的问题……此外,在对数据和统计的学习方面,学生能够应用并进一步发展他们正在形成中的对概率的理解.

(4)从内容广度和强调重点的比较上看,中美两国课标的基本内容没有什么明显的差异,但中国课标偏重于基本知识和基本技能,美国偏重于能力. 对基本知识和基本技能的掌握,有利于学生熟悉地掌握所学的知识,但容易造成学生的死记硬背,不利于学生能力的发展和创新意识的培养. 对能力的偏重,有利于学生发展数学思维和创新能力,但不利于学生对知识的牢固掌握.

■ 注重“概率与统计”和其他数学