数据分析方法范例6篇

数据分析方法

数据分析方法范文1

[关键词]财政收入;GDP;面板数据

中图分类号:F01 文献标识码:A 文章编号:1006-0278(2013)02-024-01

在计量经济学中,我们一般应用的最多的数据分析是截面数据回归分析和时间序列分析,但截面数据分析和时间序列分析都有着一定的局限性。在实际经济研究当中,截面数据回归分析会遗漏掉数据的时间序列特征,例如在分析某年中国各省的GDP增长数据时,单纯的截面数据回归分析无法找出各省GDP随时间变化的特征,使得分析结果没有深度。而如果只用时间序列分析,则会遗漏掉不同截面间的联系与区别,例如在分析中国单个省市的GDP随时间增长的数据时,无法找出各个省市之间经济增长的联系与区别,因而同样无法满足我们的需要。而面板数据,是一种既包括了时间序列数据,也包括了相关截面数据的复合数据,是近年来用得较多的一种数据类型。

下面我们将基于2000-2009年中国各省GDP和财政收入的面板数据的实例来详细阐述面板数据的分析方法。

一、GDP与财政收入关系的经济学模型

财政收入是保证国家有效运转的经济基础,在一国经济建设中发挥着重要作用。随着中国经济发展速度的日益加快,财政收入不断扩大,而扩大的财政收入又以政府支出来调节和推动国民经济发展。正确认识财政收入与经济增长之间的长期关系,把握财政收入与经济增长之间的相互影响,发挥财政收入对经济发展的调节和促进功能,对于完善财税政策,深化财税体制改革,实现财政与经济之间的良性互动,具有重要的现实意义。文章就将从中国各省的面板数据出发研究,中国不同地域间财政收入和GDP之间的关系。

二、实证分析

(一)单位根检验

Eviews有两种单位根检验方法,一种在相同根的假设下的检验,包括LLC、Breintung、Hadri。另一种则是在不同根下的假设前提下,包括IPS,ADF-Fisher和PP-Fisher5。检验结果表明所有检验都拒绝原假设,因此序列GDP和CZSR均为一个2阶单整序列。

(二)协整检验

如果基于单位根检验的结果发现变量之间是同阶单整的,那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。

在最终的结果中,Pedroni方法中除了rho-Statistic、PP-Statistic项目外都拒绝GDP和CZSR不存在协整关系的原假设,同样Kao和Johansen检验方法也都拒绝原假设,因此,上述检验结果表明,我国各省2000-20009年的GDP和财政收入面板数据间存在着协整关系。既然通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的,因此可以在此基础上直接对进行回归分析,此时假设方程的回归结果是较精确的。

三、建立模型

混合模型:如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。

我们根据混合模型的回归结果,得到财政收入和GDP之间的回归方程为:

CZSR=227.3123+0.103224*GDP

(26.47637)(0.002839)

R2=0.810995 F=1321.587

显然从模型的回归结构来看,R2的值达到了0.81,有了比较好的回归解释力,同时,GDP的回归系数为0.103224,表明各省的财政收入平均占到了国民收入的10.3%左右。

变系数模型:显然,在中国各省之间由于处在不同的地区,因而拥有不同的区位优势,那么各省的发展水平显然就不一样。正是由于这种不同的地方政策、管理水平、文化差异等会导致经济变量间出现一些关联性的变化,此时在进行模型回归的时候,我们就有必要考虑变系数模型。

在回归结果中,R2的值达到了0.97,比混合模型拥有更好的回归解释力,而在变系数模型回归结果中,GDP的回归系数大于0.5的只有、青海、宁夏三个省份,也就是说这三个省份的财政收入占到了GDP的50%以上,他们同处于经济并不是很发达的西部地区,由此可以看出,处在经济发达地区的财政收入占GDP的比重要低,而不发达地区则要高。

四、结论

通过以上的分析检验,我们发现针对于中国财政收入和GDP的面板数据,我们应建立起变系数模型,并通过模型分析,我们可以得出这样的结论,中国各省间由于存在着地域经济发展水平不同、管理水平不同以及国家的相关政策等诸多不同,造成了各省之间在财政收入以及国民收入上面存在着一定的差异。而回归结果也告诉我们,我国西部地区的财政收入占GDP的比例要明显高于东部地区,地区发展落后地区的财政收入占GDP的比例也要明显高于东部地区。因此,这为我们改善我国落后地区的经济发展提供了一定的新思路,就是对一地区的税收征收可以适当放缓,而将GDP中以前政府占用的部分归还于民众和企业,因为,按照发达地区的经验表明,财政收入所占比重过高,经济发展的活力或者就不会很高,对于进一步刺激财政收入的增加也没有任何帮助。因此,我们应该适度降低财政收入占GDP的比重,从而增加经济活力,使西部地区以及落后地区及早的跟上东部发达地区的发展步伐,从而消除我国经济发展的地域不平衡。

参考文献:

[1]谢识予,朱洪鑫.高级计量经济学[M].复旦大学出版社,2005.

[2]张晓峒.Eviews使用指南(第二版)[M].南开大学出版社,2004.

数据分析方法范文2

[关键词]大数据;市场分析;方法

doi:10.3969/j.issn.1673 - 0194.2017.02.056

[中图分类号]F270 [文献标识码]A [文章编号]1673-0194(2017)02-00-01

0 引 言

随着移动互联网技术的发展,人们越来越习惯于网络购物。在网上购物或刷微博时,常常会看到“猜你喜欢”“可能感兴趣的商品”等广告栏目。而这些内容都是大数据产业的成果,是面向大数据视野得到市场分析的结果。掌握这种市场分析方法,能帮助企业更好地了解消费者的需求,进而更好地开展营销活动。

1 大数据视野下市场分析的问题

在互联网得到普及应用的情况下,大数据时代已经正式到来。目前,互联网上的数据每年都会增长50%。而随着运动、湿度和温度等各类传感器的出现,企业接触到的数据信息也越来越多,而这些数据在给企业带来挑战的同时,也为企业提供了新的市场增长空间。加强数据挖掘和分析,能帮助企业精准地找到用户,从而通过降低营销成本、提高销售率实现利益最大化。因此,企业应面向大数据进行市场分析研究,以便通过统计和分析超大量的样本数据,获得更接近市场真实状态的市场研究成果。

2 大数据视野下的市场分析方法

2.1 基于大数据的市场调研方法

在过去较长的时间里,市场分析是以实地调查为前提,或是通过问卷调查和提供抽样技术,其目的均是为了获得消费者的答案。进入大数据时代后,企业开始通过网络调研进行市场调查。这种方法,能够方便、快捷且经济地完成市场调查。具体来讲,就是企业通过门户网站完成市场调研模块的建立,然后将新产品邮寄给消费者,并要求消费者在试用后进行网上调查问卷的填写,这样就能够投入较少的人力和物力来完成市场调研。由于这种市场分析方法具有一定的互动性,能够在概念阶段利用虚拟仿真技术完成产品测试,从而使消费者参与到产品的开发,进而使市场需求得到更好的满足。

2.2 基于大数据的市场信息挖掘

面向大数据视野研究市场分析的问题,企业可以发现有效的市场分析需要大量的数据信息提供支撑。所以,企业还要使用基于大数据的市场信息挖掘技术,以便对市场需求进行更好的分析。首先,在智能手机逐步得到普及应用的情况下,企业还应在移动终端开展市场研究,借助移动APP完成消费信息的采集。企业对这些数据进行深入分析,能够完成产品回购率、产品促销奖励评估和购买时点等内容的分析。其次,在零售终端,POS机得到较好的建设和应用下,企业可以通过扫描商品条形码完成购买地点、名称和零售价等信息的采集,进而使其更好地掌握商业渠道的动态信息。此外,消费者往往具有从众性,企业加强对社交平台的信息挖掘能更好的掌握消费潮流。比如,利用微博评论可以完成消费者对某种产品偏好的了解,从而完成消费者真实消费心理及态度的分析,进而更好地掌握市场信息。

2.3 多学科分析方法的引入

以往的市场分析通常需要采取社会学调查方法完成资料搜集,再利用数据分析软件完成数据分析,并获得描述性或预测性的分析报告。在大数据时代,由于要完成海量数据的分析,因此,可以引入相对论、整体论和跨文化比较研究等多个学科的分析方法,以满足大数据时代数据分析的需要。就目前来看,大数据来自各种移动终端和网络,其是能反映消费者行动过程和轨迹的数据记录,采用传统的市场分析方法难以对这种过程性数据进行分析,而引入以分析过程见长的人类学的分析方法,则能对市场消费者的行动过程进行描述,从而使消费者的行动趋向得到揭示。

2.4 定量与定性分析方法的结合

采取定性或定量这两种分析方法中的一种,可以完成片段式或截面式数据内容的分析。但在大数据时代,数据变得更加复杂,因此可以使用定量和定性相结合的分析方法进行市场分析。一方面,企业通过网络调研完成大量数据信息的搜集,从而采取定量分析法进行市场分析研究。这种方法,能够使市场研究人员成为“隐形人”,从而更加客观地观察消费者,并通过对超大样本量进行统计分析,完成市场状态的分析。另一方面,针对文本、视频和图形等非量化数据,可以通过智能化检索和分析来完成定性分析,以便在保护消费者隐私的基础上,更好地分析市场需求。

2.5 数据复杂属性的还原

在传统的市场分析工作中,可以将数据看成是一些片段而进行分析。而这样的分析,实际上是脱离具体情境和社会关系的分析过程,虽然可以根据自身经验和想象来进行情境原,但得到的研究结果却不够客观和科学。在大数据背景下,企业可以使用能够还原数据复杂属性的市场分析方法,以便更好地完成、嵌入某些社会关系的消费者的购买行动和轨迹的分析,进而获得更加有效及真实的分析结果。因此,使用的市场分析方法应更关注数据的社会背景,从而更好地完成大数据的整合与分析。

3 结 语

在大数据时代,企业要选择适当的市场分析方法,以便使自身的数据处理能力得到提高,从而通过获取的高质量的数据信息来提高自身竞争力,进而更好地适应社会发展的要求。因此,希望本文对大数据视野下的市场分析方法展开的研究,可以为相关工作的开展带来启示。

主要参考文献

[1]王云蔚.大数据背景下的消费市场研究[J].北京印刷学院学报,2014(1).

数据分析方法范文3

环境监测数据可以反映出某一区域内的环境质量状况、污染物的排放情况以及环境受污染的程度。各项数据的不断汇总并分析为各级环保主管部门以及相关机构做决策提供了技术依据。因此,采用健全的质量保证体系以及方法来保证数据的分析质量很有必要。首先,我们先来了解监测数据分析的方法。

(一)统计规律分析

就是采用数理统计方法、模糊数学方法以及适用于小同环境要素的数学和物理方程等方法,对所得的监测数据进行深度剖析,做出详细的分析评价。这种数据分析方法主要适用于环境调查、环境规划和环评等工作。

(二)合理性分析

实际的环境监测中,影响环境要素变化的因素错综复杂,而有效的能用于综合分析的监测数据十分有限,所以我们需要考虑到各种环境要素之间的相互影响,以及监测项目之间的关系,理论结合实际全面分析数据的合理性,这样才可能得到准确可靠的、合理的监测数据分析结果。

二、提高环境监测数据分析质量的方法

为了促进环境执法工作的严肃和公正,在科学化环境管理政策中,提高环境数据分析质量很有必要。在前人的研究工作基础之上,我们提出了以下几种方法来提高数据分析质量。

(一)加强审核

加强各项审核是提高环境监测数据分析质量的重要方法,它主要是指加强对现有数据的综合审核。在进行例行监测或是年度监测计划时,我们的工作一般都是连续性的展开的,一年或是好几年,因此,我们可以建立一个动态的分析数据库,录入每次的监测数据,包括每个污染源的详细信息(污染点的地理位置和排放口的排污状况等),在以后的审核中,我们可以迅速地在数据审核中对于同一采样点、同一分析项目进行新旧数据的分析对比。当数据分析结果出现异常时,可以及时的发现并找到原因,这可以对污染应急事故的发生起到提前警示的作用。另外,在数据审核中,也要密切注意到同一水样、不同的分析项目之间的相关性,比如:同一水体中氟化物和总硬度、色度和pH的关系、氨氮和总氮之间的相关性等,这样也能及时发现数据分析中出现的误差。

(二)加强监督机制

通过调研我们发现,目前在传统的监测数据质量控制系统中依旧存在许多不足,我们可以通过引入反馈和交流机制,加强监督机制来有效提高数据分析的质量。首先,通过强化平面控制,在系统内部全面优化管理的模式,提高工作人员的分析技术水平,尽可能的减少或消除数据误差,以此来提高监测分析的准确性;其次,我们应该主动接受来自外界的监督,对于外界有异议的监测数据要进行反复的检测;再次,我们也应该多举办技术交流会,让技术人员可以与各级环境监测部门的人员沟通,学习他们的先进技术和方法,同时进行数据分析结果对比,找到自身的不足,发现问题并能及时更正。

(三)加强采样及实验室测量质量的控制

1.采样控制

工作人员在每次采样前,都应该根据实际环境情况来制定采样技术细则,做好采样控制,比如:需要校准仪器并确保仪器可以正常运转;使用的采样管和滤膜要正确安装,采样器干净整洁没有受到污染源的污染,其放置的位置也能满足采样要求等。采集好的样品,要妥善存放避免污染。如果样品不能及时进行检测,考虑到样品的稳定性,最好将样品密封并存放在于冰箱中。

2.实验室测量控制

在实验室进行样品测试之前,首先应该对所要用到的玻璃量器及分析测试仪器进行校验。日常工作中,也应该根据各种仪器保养规定,对仪器定期进行维护和校验,确保仪器可以正常运转工作。其次,需要准确调配各种溶液,特别是标准溶液,配置时要使用合格的实验用蒸馏水。测试数据时,先要测定标准样品并绘制标准曲线。测定样品时要检查相关系数和计算回归方程,并对实验系统误差进行测验,每一步都不能少。

三、结束语

数据分析方法范文4

关键词 飞机抖振;响应数据;处理分析;方法讨论

中图分类号V2 文献标识码 A 文章编号 1674-6708(2014)123-0164-02

当飞机处于某种特殊气动弹性耦合效应下的时候,就会出现抖振的随机振动现象,如果战斗机处于大攻角飞行姿态,通常需要承载一定量的抖振载荷,这会直接导致飞机内部部件的疲劳损伤,使得飞机发生飞行安全事故的概率大大增加,在目前的处理方式中,主要是在飞机制造之后,如果发现存在抖振问题,会对设计进行适当的修改,或者是采取抑制减缓措施,这会导致耗费大量的时间与经费,在飞机的研发周期中采取有效的措施减少其抖振问题非常的必要,这就需要在飞机设计、风洞模型试验、飞机试飞几个阶段做好抖振响应数据的处理工作,本文就主要对此予以简单分析探讨。

1 抖振响应数据的预处理工作

飞机在发生抖振时,其会产生抖振响应数据,对这些数据在处理的时候,为了防止发生静态响应影响数据处理的结果,需要对飞机各种飞行状态下的抖振响应数据进行去除均值的预处理,一般情况下,为了方便叙述,会将飞机不同飞行状态下的数据依据时间顺序依次进行存放,其中一个飞行状态之下的抖振响应数据称作数据仓,选随机选择一个飞行姿态喜爱的抖振响应数据仓,根据合理的时间间隔,将数据仓内的数据进行划分,可以分为多个子数据块,然后逐一进行编号,表示为:1,2,…,N,应用这种方法获取的数据块中包含n个数据点,为了使分辨率得到保证,临近的子数据块之间相互重叠的部分应该达到百分之五十以上。

首先对子数据块内的数据进行预处理,并简单进行分析,形成第i个子数据模块响应数据序列,即:yi1,yi2,…,yin,i=1,2,…,N,n表示的含义是:数据点的数量。然后对第i个子数据块中的数据平均方根值进行计算,将其表示为:RMSi(i=1,2,…,N),其计算公式如下式所示:

之所以要对其均方根值进行计算,主要是为了进行响应数据的无量纲化处理,对于定位样本的关键状态具有积极的作用。然后要对第i个子数据块的一组峰值进行搜索,并要获得第i个子数据块中第j个峰值与该子数据模块RMSi的比值,实现统计量的无量纲化。

其次对其给定飞行状态的样本数据预处理进行简单分析,其预处理流程主要表现为:(1)形成数据仓的RMS序列;(2)对数据仓中各个子数据块的RMS值的均方根进行计算,记做RSS;(3)获得给定飞行状态下第i个子数据块的RMSi与RSS的比值,实现其统计量的无量纲化。

2 子数据模块的数据统计方法

首先分析子数据块统计量的概率模型,由机抖动响应具有一定的随机性,尤其是具有明显的分散性,所以在对其响应数据进行处理的过程中,采用适当的统计学方法建立模型,在上文数据处理方法的基础上,建立概率分布表模型。因为得到的子数据块的时间很短,可以假设其中的数据来自于同一个总体,并且能够保持相互独立,那么可以选择总体Zi的样本为:Zi1,Zi2,…,Zin,在抖振响应峰值特性的概率分布模型的描述中,常用的有:Gumbel分布与威布尔分布,应用威尔分布对第i个子数据块Zi进行假设,那么其概率密度可以用下式来进行表示:

其中,f(Zi)表示的含义是:Zi的概率密度函数,Gi表示的含义是:威尔分布的大小尺度因子;Bi表示的含义是:威尔分布的形状因子。那么可以将其概率分布函数表示为:

其次,简单分析子数据模块统计学量分布参数,本次研究中,对于其分布参数估计应用最大似然估计,建立起威布尔分布的似然函数,并应用相关的参数估计方法,得到其简化之后的威布尔似然函数值为:

然后对似然函数取对数,并应用迭代法对相关数值进行求解,就能够得到最大似然参数估计量的值。

最后应用χ2拟合检验法来对子数据块中数据是否符合威布尔分布进行检验,根据上文中的样本观察值及最大似然参数等,来对总体分布假设进行检验。

3 数据仓RMS值的分布统计方法

为了分析给定飞行状态下的数据仓分布规律,依据上文研究的结果,进一步进行研究,在编制飞机抖振疲劳谱的时候,要得到对应的飞行状态,以此为基础获取疲劳荷载值及疲劳寿命,最后校核飞机抖振强度,在此过程中,还需要找到飞机的关键状态,尤其是其运行过程中的极限状态,在给定的飞行状态下,对其数据仓RMS分布进行分析主要是为了确对几个关键的RMS水平进行确定,并在相应的子数据模块中对其进行定位,再结合其响应模型进行响应分布的分析,这能够保证其很好的满足后续工作的需求,通过对给定飞行状态下数据仓RMS值分布进行统计分析,再结合飞机抖振应用背景及以往的工程实践经验,可以对其相应数据应用经验步进函数来进行描述,就能够很好的满足抖振寿命估计、抖振疲劳谱编制、抖振强度校核等工作要求,这对机抖振响应数据分析处理质量及工作效率的提升都具有非常重要的作用。

4 结论

飞机抖振响应数据具有随机分布的特点,并且具有鲜明的分散性,在对其进行处理时具有较大难度,飞机长期处于抖振载荷之下,会对其部件产生较大影响,容易导致安全事故的发生,本文就结合其抖振响应数据的实际特点,提出了一种统计模型分析法,并对其分析方法中的关键步骤进行了简单分析,对机抖振响应数据的处理分析具有一定的参考作用。

参考文献

数据分析方法范文5

1 传媒行业进入大数据时代

大数据是一种时代现象,目前主要是商业概念。还未形成严谨的学术定义。过去,大数据通常用来形容一个公司创造或手机的大量非机构化和半结构化的数据,如网络日志、社会关系网络上的用户活动数据、互联网搜索引擎上的详细搜索记录等等。对于传媒行业,大数据指跨媒体或全媒体数据,如电视机顶盒的回路数据、电脑或移动终端收看视频的数据、社交媒体上对于收看节目的相关评论等。

当下我们提及大数据,还指一种解决问题的方法,即通过手机、整理生活中的方方面面的海量数据,并对其进行分析挖掘,从中获得有价值的信息,这种对大数据的应用与实践已经演化出一种新的商业模式,即公司的核心竞争力在于其拥有的数据规模以及它运用这些数据解决问题的能力。这种解决问题的方法在于对各领域情况进行量化分析:信息准确描述,使我们认知不清晰的方面变得清晰,帮助我们去判断现状和趋势、确定未来战略,在记录、表述、分析、重组后让它带来效益。

传媒业本身就是生产和传播信息的产业,大数据时代,传媒业大有可为:信息源更加丰富,传媒机构可利用数据资源,量化分析,更好地把握信息;对受众需求的把握更加准确,传媒机构可根据受众需求确定传播内容和传播策略,实现精准传播;传播效果的反馈对于不断调整内容和策略,赢得受众,提示品牌形象有很大帮助。首先数字化,让电脑处理这些数据即建立数据库;在数字化基础上进行数据化,变成软件可以识别的数据化文本:智慧地使用已有的理论和方法,让这些数据发挥价值——内容提取、分享、互动,让它们更好地服务于使用者,挖掘其中的商业性创新价值。然而大数据在中国传统媒体中的影响目前并未实现,虽然中国少数传统媒体已经实践或正在实践中,对于互联网媒体,这个领域的实践已经走在了传统媒体的前面。

2 借力大数据进行电视受众分析

2.1 过去的受众分析方法

其一,过去的人员测量仪,一种可以记录受众收看或收听时间的专门仪器,可以定时反馈给数据中心。其二,日记卡,由受访者填写特定格式的表格,记录自己的收视行为。其三,面访,通过上门或拦截访问了解受众的收视行为。其四,电话访问,由访员向目标受众打电话了解受众的收视行为。首先,记录受众观看行为的仪器是抽样的形式安装到用户家中的,这种仪器的安装行为本身对受众观看心理有一定影响,从而导致记录仪器的不准确。其次,观众观看行为的复杂性,这些信息资料庞大,不是简单的受众回访、记录就能得到准备的数据,需要更高的技术来测量。由此可见,这种简单的受众行为分析显然不能适应当下受众复杂的行为变化趋势,也不能够为电视媒体提供精准可靠的分析数据,我们需要借助大数据进行信息分析。

2.2 利用大数据分析电视受众行为

首先,海量电视收视样本监测。利用海量数据收集技术,获得传统的电视收视信息、数字电视、智能电视受众收视行为。目前大部分用户使用数字机顶盒,通过数字机顶盒可以实现信息的传送和反馈,而且这些数据包括内容丰富,有电视直播频道、网络视频资源库、付费点播频道、特色频道等等。数字电视的推广使受众点播回看、增值业务等行为纳入受众观看行为内,这是传统的收视监测难以监测到的。例如在北京市场,北京卫视(高清)、CHC动作频道等都是传统收视率监测很难监测到的频道,而在海量样本监测中均属于常规可监测频道。其次,整合网络视频、移动终端视频观看行为,量化分析受众观看行为。虽然新媒体时代下,互联网声称取代传统的电视媒体,但调查分析,互联网视频观看内容大部分还是传统的电视媒体提供的。媒体受众的行为变迁、跨媒体使用行为的增长,也要求对媒介受众行为监测更加精细化和综合化——如何在新媒体环境下更好地把握受众行为偏好,拓展电视媒体的经营空间,成功实现节目创新和经营创新?成为新时期电视媒体发展的关键议题。这就需要借助网络视频网站、移动终端视频观看数据,精准分析受众的观看行为。具体实施方面,需要电视媒体与网络视频网站合作,在为其提供视频资源的同时,电视媒体需要借助网络视频网站受众观看数据,加上从数字机顶盒获取的量化信息,进行深入分析,精准把握受众对节目内容的关注焦点、对节目发展的心理期待、对节目环节的个性意见、对节目品牌的情感归属等一系列重要问题,对电视节目的生产编排以及成长发展提供有力支持。再者,利用数据收集加工处理平台,挖掘受众喜好,为电视生产制作提供量化信息。大数据之大,重点并不是它的容量大,而在与其强大的数据收集加工处理能力,深入数据分析提取有效信息的能力,这才是大数据的真正价值,谁做到了这一点,就能在市场中获胜。

目前做电视媒体受众详细数据收集与分析的公司是基本上由尼尔森垄断的,中国并没有监管收视率调查的行政机构,做电视媒体受众分析的都是市场调查公司。目前尼尔森、央视索福瑞等调查数据较为权威,虽然价格不菲,但是大多数电视行业数据分析都是这几家做的。尼尔森根据客户的具体需求来定制调查方案,对于一般性的调查需求,尼尔森拥有一套在全球范围内得到认可的专有调查产品和方法,为客户提供最有力的可比性标准化数据。有少量传媒集团着手于专业调查机构合作,深入开发大数据的潜在功能,如2012年2月广东佛山传媒集团与尼尔森公司合作,寄希望于记住尼尔森大数据分析的平台,通过对数据的整合、分析、管理,为他们的转型发展提供战略性的策略依据。

对于电视媒体的受众调查分析,尼尔森采用第四代收视测量海量样本回路数据收视研究,这是全球最新的收视率测量解决方案:受众观看行为通过机顶盒的升级,使得机顶盒能够对观众开关机顶盒时间、转换频道、使用增值业务等具体操作行为进行精确到秒的准确记录,被机顶盒记录的数据通过有线数字电视网络,在一个高度安全的封闭通路中,传输至监测服务器进行多层加密,再通过互联网回传至数据处理中心,整个过程遮蔽了认为干扰的可能性,最大限度报纸了数据采集和传输的安全性,在理论上达到全样本测量。因为这些数据量大几乎达到全样本测量,需要进行量化分析,这就是大数据的应用。

广电行业目前处于三网融合的大环境 中,在这个过程中不可避免地相互渗透和交叉,经营上互相合作、互相竞争,内容上出现了融合,内容的融合意味着数据的融合。目前电视媒体对受众调查分析的意识开始增强,但在实践中电视媒体并没有全面应用数据融合带来的海量受众数据信息。而IT、家电等外行将利用技术进入广电领域对电视媒体有一定的警示意义,但是对于拥有优质精心制作的媒资的电视媒体,若能抓住受众行为在大数据时代下的变化,将是大赢家。

参考文献:

[1] 王建磊.互联网电视机顶盒发展现状及趋势[J].

数据分析方法范文6

关键词:数据质量;可用性;评估方法

随着大数据时代的来临,数据集合中劣质数据也随之大量产生,导致信息数据整体质量下降,数据的有效使用受到了极大限制。为了更加有效发挥各行各业大数据的作用,开展数据可用性研究具有较大的战略意义。

1 数据可用性定义

研究者们普遍认为,数据的可用性可以从数据的一致性、准确性、完整性、时效性及实体同一性五个方面进行考察,其具体定义如下:

①数据的一致性:指数据信息系统中各相关数据信息之间相容、不产生矛盾。

②数据的准确性:指数据信息系统中每个数据表示现实物体的精准程度。人们对数据进行操作的各个环节都可能影响数据准确性。

③数据的完整性:指数据集合包含的数据完全满足对数据进行各项操作的要求。

④数据的时效性:是指在不同需求场景下数据的及时性和有效性。对应用系统而言,往往对数据时效性要求较高,过时的数据即使分析出来了也不会对实际应用产生有价值的影响。

⑤实体的同一性:指同一实体在各种数据源中的描述统一。

一个数据集合,满足以上五个性质的程度称为该数据集合的可用性。

2 评估方法分析

对于数据可用性评估,国内外研究人员也进行了许多工作。以下从数据的一致性、精确性、完整性、时效性、实体同一性五个方面进行介绍和分析。

2.1 基于一致性的方法

文献[1]针对异地备份系统中数据持续变化的情况,设计并实现了一种基于累积摘要值的一致性检测方法。该方法解决了传统一致性检测需要中断备份任务的问题,保证了备份任务的连续性,并且能够迅速检测本地服务器和远程备份中心数据的一致性,提高了一致性检测的效率。

文献[2]从已有的一致性维护方法出发,针对海量数据多副本之间一致性维护,从一致性维护过程中所涉及的更新、更新传播方式、更新传播内容、更新冲突解决等几个方面进行了分析,提出了相应的解决办法。

文献[3]针对p2p分布存储系统中大型数据对象面临的数据一致性问题,提出了数据一致性维护方法plcp。该方法从提高更新传播速度和减少日志空间开销的角度进行了数据优化。同时针对数据更新的问题和关键属性更新的问题,提出数据一致性维护方法dacp和kacp。

文献[5]从无线传感网络数据安全的角度,结合一些廉价的保护技术,提出了利用跨层一致性评估信息整体质量的方法。

基于数据一致性的方法,主要体现在集中存储方面,对于分布式和非关系数据方面研究还较少,适用于海量数据的一致性评估方法有待进一步探索。

2.2 基于精确性的方法

数据精确性方面的研究结果比较少见,文献[6]从精确度低的角度,提出了对应的精确性评估算法。该算法考虑了一种基于可能世界语义的描述方法。目前的研究结果显示,数据精确性的评估方法还有待研究者们深入探究。

2.3 基于完整性的方法

针对海量关系数据中普遍存在的数据不完整现象,刘永楠等研究了关系数据完整性度量问题。针对数据的完整性计算问题,提出了数据完整性计算模型,以及精确算法和基于均匀抽样的近似算法。理论分析证明了近似算法可以达到任意的精度要求,可以高效地对数据完整性进行计算,通过在dblp数据上的实验验证了算法的有效性和高效性。

在具体应用领域,张少敏等利用iec61970对智能电网进行信息集成,然后根据完整性定义,对智能电网数据进行自动机建模,给出了一种无需对数据进行直接操作的数据完整性定量评估模型。

barcelo p等将传统的完整性理论扩展到xml数据上,讨论了不完整xml数据的表示问题。

另外,针对云存储服务中数据的完整性问题,一些研究者提出了pdp 和por。这两种方案都采用了概率性证明思路,即存储服务提供商向数据拥有者证明其完整的持有数据拥有者存储的数据。

基于数据完整性评估方面的结论还较少,特别是具有普遍适用价值的方法,还有待进一步研究。

2.4 基于时效性的方法

文献[7]针对历史评价数据时效性会影响评价计算准确性的问题,引入了评价数据的时间属性,构造了评价数据衰减因子,减小了时效性对于评价计算准确性的影响。

文献[8]研究了包含冗余记录的集合在给定时效约束下的时效性判定问题,并首次提出了时效性判定问题的求解算法.

在建筑能耗领域,文献[9]通过对几类典型公共建筑能耗数据的统计分析对比,提出了采用近1年的能耗数据作为统计样本的建议。

基于时效性方面的研究非常匮乏,已有的少量研究结论都主要针对一些特殊应用,还需深入系统的研究。

2.5 基于实体同一性的方法

实体同一性是数据可用性研究较多的一个方面,实体同一性研究主要涉及两类方法:第一类是从语义规则的角度进行同一性研究,这类方法主要通过经验知识来描述实体的同一性问题;第二类是从相似性的角度进行同一性研究,该类方法主要采用相似度函数来对实体同一性进行判定。