大数据的审计技术探讨

大数据的审计技术探讨

摘要:审计作为我国以及我党监督管理的关键组成之一,在保障国家经济秩序、提升财政资金使用效率、推动政府廉政建设、维护经济社会健康发展等方面,都具有重要作用。大数据时代的到来也推动着审计创新,运用大数据分析科技是实现审计事业全面覆盖目标的需要,而大数据分析审计工程则是影响中国审计事业未来发展方向的核心。

关键词:大数据;审计技术;技术分析

审计制度作为保证我国开展民主治国的根本制度,是我国依法使用权力约束的重要体系。审计制度的本质是我国管理体系内存在的一种内生制度,其具有防范、预防、抵御的免疫管理体系,其核心任务为健全民主制度,完善审计管理,推动我国社会经济健康运行与科学发展,进而更好地维护广大民众的切身利益,更是国管理的重要组成部分,故需完善大数据时代下的审计工作。

一、大数据分析审计方法和电子数据审核方式对比

电子数据审计的数据挖掘技术,主要依靠统计分析模块进行审计疑点发现和审计线索发现。通常,统计分析流程主要分为信息收集、清理、汇总、挖掘和可视化。传统环境下,常用方式包括账表分类、大数据搜索、数据分析、审计抽样和数值分析等。而在该类统计分析方式中,如Excel、Oracle、AO、ACL、IDEA等,作为主要的审计软件而被普遍采用。在大数据分析时代的会计活动往往包括国民经济运行中的所有大数据分析,而这种大数据分析常跨行业、跨领域,即具备了大量、多样、高价值、低密度等的大数据特点。根据资料类型对其进行分析,不难发现包含数据以及半结构化数据,其中涵盖照片、视频、文档等非数据内容。根据各个数据的实际来源对其进行分析后,可以发现单位内进行审计的相关数据信息以及资料,这些资料包括企业公开的信息。从目标入手,能够发现会计目标逐渐成为发现线索、评价风险、关注绩效的内容。审计工作不仅关系到企业违法违规的情况,还要求一旦发现企业制度存在的问题,需及时评估企业的内部控制风险,借助社会经济以及大数据技术,收集更多的信息内容,并对其展开分析,充分了解企业的发展情况,随后分析企业发展的趋势以及规律。此时,能够为企业以及国家提供更多的数据,随后制定合理的干预措施,便于企业做出决策。因此,大数据下的企业审计工作,具有收集、保存、管理、分析等多个功能,且在可视化的特点下,需明确其与传统方法的显著不同。所以,企业需明确大数据时代下,传统审计与电子审计方式之间的主要区别。

二、大数据审计采集技术

企业使用电子技术收集数据,直接关系到企业内审计工作的准确性,企业是否可以获得精准的数据内容,是决定企业能否开展下一步数据分析的关键。所以,企业在收集各个模型以及理论的基础上,可以发现采用大数据审计的关键如下:首先,电子数据的收集以及转换相关技术。其次,已经收集数据的完整性以及有效性。企业在收集数据的过程中,需明确研究重点为根据特定的领域、来源数据,制定具有针对性的收集以及处理形式。数据完整度以及有效性的检验,主要是根据当前审计的目标,并根据详细的审计标准以及规范,通过分析审计数据与准则的符合性,可以有效评价远程数据和本地数据的完整性与有效性。

三、大数据审计存储技术

处于大数据环境背景下的审计工作,保存数据的体系主要包含传统、新型以及分布式操作。由于审计工作的展开内容,多为一些敏感的数据信息,故对电子数据进行审计的过程中,不仅需要保证数据存储的有效性,还需保证数据的完整性,避免其被非法手段获取。而云存储信息技术是指运用分布式操作系统、数据库集群等现代信息技术,将互联网内的多个不同种类的数据进行协调,随后为大数据提供更多的技术,便于其访问各个内容以及业务。这一技术具有较高的可用性、低成本以及高性能的特点,故其是大部分数据存储的首选,再加上多副本以及数据完整性检验,均是大数据存储的关键技术。

(一)多副本技术多副本技术

可以减少大数据技术由于磁盘故障产生的损失,其是大数据存储过程中需处理的首要问题。多副本技术作为提高数据可用性的技术,存在一个主节点,以此保障副本内的收据一致性、数据可用性管理。整体数据均储存在工作节点内,且主要以多个副本的方式存储。主节点与工作节点主要采用心跳包通讯的方式,且当主节点出现故障之后,需自动开展病程分布工作,以此尽快恢复存在故障的副本。多副本技术是指多个副本供系统操作,该系统可以将一个数据分散存储在多个副本内。此时,其可以减轻系统存储数据的压力,提升可操作性以及系统运行功能。并且,当前这些云储存内的主流分布操作系统,均使用这一技术,可充分发挥其具有的价值。

(二)数据完整性验证技术

可证明数据持有(PDP模型)是典型的大数据储存资料认证形式,PDP模型主要是由Ateniese学者经过不同研究后,根据数据形态提出的相关方案内容。PDP可以分为两个不同的阶段,即预处理和验证。预处理过程中,用户提交相关文本以及数据后,可以获取修改之后的文本内容,并在本地保留原本的数据,服务端存储修改之后的文件。验证过程中,则由用户随机对服务器生成不同的挑战,随后结合服务器内存在的内容,获得完整的证据,及时将其传递给用户。用户通过验证内容,再加上预处理过程中使用的元数据,可以详细计算数据的有效性,以此保证数据的完整性。为了完成上述两个阶段的运算,PDP模型共包括四个基本计算,而为了提高有效性,上述计算均为多项式时间的计算。PDP模型仅能检验数据块是否完整,而无法恢复错误的数据块,这对挽回经济损失并没有帮助,于是,学者就设计了可恢复证明(POR模型)的方法,利用POR模型采用纠删码原理进行数据恢复。也可以扩充PDP模块,并支持动态操作,但该方法仅支持对数据的更改、删除和插入功能,而不支持对数据块的嵌入功能。

四、大数据审计分析技术

大数据挖掘中采用的数据挖掘技术和机器学习方法,是实现从检验式审计转向发现式审计的主要手段。云计算架构是进行大数据审计的主要框架。按照审计使用差异,可分为以下结构:批信息处理结构、流信息处理结构、混合信息处理结构等。首先,批信息处理结构通过把无依赖关联的大量数据分成多组小批量的生产数据,每群数据分布到各个区域的同时数据,完成大数据的分布式并行处理。批处理结构拥有最高吞吐概率,主要运用于事后审核,也是目前使用量最大的一个结构。其次,流处理结构与传统的批处理结构完全不同,它将信息看作如同从水龙头流出的水一般源源不断的到来,将收到的信息熔成数据块,即分配给相应的任务并进行信息处理,而信息处理的全部过程也是流式的。流处理结构的主要运用在对即时化要求较高的情景,速度通常可以达到秒级甚至毫秒量级,也主要运用在实时审计中。但因为即时化的特性,流程式处理大部分的结果都保留在存储器中,而不是直接存储在硬盘上。最后,混合处理结构结合了批处理的高吞吐度与过程管理的高即时化,因此基于过程式处理和批处理的混合结构也日益受到人们的重视,是未来审计应用的重点方向。其中,Spark是目前应用较为广泛的混合处理架构。Spark把数据组织为RDD(弹性分布式数据集)的方法,所有的运算工作均通过RDD完成,其过程和MapReduce框架非常相似,但为了提高工作效率,中间结果可只保留到存储器中,而不必通过磁盘。同时,为了满足流程管理要求,Spark了Steaming版本,它把所有输入数据流都以时间片(秒级)为单元加以分割,然后再以类似批处理的方法管理各个时间片数据。尽管借助云计算架构,可以显著提升审计大数据分析的时效性,不过要得出合理的审计分析结果,还需要借助大数据挖掘技术。大数据挖掘的目标与传统数据挖掘的目标是非常接近的,都是从大量复杂数据中获取了对数据挖掘目标具有重要价值的信息。而面向大统计的数据挖掘方法,则是在传统数据挖掘算法基础上发展起来的,因为它比采用传统大数据挖掘方式的数据源多、统计资料量大、类型复杂、数据价值存在的密度较低。因为大数据上的很多运算都可以用标准数据库的原语来表示,所以,为了方便地把传统资料挖掘的计算方式运用于大数据挖掘,部分学者已经对在关系代数中标准运算的MapReduce映射方式展开了研究。

五、基于区块链的大数据审计

大数据审计分析过程中,被审核人员所提交电子产品财务数据的真实性、正确性与完整度直接关系到具体实际审核业务的发展方向,对电子产品财务数据等会计信息真实性做出一定的鉴别和定义是人员顺利完成审核项目的基础环节,也是提高审核服务质量的重要基础。大数据分析审核的基础流程就是获取大量必需和完整的电子信息,构建被审核资料数据库,开展审查中间表、分析数据处理、延伸查实表以及审核取证工作,采集、交换、管理电子产品财务数据信息是实现大数据分析审计工作的基础工作,而电子产品财务数据的质量则直接影响着审核目标的实现。要想获取完整的、统一性的、可追溯的审核,电子数据信息质量尤为重要。数据处理过程中,将区块链技术作为关键技术,结合分布式网络结构,并采用多种数据信息技术,可以及时针对审核流程中电子产品数据信息的不安全因素,以区块链技术为基础,重点研究审核中电子产品数据信息采集及新闻真实性的核实机理、一致性传输与可溯源保存机理,以及安全性和可追溯性加强方案的实现机理。本文认为基于区块链技术的大数据审计,主要可以从如下几个方面进行研究:首先,在审计电子产品数据信息收集的过程中,由于在大数据处理环境下审计的电子产品统计数量多且繁杂,又牵涉诸多主体,所收集的电子产品数据信息中往往夹带着巨量噪音,其完全、真实感都很难保障。而通过区块链技术,就能够将所有审计节点单位的各种待审核电子记录进行自动收集,并将其定期分批加密进行传播。同时,通过分布式节点自动解密和确认机制,对各种待审核记录所涉及的信息关联方实现了交叉确认。经过确定的审核记录,数据在加入时间戳和密码机制之后被确认并进入区块链,而无法再进行更改。与传统的审计数据收集方式比较,采用区块链技术的审计数据收集方式将具备质量较高、真实、无法修改、可追溯性的优点,将大大减少审核流程中的上下一级重复性劳动,并解决了审计电子数据收集方式不全面、不真实,无法运用于全覆盖审核分析中的问题。其次,在审核电子商务数据分析中,我们可以利用区块链的时限戳管理机制,即以每组数据分析前后的时限戳为重要参量,根据审计电子商务数据传输方法、统计量、信息的重要性、可恢复力量等统计相关性信息,建立电子数据一致性评价模型,从而为数据传输过程中的安全性评价提供基础。最后,针对所存放的审核电子产品财务数据的安全与可靠性问题,以区块链的多数据副本共识技术为基础,将审核电子产品财务数据以多副本的方法分布式存放,并基于存放的位置、级别、管理授权等各方面的影响因素,对所存放的数据副本实行了本地评价,最后再将对每个数据副本的评价结果加以综述,形成各数据副本当前的存放有效性评价模型。然后以此为依据,对该电子数据的有效性做出评价,然后根据评估价值和该信息的应用范围确定有效性,防止错误信息流入审计报告体系,造成巨大会计风险。同时采用区块链技术对审计报告信息加以组合,并针对审计报告电子信息的类别、属性等诸多因素,以B+树等方法形成多索引。根据该索引和区块链的链式化构造,通过设计对数据修改记录的快速追溯监控方法,不仅追溯了存储中的不安全因素,还保证了重要数据的可重构性,为进行快速可追溯审计提供了基础。

结束语

大数据信息技术在各行各业中的广泛应用,为国民经济高速发展与社会和谐稳定提供了助力,同时也是实现信息审计全面覆盖的必然需要。根据现阶段会计信息化发展状况,系统梳理了电子数据审计的发展脉络,系统总结了大数据信息技术在会计电子数据的收集、保存、大数据分析与可视化等工作中的相关研究,探索了在大数据处理环境下电子数据审计所面临的新机遇、新挑战,并预测了未来的重点研发方向。同计算机辅助审计与物联网审计比较,大数据审计在思想模型、技术方法等方面,均有明显不同,虽然目前有若干探索性研究工作,但从总体来看,中国大数据审计的重点研发方向还有待进一步明确,而且还有许多问题亟待解决。

作者:陶燕 单位:武汉商学院