一、“大數據”時代的數據挖掘的應用與方法
數據挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)現知識。所以它所得到的信息應具有未知,有效和實用三個特征。因此數據挖掘技術從一開始就是面向應用的,目前數據挖掘技術在企業(yè)市場營銷中得到了比較普遍的應用。它包括:數據庫營銷、客戶群體劃分、背景分析、交叉銷售等市場分析行為,以及客戶流失性分析、客戶信用記分、欺詐發(fā)現等。審計部門的數據挖掘以往偏重于對大金額數據的分析,來確實是否存在問題,以及問題在數據中的表現,而隨著績效審計的興起,審計部門也需要通過數據來對被審計單位的各類行為做出審計評價,這些也都需要數據的支撐。
數據挖掘的方法有很多,它們分別從不同的角度對數據進行挖掘。其中絕大部分都可以用于審計工作中。1. 數據概化。數據庫中通常存放著大量的細節(jié)數據,
通過數據概化可將大量與任務相關的數據集從較低的概念層抽象到較高的概念層。數據概化可應用于審計數據分析中的描述式挖掘,
審計人員可從不同的粒度和不同的角度描述數據集, 從而了解某類數據的概貌。大量研究證實, 與正常的財務報告相比,
虛假財務報告常具有某種結構上的特征。審計人員可以采用概念描述技術對存儲在被審計數據庫中的數據實施數據挖掘,
通過使用屬性概化、屬性相關分析等數據概化技術將詳細的財務數據在較高層次上表達出來, 以得到財務報告的一般屬性特征描述,
從而為審計人員判斷虛假財務報告提供依據。2.統(tǒng)計分析。它是基于模型的方法, 包括回歸分析、因子分析和判別分析等,
用此方法可對數據進行分類和預測。通過分類挖掘對被審計數據庫中的各類數據挖掘出其數據的描述或模型,
或者審計人員通過建立的統(tǒng)計模型對被審計單位的大量財務或業(yè)務歷史數據進行預測分析, 根據分析的預測值和審計值進行比較, 都能幫助審計人員從中發(fā)現審計疑點,
從而將其列為審計重點。3. 聚類分析。聚類分析是把一組個體按照相似性歸成若干類別, 目的是使得同一類別的個體之間的距離盡可能地小,
而不同類別的個體間的距離盡可能地大, 該方法可為不同的信息用戶提供不同類別的信息集。如審計人員可運用該方法識別密集和稀疏的區(qū)域, 從而發(fā)現被審計數據的分布模式,
以及數據屬性間的關系, 以進一步確定重點審計領域。企業(yè)的財務報表數據會隨著企業(yè)經營業(yè)務的變化而變化, 一般來說,
真實的財務報表中主要項目的數據變動具有一定的規(guī)律性, 如果其變動表現異常, 表明數據中的異常點可能隱藏了重要的信息,
反映了被審計報表項目數據可能存在虛假成分。4. 關聯分析。它通過利用關聯規(guī)則可以從操作數據庫的所有細節(jié)或事務中抽取頻繁出現的模式,
其目的是挖掘隱藏在數據間的相互關系。利用關聯分析, 審計人員可通過對被審計數據庫中的數據利用關聯規(guī)則進行挖掘分析, 找出被審計數據庫中不同數據項之間的聯系,
從而發(fā)現存在異常聯系的數據項, 在此基礎上通過進一步分析, 發(fā)現審計疑點。
二、應對“大數據”時代,審計分析應做出的調整
從以上分析過程中,我們不難看出“大數據”時代的數據存貯、處理、分析以及挖掘的各個方面雖然與傳統(tǒng)方式相比,在技術層面上有了較大的改變,但是在基本的原理方面并沒有顯著的改變,原有的審計分析模式沒有必要因為“大數據”時代的來臨而急于做出相應的改變。然而“大數據”時代在給審計分析帶來機遇的同時,還是給我們帶給了相當大的沖擊,對此我們有必要引起相當的重視,并在日后的信息化建設過程做出相應的調整。
1、數據的存貯與處理。大數據分析應用需求正在影響著數據存儲基礎設施的發(fā)展。隨著結構化數據和非結構化數據量的持續(xù)增長,以及分析數據來源的多樣化,此前存儲系統(tǒng)的設計已經無法滿足大數據應用的需要。基于塊和文件的存儲系統(tǒng)的架構設計需要進行調整以適應這些新的要求。審計部門在選擇相應的存貯系統(tǒng)的時候,要對非結構化數據有足夠的重視,做好采集的相關準備。同時隨著采集數據的單位和年份越來越多,數據量必然是會有大規(guī)模的增長。即使是海量數據存儲系統(tǒng)也一定要有相應等級的擴展能力。存儲系統(tǒng)的擴展一定要簡便,可以通過增加模塊或磁盤柜來增加容量,甚至不需要停機。同時,為了提高數據的處理能力,解決I/O的瓶頸問題,可以考慮各種模式的固態(tài)存儲設備,小到簡單的在服務器內部做高速緩存,大到全固態(tài)介質可擴展存儲系統(tǒng)通過高性能閃存存儲都是可以考慮使用的設備。
2、非結構化的數據處理。非結構化數據的多元化給數據分析帶來新的挑戰(zhàn),我們需要一套工具系統(tǒng)的去分析,提煉數據。語義引擎需要設計到有足夠的人工智能以足以從數據中主動地提取信息。
3、可視化的分析。數據分析的使用者有數據分析專家,同時還有普通用戶,但是他們二者對于數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現大數據特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
“一個平臺、兩個中心”建設,是審計署目前信息化建設的重要內容。通過數據中心的建設,可以在相當程度上解決數據存儲與處理的問題;而數據式審計分析平臺,同樣可以在一定程度上實行可視化分析的相當一部分功能,但是對于越來越龐大的非結構化數據的存儲和處理,將會是審計部門接下來所面臨的最大的挑戰(zhàn)。
