24周年

財(cái)稅實(shí)務(wù) 高薪就業(yè) 學(xué)歷教育
APP下載
APP下載新用戶掃碼下載
立享專屬優(yōu)惠

安卓版本:8.7.50 蘋果版本:8.7.50

開發(fā)者:北京正保會(huì)計(jì)科技有限公司

應(yīng)用涉及權(quán)限:查看權(quán)限>

APP隱私政策:查看政策>

HD版本上線:點(diǎn)擊下載>

淺談?dòng)?jì)算機(jī)審計(jì)中電子數(shù)據(jù)的清洗

來(lái)源: 王猛 編輯: 2012/10/09 08:42:16  字體:

  隨著信息技術(shù)的發(fā)展和普及,審計(jì)工作已經(jīng)離不開計(jì)算機(jī)審計(jì)。電子數(shù)據(jù)審計(jì)作為計(jì)算機(jī)審計(jì)的一個(gè)重要組成部分,其有關(guān)理論、技術(shù)、方法得到了廣泛地研究、推廣和應(yīng)用,在審計(jì)實(shí)務(wù)中發(fā)揮了越來(lái)越重要的作用。

  眾所周知,電子數(shù)據(jù)審計(jì)的基本步驟包括數(shù)據(jù)提取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分析等四個(gè)基本步驟。其中數(shù)據(jù)清洗是轉(zhuǎn)換和分析的基礎(chǔ),一定程度上決定著計(jì)算機(jī)審計(jì)的最終質(zhì)量,數(shù)據(jù)清洗在電子數(shù)據(jù)采集中具有重要作用。因此,本文在闡述了數(shù)據(jù)清洗原理的基礎(chǔ)上,提出電子數(shù)據(jù)采集中常見問題的數(shù)據(jù)清洗方法。

  一、數(shù)據(jù)清洗原理

  數(shù)據(jù)清洗(data cleaning),簡(jiǎn)單地講,就是從數(shù)據(jù)源中清除錯(cuò)誤和不一致,即利用有關(guān)技術(shù)如數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘或預(yù)定義的清洗規(guī)則等,從數(shù)據(jù)中檢測(cè)和消除錯(cuò)誤數(shù)據(jù)、不完整數(shù)據(jù)和重復(fù)數(shù)據(jù)等,從而提高數(shù)據(jù)的質(zhì)量。業(yè)務(wù)知識(shí)與清洗規(guī)則的制定在相當(dāng)程度上取決于審計(jì)人員的經(jīng)驗(yàn)積累與綜合判斷能力。因此,審計(jì)人員應(yīng)按以下標(biāo)準(zhǔn)評(píng)價(jià)審計(jì)數(shù)據(jù)的質(zhì)量。

 ?。ㄒ唬?zhǔn)確性:數(shù)據(jù)值與假定正確的值的一致程度。

 ?。ǘ┩暾裕盒枰档膶傩灾袩o(wú)值缺失的程度。

 ?。ㄈ┮恢滦裕簲?shù)據(jù)對(duì)一組約束的滿足程度。

 ?。ㄋ模┪┮恍裕簲?shù)據(jù)記錄(及碼值)的惟一性。

 ?。ㄎ澹┬裕壕S護(hù)的數(shù)據(jù)足夠嚴(yán)格以滿足分類準(zhǔn)則的接受要求。

  二、數(shù)據(jù)清洗的必要性

  從被審計(jì)單位采集到的審計(jì)數(shù)據(jù)千差萬(wàn)別,為了能更好的服務(wù)于審計(jì)分析和審計(jì)查證的需要,必須對(duì)采集的電子數(shù)據(jù)進(jìn)行全面的清洗。

 ?。ㄒ唬┍粚徲?jì)單位信息系統(tǒng)的多樣性帶來(lái)了數(shù)據(jù)不一致性。開展計(jì)算機(jī)審計(jì)必然面臨各式各樣的迥然相異的被審計(jì)單位信息系統(tǒng)。被審計(jì)單位信息系統(tǒng)的差異,必然給審計(jì)工作帶來(lái)數(shù)據(jù)的不一致性問題。主要有以下表現(xiàn)形式:

  1.同一字段在不同的應(yīng)用中具有不同的數(shù)據(jù)類型。如字段“借貸方標(biāo)志”在A應(yīng)用中的類型為“字符型”,取值為“Credit/Debit”,在B應(yīng)用中的類型為“數(shù)值型”,取值為“0/1”,在C應(yīng)用中類型又為“布爾型”,取值為“True/False”。

  2.同一字段在不同的應(yīng)用中具有不同的名字。如A應(yīng)用中的字段“Balance”在B應(yīng)用中名稱稱為“Bal”,在C應(yīng)用中又變成了“Currbal”。

  3.同名字段,不同含義。如字段“月折舊額”在A應(yīng)用中表示用直線折舊法提取的月折舊額,在B應(yīng)用中表示用加速折舊法提取的月折舊額,等等。

  4.同一信息,在不同的應(yīng)用中有不同的格式。如字段“日期”在A應(yīng)用中的格式為“YYYY-MM—DD”,在B應(yīng)用中格式為“MM/DD/YY”,在C應(yīng)用中格式為“DDMMYY”。

  5.同一信息,在不同的應(yīng)用中有不同的表達(dá)方式。如對(duì)于借貸方發(fā)生額的記錄,在A應(yīng)用中設(shè)計(jì)為 “借方發(fā)生額”與“貸方發(fā)生額” 兩個(gè)字段,在B應(yīng)用中設(shè)計(jì)為 “借貸方標(biāo)志”與“借貸方發(fā)生額”兩個(gè)字段。 對(duì)于這些不一致的數(shù)據(jù),必須進(jìn)行轉(zhuǎn)換后才能供審計(jì)軟件分析之用。數(shù)據(jù)的不一致性是多種多樣的,對(duì)每種情況都必須專門處理。

 ?。ǘ┍粚徲?jì)系統(tǒng)的安全性措施給審計(jì)工作帶來(lái)障礙?;诎踩钥紤],被審計(jì)單位的系統(tǒng)一般都采取一定的加密措施,有系統(tǒng)級(jí)的加密措施和數(shù)據(jù)級(jí)的加密措施。特別對(duì)具有一定含義的數(shù)據(jù)庫(kù)的表與字段的名稱,一般都要進(jìn)行映射或轉(zhuǎn)換。例如,將表命名為T1,T2…; 將字段命名為F1,F(xiàn)2 …。對(duì)于這樣的數(shù)據(jù),不進(jìn)行含義的對(duì)照與清洗就不明白表或字段的經(jīng)濟(jì)含義,審計(jì)人員是無(wú)法處理的,各種各樣的加密措施不勝枚舉,這些都給計(jì)算機(jī)審計(jì)帶來(lái)了障礙,也給數(shù)據(jù)清洗帶來(lái)挑戰(zhàn)。

 ?。ㄈ徲?jì)目的的不同決定了審計(jì)數(shù)據(jù)的范圍和要求不同。被審計(jì)單位的信息系統(tǒng)規(guī)模不一,數(shù)據(jù)量相差懸殊。審計(jì)人員不可能也沒有必要將被審計(jì)單位的所有數(shù)據(jù)都采集過來(lái)。審計(jì)工作有自己的目的和要求,需要處理的往往是某一時(shí)段或某一方面發(fā)生的數(shù)據(jù)。這樣就要求審計(jì)人員選取一定范圍的、滿足一定要求的審計(jì)數(shù)據(jù)。例如,在關(guān)稅審計(jì)業(yè)務(wù)中,關(guān)心的只是與稅收征管有關(guān)的報(bào)關(guān)單、加工貿(mào)易、減免稅、貨運(yùn)艙單、稅單等相關(guān)數(shù)據(jù)庫(kù)的數(shù)據(jù),而對(duì)于操作員授權(quán)管理等系統(tǒng)控制數(shù)據(jù)庫(kù),在不對(duì)系統(tǒng)進(jìn)行評(píng)價(jià)時(shí),可以不采集。同時(shí),審計(jì)目的不同,對(duì)原始數(shù)據(jù)的要求也不同。在對(duì)銀行貸款利率執(zhí)行情況檢查時(shí),需要帶有計(jì)息標(biāo)志和利率信息的每一筆貸款的明細(xì)數(shù)據(jù),如果這樣的信息分布在被審計(jì)系統(tǒng)的若干張表中,換句話說,如果被審計(jì)單位不能提供完全滿足審計(jì)要求的數(shù)據(jù),就有必要對(duì)采集到的數(shù)據(jù)進(jìn)行清洗轉(zhuǎn)換。

 ?。ㄋ模?shù)據(jù)清洗是數(shù)據(jù)分析、處理的前提。計(jì)算機(jī)軟件設(shè)計(jì)一般都是基于一定的數(shù)據(jù)結(jié)構(gòu),專用的審計(jì)軟件更是如此。在輸入數(shù)據(jù)不滿足軟件處理的需求時(shí),必須對(duì)它進(jìn)行清洗,對(duì)于一些通用的審計(jì)軟件,對(duì)輸入數(shù)據(jù)的適應(yīng)性相對(duì)強(qiáng)一些,但這并不意味著它可以處理不經(jīng)清洗的任意數(shù)據(jù),審計(jì)軟件中有很多特定的分析方法和專用工具,這些方法和專用工具往往要求一定的數(shù)據(jù)結(jié)構(gòu)。例如,在計(jì)算機(jī)固定資產(chǎn)折舊時(shí),就需要用到“資產(chǎn)原值”、“月折舊率”、“入賬日期”等信息,如果這些信息不能完全滿足,就無(wú)法計(jì)算。

  三、數(shù)據(jù)清洗的主要步驟

 ?。ㄒ唬┒x和確定錯(cuò)誤的類型。

  1.數(shù)據(jù)分析。數(shù)據(jù)分析是數(shù)據(jù)清洗的前提與基礎(chǔ),通過詳盡的數(shù)據(jù)分析來(lái)檢測(cè)數(shù)據(jù)中的錯(cuò)誤或不一致情況,除了手動(dòng)檢查數(shù)據(jù)或者數(shù)據(jù)樣本之外,還可以使用分析程序來(lái)獲得關(guān)于數(shù)據(jù)屬性的元數(shù)據(jù),從而發(fā)現(xiàn)數(shù)據(jù)集中存在的質(zhì)量問題。

  2.定義清洗轉(zhuǎn)換規(guī)則。根據(jù)上一步進(jìn)行數(shù)據(jù)分析得到的結(jié)果來(lái)定義清洗轉(zhuǎn)換規(guī)則與工作流。根據(jù)數(shù)據(jù)源的個(gè)數(shù),數(shù)據(jù)源中不一致數(shù)據(jù)和“臟數(shù)據(jù)”多少的程度,需要執(zhí)行大量的數(shù)據(jù)轉(zhuǎn)換和清洗步驟。要盡可能的為模式相關(guān)的數(shù)據(jù)清洗和轉(zhuǎn)換指定一種查詢和匹配語(yǔ)言,從而使轉(zhuǎn)換代碼的自動(dòng)生成變成可能。

 ?。ǘ┧褜げ⒆R(shí)別錯(cuò)誤的實(shí)例。

  1.自動(dòng)檢測(cè)屬性錯(cuò)誤。檢測(cè)數(shù)據(jù)集中的屬性錯(cuò)誤,需要花費(fèi)大量的人力、物力和時(shí)間,而且這個(gè)過程本身很容易出錯(cuò),所以需要利用高的方法自動(dòng)檢測(cè)數(shù)據(jù)集中的屬性錯(cuò)誤,方法主要有:基于統(tǒng)計(jì)的方法、聚類方法、關(guān)聯(lián)規(guī)則的方法。

  2.檢測(cè)重復(fù)記錄的算法。消除重復(fù)記錄可以針對(duì)兩個(gè)數(shù)據(jù)集或者一個(gè)合并后的數(shù)據(jù)集,首先需要檢測(cè)出標(biāo)識(shí)同一個(gè)現(xiàn)實(shí)實(shí)體的重復(fù)記錄,即匹配過程。檢測(cè)重復(fù)記錄的算法主要有:基本的字段匹配算法,遞歸的字段匹配算法,Smith—Waterman算法,Cosine相似度函數(shù)。

 ?。ㄈ┘m正所發(fā)現(xiàn)的錯(cuò)誤。在數(shù)據(jù)源上執(zhí)行預(yù)先定義好的并且已經(jīng)得到驗(yàn)證的清洗轉(zhuǎn)換規(guī)則和工作流。當(dāng)直接在源數(shù)據(jù)上進(jìn)行清洗時(shí),需要備份源數(shù)據(jù),以防需要撤銷上一次或幾次的清洗操作。清洗時(shí)根據(jù)“臟數(shù)據(jù)”存在形式的不同,執(zhí)行一系列的轉(zhuǎn)換步驟來(lái)解決模式層和實(shí)例層的數(shù)據(jù)質(zhì)量問題。為處理單數(shù)據(jù)源問題并且為其與其他數(shù)據(jù)源的合并做好準(zhǔn)備,一般在各個(gè)數(shù)據(jù)源上應(yīng)該分別進(jìn)行幾種類型的轉(zhuǎn)換,主要包括:

  1.從自由格式的屬性字段中抽取值(屬性分離)。自由格式的屬性一般包含著很多的信息,而這些信息有時(shí)候需要細(xì)化成多個(gè)屬性,從而進(jìn)一步支持后面重復(fù)記錄的清洗。

  2. 確認(rèn)和改正。這一步驟處理輸入和拼寫錯(cuò)誤,并盡可能地使其自動(dòng)化。基于字典查詢的拼寫檢查對(duì)于發(fā)現(xiàn)拼寫錯(cuò)誤是很有用的。

  3. 標(biāo)準(zhǔn)化。為了使記錄實(shí)例匹配和合并變得更方便,應(yīng)該把屬性值轉(zhuǎn)換成一個(gè)一致和統(tǒng)一的格式。

  (四)數(shù)據(jù)回流。當(dāng)數(shù)據(jù)被清洗后,干凈的數(shù)據(jù)應(yīng)該替換數(shù)據(jù)源中原來(lái)的“臟數(shù)據(jù)”。這樣可以提高原系統(tǒng)的數(shù)據(jù)質(zhì)量,還可避免將來(lái)再次抽取數(shù)據(jù)后進(jìn)行重復(fù)的清洗工作。

  四、數(shù)據(jù)清洗的主要方法

 ?。ㄒ唬┛杖敝档那逑?。

  對(duì)于空缺值的清洗可以采取忽略元組,人工填寫空缺值,使用一個(gè)全局變量填充空缺值,使用屬性的平均值、中問值、最大值、最小值或更為復(fù)雜的概率統(tǒng)計(jì)函數(shù)值來(lái)填充空缺值。

 ?。ǘ┰肼晹?shù)據(jù)的清洗。

  分箱(Binning),通過考察屬性值的周圍值來(lái)平滑屬性的值。屬性值被分布到一些等深或等寬的“箱”中,用箱中屬性值的平均值或中值來(lái)替換“箱”中的屬性值;計(jì)算機(jī)和人工檢查相結(jié)合,計(jì)算機(jī)檢測(cè)可疑數(shù)據(jù),然后對(duì)它們進(jìn)行人工判斷;使用簡(jiǎn)單規(guī)則庫(kù)檢測(cè)和修正錯(cuò)誤;使用不同屬性間的約束檢測(cè)和修正錯(cuò)誤;使用外部數(shù)據(jù)源檢測(cè)和修正錯(cuò)誤。

  (三)不一致數(shù)據(jù)的清洗。

  對(duì)于有些事務(wù),所記錄的數(shù)據(jù)可能存在不一致。有些數(shù)據(jù)不一致,可以使用其他材料人工加以更正。例如,數(shù)據(jù)輸入時(shí)的錯(cuò)誤可以使用紙上的記錄加以更正。知識(shí)工程工具也可以用來(lái)檢測(cè)違反限制的數(shù)據(jù)。例如,知道屬性間的函數(shù)依賴,可以查找違反函數(shù)依賴的值。此外,數(shù)據(jù)集成也可能產(chǎn)生數(shù)據(jù)不一致。

 ?。ㄋ模┲貜?fù)數(shù)據(jù)的清洗。

  目前消除重復(fù)記錄的基本思想是“排序和合并”,先將數(shù)據(jù)庫(kù)中的記錄排序,然后通過比較鄰近記錄是否相似來(lái)檢測(cè)記錄是否重復(fù)。消除重復(fù)記錄的算法主要有:優(yōu)先隊(duì)列算法,近鄰排序算法(Sorted—Neighborhood Method),多趟近鄰排序(Multi—Pass Sorted—Neighborhood)。

我要糾錯(cuò)】 責(zé)任編輯:zoe
回到頂部
折疊
網(wǎng)站地圖

Copyright © 2000 - m.galtzs.cn All Rights Reserved. 北京正保會(huì)計(jì)科技有限公司 版權(quán)所有

京B2-20200959 京ICP備20012371號(hào)-7 出版物經(jīng)營(yíng)許可證 京公網(wǎng)安備 11010802044457號(hào)