回覆列表
-
1 # 使用者7524885389515
-
2 # 光頭強532
開展電子資料審計的步驟有哪些:1.資料採集:主要是完成對被審計單位電子資料的採集。目前,聯 網審計資料採集的實現是透過在被審計單位資料庫伺服器端放置一臺 稱之為“資料採集前置機”的伺服器,透過安裝在“資料採集前置機” 中的審計資料採集軟體完成聯網審計的資料採集工作。
2.資料傳輸:把採集來的電子資料透過網路傳輸到審計單位,以供 審計分析使用。
3.資料儲存:對於採集到的電子資料採取一定的方式進行儲存。
4.資料分析處理:主要是對採集來的電子資料進行分析處理,發現 審計線索。
隨著資訊科技的發展和普及,審計工作已經離不開計算機審計。電子資料審計作為計算機審計的一個重要組成部分,其有關理論、技術、方法得到了廣泛地研究、推廣和應用,在審計實務中發揮了越來越重要的作用。
眾所周知,電子資料審計的基本步驟包括資料提取、資料清洗、資料轉換、資料分析等四個基本步驟。其中資料清洗是轉換和分析的基礎,一定程度上決定著計算機審計的最終質量,資料清洗在電子資料採集中具有重要作用。因此,本文在闡述了資料清洗原理的基礎上,提出電子資料採集中常見問題的資料清洗方法。
一、資料清洗原理
資料清洗(data cleaning),簡單地講,就是從資料來源中清除錯誤和不一致,即利用有關技術如數理統計、資料探勘或預定義的清洗規則等,從資料中檢測和消除錯誤資料、不完整資料和重複資料等,從而提高資料的質量。業務知識與清洗規則的制定在相當程度上取決於審計人員的經驗積累與綜合判斷能力。因此,審計人員應按以下標準評價審計資料的質量。
(一)準確性:資料值與假定正確的值的一致程度。
(二)完整性:需要值的屬性中無值缺失的程度。
(三)一致性:資料對一組約束的滿足程度。
(四)惟一性:資料記錄(及碼值)的惟一性。
(五)效性:維護的資料足夠嚴格以滿足分類準則的接受要求。
二、資料清洗的必要性
從被審計單位採集到的審計資料千差萬別,為了能更好的服務於審計分析和審計查證的需要,必須對採集的電子資料進行全面的清洗。
(一)被審計單位資訊系統的多樣性帶來了資料不一致性。開展計算機審計必然面臨各式各樣的迥然相異的被審計單位資訊系統。被審計單位資訊系統的差異,必然給審計工作帶來資料的不一致性問題。主要有以下表現形式:
1.同一欄位在不同的應用中具有不同的資料型別。如欄位“借貸方標誌”在A應用中的型別為“字元型”,取值為“Credit/Debit”,在B應用中的型別為“數值型”,取值為“0/1”,在C應用中型別又為“布林型”,取值為“True/False”。
2.同一欄位在不同的應用中具有不同的名字。如A應用中的欄位“Balance”在B應用中名稱稱為“Bal”,在C應用中又變成了“Currbal”。
3.同名欄位,不同含義。如欄位“月折舊額”在A應用中表示用直線折舊法提取的月折舊額,在B應用中表示用加速折舊法提取的月折舊額,等等。
4.同一資訊,在不同的應用中有不同的格式。如欄位“日期”在A應用中的格式為“YYYY-MM—DD”,在B應用中格式為“MM/DD/YY”,在C應用中格式為“DDMMYY”。
5.同一資訊,在不同的應用中有不同的表達方式。如對於借貸方發生額的記錄,在A應用中設計為 “借方發生額”與“貸方發生額” 兩個欄位,在B應用中設計為 “借貸方標誌”與“借貸方發生額”兩個欄位。 對於這些不一致的資料,必須進行轉換後才能供審計軟體分析之用。資料的不一致性是多種多樣的,對每種情況都必須專門處理。
(二)被審計系統的安全性措施給審計工作帶來障礙。基於安全性考慮,被審計單位的系統一般都採取一定的加密措施,有系統級的加密措施和資料級的加密措施。特別對具有一定含義的資料庫的表與欄位的名稱,一般都要進行對映或轉換。例如,將表命名為T1,T2…; 將欄位命名為F1,F2 …。對於這樣的資料,不進行含義的對照與清洗就不明白表或欄位的經濟含義,審計人員是無法處理的,各種各樣的加密措施不勝列舉,這些都給計算機審計帶來了障礙,也給資料清洗帶來挑戰。
(三)審計目的的不同決定了審計資料的範圍和要求不同。被審計單位的資訊系統規模不一,資料量相差懸殊。審計人員不可能也沒有必要將被審計單位的所有資料都採集過來。審計工作有自己的目的和要求,需要處理的往往是某一時段或某一方面發生的資料。這樣就要求審計人員選取一定範圍的、滿足一定要求的審計資料。例如,在關稅審計業務中,關心的只是與稅收徵管有關的報關單、加工貿易、減免稅、貨運艙單、稅單等相關資料庫的資料,而對於操作員授權管理等系統控制資料庫,在不對系統進行評價時,可以不採集。同時,審計目的不同,對原始資料的要求也不同。在對銀行貸款利率執行情況檢查時,需要帶有計息標誌和利率資訊的每一筆貸款的明細資料,如果這樣的資訊分佈在被審計系統的若干張表中,換句話說,如果被審計單位不能提供完全滿足審計要求的資料,就有必要對採集到的資料進行清洗轉換。
(四)資料清洗是資料分析、處理的前提。計算機軟體設計一般都是基於一定的資料結構,專用的審計軟體更是如此。在輸入資料不滿足軟體處理的需求時,必須對它進行清洗,對於一些通用的審計軟體,對輸入資料的適應性相對強一些,但這並不意味著它可以處理不經清洗的任意資料,審計軟體中有很多特定的分析方法和專用工具,這些方法和專用工具往往要求一定的資料結構。例如,在計算機固定資產折舊時,就需要用到“資產原值”、“月折舊率”、“入賬日期”等資訊,如果這些資訊不能完全滿足,就無法計算。
三、資料清洗的主要步驟
(一)定義和確定錯誤的型別。
1.資料分析。資料分析是資料清洗的前提與基礎,透過詳盡的資料分析來檢測資料中的錯誤或不一致情況,除了手動檢查資料或者資料樣本之外,還可以使用分析程式來獲得關於資料屬性的元資料,從而發現數據集中存在的質量問題。
2.定義清洗轉換規則。根據上一步進行資料分析得到的結果來定義清洗轉換規則與工作流。根據資料來源的個數,資料來源中不一致資料和“髒資料”多少的程度,需要執行大量的資料轉換和清洗步驟。要儘可能的為模式相關的資料清洗和轉換指定一種查詢和匹配語言,從而使轉換程式碼的自動生成變成可能。
(二)搜尋並識別錯誤的例項。
1.自動檢測屬性錯誤。檢測資料集中的屬性錯誤,需要花費大量的人力、物力和時間,而且這個過程本身很容易出錯,所以需要利用高的方法自動檢測資料集中的屬性錯誤,方法主要有:基於統計的方法、聚類方法、關聯規則的方法。
2.檢測重複記錄的演算法。消除重複記錄可以針對兩個資料集或者一個合併後的資料集,首先需要檢測出標識同一個現實實體的重複記錄,即匹配過程。檢測重複記錄的演算法主要有:基本的欄位匹配演算法,遞迴的欄位匹配演算法,Smith—Waterman演算法,Cosine相似度函式。
(三)糾正所發現的錯誤。在資料來源上執行預先定義好的並且已經得到驗證的清洗轉換規則和工作流。當直接在源資料上進行清洗時,需要備份源資料,以防需要撤銷上一次或幾次的清洗操作。清洗時根據“髒資料”存在形式的不同,執行一系列的轉換步驟來解決模式層和例項層的資料質量問題。為處理單資料來源問題並且為其與其他資料來源的合併做好準備,一般在各個資料來源上應該分別進行幾種型別的轉換,主要包括:
1.從自由格式的屬性欄位中抽取值(屬性分離)。自由格式的屬性一般包含著很多的資訊,而這些資訊有時候需要細化成多個屬性,從而進一步支援後面重複記錄的清洗。
2. 確認和改正。這一步驟處理輸入和拼寫錯誤,並儘可能地使其自動化。基於字典查詢的拼寫檢查對於發現拼寫錯誤是很有用的。
3. 標準化。為了使記錄例項匹配和合並變得更方便,應該把屬性值轉換成一個一致和統一的格式。
(四)資料迴流。當資料被清洗後,乾淨的資料應該替換資料來源中原來的“髒資料”。這樣可以提高原系統的資料質量,還可避免將來再次抽取資料後進行重複的清洗工作。
四、資料清洗的主要方法
(一)空缺值的清洗。
對於空缺值的清洗可以採取忽略元組,人工填寫空缺值,使用一個全域性變數填充空缺值,使用屬性的平均值、中問值、最大值、最小值或更為複雜的機率統計函式值來填充空缺值。
(二)噪聲資料的清洗。
分箱(Binning),透過考察屬性值的周圍值來平滑屬性的值。屬性值被分佈到一些等深或等寬的“箱”中,用箱中屬性值的平均值或中值來替換“箱”中的屬性值;計算機和人工檢查相結合,計算機檢測可疑資料,然後對它們進行人工判斷;使用簡單規則庫檢測和修正錯誤;使用不同屬性間的約束檢測和修正錯誤;使用外部資料來源檢測和修正錯誤。
(三)不一致資料的清洗。
對於有些事務,所記錄的資料可能存在不一致。有些資料不一致,可以使用其他材料人工加以更正。例如,資料輸入時的錯誤可以使用紙上的記錄加以更正。知識工程工具也可以用來檢測違反限制的資料。例如,知道屬性間的函式依賴,可以查詢違反函式依賴的值。此外,資料整合也可能產生資料不一致。
(四)重複資料的清洗。
目前消除重複記錄的基本思想是“排序和合並”,先將資料庫中的記錄排序,然後透過比較鄰近記錄是否相似來檢測記錄是否重複。消除重複記錄的演算法主要有:優先佇列演算法,近鄰排序演算法(Sorted—Neighborhood Method),多趟近鄰排序(Multi—Pass Sorted—Neighborhood)。