資料治理包括資料質量探查、資料清洗、資料脫敏等,這幾個動作實際上都是針對表資料的判斷或轉換,為了增加系統的靈活性和擴充套件性,可以將其抽象為規則,透過Java Script等形式允許使用者自定義擴充套件。
其中,資料質量探查規則:判斷欄位值是否符合相關規則,包括唯一性、完整性、準確性、一致性、時效性等;
資料清洗規則:對資料進行清洗轉換處理,它是資料質量探查和資料處理的組合規則,先用探查規則檢查資料,對於有問題的可以用清洗規則處理。問題處理可以有多種動作,包括糾正問題、標註問題及等級、忽略問題等
資料脫敏規則:對隱私資料做特定的處理,比如,加密、欄位遮蓋等。
上述這幾個規則,均可以支援使用者按照規範自己擴充套件,比如,Java Script指令碼,其中,擴充套件函式的入參豐富程度決定了擴充套件能力的範圍,儘量要將要處理的當前欄位值及其元資料,甚至當前處理的行資料及元資料,都要做為入參傳遞,從而擴充套件函式能支援大部分的資料檢查和處理功能。
資料治理包括資料質量探查、資料清洗、資料脫敏等,這幾個動作實際上都是針對表資料的判斷或轉換,為了增加系統的靈活性和擴充套件性,可以將其抽象為規則,透過Java Script等形式允許使用者自定義擴充套件。
其中,資料質量探查規則:判斷欄位值是否符合相關規則,包括唯一性、完整性、準確性、一致性、時效性等;
資料清洗規則:對資料進行清洗轉換處理,它是資料質量探查和資料處理的組合規則,先用探查規則檢查資料,對於有問題的可以用清洗規則處理。問題處理可以有多種動作,包括糾正問題、標註問題及等級、忽略問題等
資料脫敏規則:對隱私資料做特定的處理,比如,加密、欄位遮蓋等。
上述這幾個規則,均可以支援使用者按照規範自己擴充套件,比如,Java Script指令碼,其中,擴充套件函式的入參豐富程度決定了擴充套件能力的範圍,儘量要將要處理的當前欄位值及其元資料,甚至當前處理的行資料及元資料,都要做為入參傳遞,從而擴充套件函式能支援大部分的資料檢查和處理功能。