大資料管理需要對大資料以及相應的資料定義或元資料進行適當的管理。它旨在確保(元)資料質量良好,因此是有效和高效管理決策的關鍵資源。資料質量(dq)通常被定義為“適合使用”,這意味著該概念的相對性質。以下將介紹資訊架構師、資料庫設計師、資料所有者、資料管理員、資料庫管理員和資料科學家的工作和內容。而根據資料庫和企業的規模,可能會將多個配置檔案合併到一個工作描述中。
(1)資訊架構師(也稱為資訊分析師)。資訊架構師負責設計概念資料模型,並與業務使用者進行溝通和對話。其彌合了業務流程和it環境之間的鴻溝,並與可能有助於選擇概念資料模型型別(例如eer或uml)和資料庫建模工具的資料庫設計師密切合作。在資料準確性和資料完整性方面,一個良好的概念資料模型是儲存高質量資料的關鍵要求。
(2)資料庫設計師。其職責是將概念資料模型轉換為邏輯和內部資料模型,協助應用程式開發人員定義外部資料模型的檢視,從而有助於資料安全。為了便於將來對資料庫應用程式進行維護,資料庫設計人員在建立強制實現資料一致性的各種資料模型時,應定義公司範圍的統一命名約定。
組織中每個資料庫中的每個資料欄位都應由資料所有者擁有,資料所有者有權決定是否訪問和使用資料。資料所有者可能是資料的原始生產者,其消費者之一或第三方。資料所有者應該能夠填寫或更新其值,這意味著資料所有者知道該欄位的含義,並可以訪問當前的正確值(例如透過聯絡客戶、檢視檔案等)。資料管理員可以要求資料所有者檢查或完成某個欄位的值,以糾正資料質量問題。
(3)資料管理員。資料管理員是資料質量(dq)專家,負責確保實際業務資料和相應元資料的質量。他們透過執行廣泛和定期的資料質量檢查來評估資料質量(dq)。除其他評估步驟外,這些檢查涉及應用或計算最相關的資料質量(dq)維度的資料質量指標和指標。
顯然,他們也需要主動採取行動,並進一步處理這些評估的結果。第一類應採取的措施是採取糾正措施。但是,資料管理員不負責自行更正資料,因為這通常是資料所有者的責任。對資料質量評估結果採取的第二種行動涉及深入調查所發現資料質量問題的根本原因。
此外,系統中輸入的值可能會立即根據預定義的完整性規則進行有效性檢查,並且如果違反這些規則,可能會要求使用者更正資料。例如,企業稅務門戶可能會要求員工根據其社會安全號碼進行識別,可以透過聯絡社會安全號碼資料庫實時檢查。顯然,實施這些預防措施需要負責應用程式的it部門主管的密切參與。
總體而言,防止錯誤資料進入系統通常比事後糾正錯誤更具成本效益。但是,由於輸入資料中存在不必要的資料質量問題,因此應注意不要減慢關鍵流程。
(4)資料庫管理員(dba)。其職責是負責實施和監視資料庫。其工作內容包括:安裝和升級dbms軟體、備份和恢復管理、效能調整和監控、記憶體管理、複製管理、安全性和授權等。資料庫管理員(dba)與網路和系統管理員密切合作。
其還與資料庫設計人員進行交流,以降低運營管理成本,並保證達成一致的服務水平(例如響應時間和吞吐率)。資料庫管理員(dba)可以提供資料可用性和可訪問性,以及其他兩個關鍵資料質量維度。
(5)資料科學家。資料科學家在資料管理的背景下是一個相對較新的職位。其負責使用最先進的分析技術分析資料,以提供新的見解,例如客戶行為。資料科學傢俱有將ict技能(如程式設計)與定量建模(例如統計)、業務理解、溝通和創造力相結合的多學科特徵。
一位優秀的資料科學家應該擁有java、r、python、sas等語言的良好程式設計能力。程式語言本身並不重要,只要資料科學家熟悉程式設計的基本概念,並知道如何使用這些來自動執行重複任務或執行特定例程即可。
顯然,資料科學家應該有統計學、機器學習和/或定量建模方面的全面背景。從本質上講,資料科學是一項技術練習。分析模型和商業使用者之間往往存在巨大差距。為彌合這一差距,溝通和視覺化設施是關鍵。資料科學家應該知道如何透過使用交通訊號燈方法,olap(線上分析處理)設施,如果當時的業務規則等以使用者友好的方式表示分析模型、附帶的統計資料和報告。
資料科學家至少需要兩個層面的創造力:在技術層面上,重要的是在資料選擇、資料轉換和清理方面進行創新。在分析層面上,標準分析過程的步驟必須適應每個特定的應用,而“正確的猜測”往往可以產生很大的差異。分析是一個快速發展的領域。
新的問題、技術和相應的挑戰不斷湧現。資料科學家必須跟上這些新的發展和技術發展的步伐,並且有足夠的創造力來看待他們如何能夠創造新的商業機會。這些資料科學家在當今的就業市場很難獲得,這並不奇怪。然而,資料科學家有助於提供新的資料和/或見解,這可以讓企業利用新的戰略商業機會。
總而言之,確保高質量的資料是綜合各種技能的多學科練習。在此從資料質量的角度回顧了以下資料管理作業配置檔案:資訊架構師、資料庫設計師、資料所有者、資料管理員、資料庫管理員、資料科學家。
大資料管理需要對大資料以及相應的資料定義或元資料進行適當的管理。它旨在確保(元)資料質量良好,因此是有效和高效管理決策的關鍵資源。資料質量(dq)通常被定義為“適合使用”,這意味著該概念的相對性質。以下將介紹資訊架構師、資料庫設計師、資料所有者、資料管理員、資料庫管理員和資料科學家的工作和內容。而根據資料庫和企業的規模,可能會將多個配置檔案合併到一個工作描述中。
(1)資訊架構師(也稱為資訊分析師)。資訊架構師負責設計概念資料模型,並與業務使用者進行溝通和對話。其彌合了業務流程和it環境之間的鴻溝,並與可能有助於選擇概念資料模型型別(例如eer或uml)和資料庫建模工具的資料庫設計師密切合作。在資料準確性和資料完整性方面,一個良好的概念資料模型是儲存高質量資料的關鍵要求。
(2)資料庫設計師。其職責是將概念資料模型轉換為邏輯和內部資料模型,協助應用程式開發人員定義外部資料模型的檢視,從而有助於資料安全。為了便於將來對資料庫應用程式進行維護,資料庫設計人員在建立強制實現資料一致性的各種資料模型時,應定義公司範圍的統一命名約定。
組織中每個資料庫中的每個資料欄位都應由資料所有者擁有,資料所有者有權決定是否訪問和使用資料。資料所有者可能是資料的原始生產者,其消費者之一或第三方。資料所有者應該能夠填寫或更新其值,這意味著資料所有者知道該欄位的含義,並可以訪問當前的正確值(例如透過聯絡客戶、檢視檔案等)。資料管理員可以要求資料所有者檢查或完成某個欄位的值,以糾正資料質量問題。
(3)資料管理員。資料管理員是資料質量(dq)專家,負責確保實際業務資料和相應元資料的質量。他們透過執行廣泛和定期的資料質量檢查來評估資料質量(dq)。除其他評估步驟外,這些檢查涉及應用或計算最相關的資料質量(dq)維度的資料質量指標和指標。
顯然,他們也需要主動採取行動,並進一步處理這些評估的結果。第一類應採取的措施是採取糾正措施。但是,資料管理員不負責自行更正資料,因為這通常是資料所有者的責任。對資料質量評估結果採取的第二種行動涉及深入調查所發現資料質量問題的根本原因。
此外,系統中輸入的值可能會立即根據預定義的完整性規則進行有效性檢查,並且如果違反這些規則,可能會要求使用者更正資料。例如,企業稅務門戶可能會要求員工根據其社會安全號碼進行識別,可以透過聯絡社會安全號碼資料庫實時檢查。顯然,實施這些預防措施需要負責應用程式的it部門主管的密切參與。
總體而言,防止錯誤資料進入系統通常比事後糾正錯誤更具成本效益。但是,由於輸入資料中存在不必要的資料質量問題,因此應注意不要減慢關鍵流程。
(4)資料庫管理員(dba)。其職責是負責實施和監視資料庫。其工作內容包括:安裝和升級dbms軟體、備份和恢復管理、效能調整和監控、記憶體管理、複製管理、安全性和授權等。資料庫管理員(dba)與網路和系統管理員密切合作。
其還與資料庫設計人員進行交流,以降低運營管理成本,並保證達成一致的服務水平(例如響應時間和吞吐率)。資料庫管理員(dba)可以提供資料可用性和可訪問性,以及其他兩個關鍵資料質量維度。
(5)資料科學家。資料科學家在資料管理的背景下是一個相對較新的職位。其負責使用最先進的分析技術分析資料,以提供新的見解,例如客戶行為。資料科學傢俱有將ict技能(如程式設計)與定量建模(例如統計)、業務理解、溝通和創造力相結合的多學科特徵。
一位優秀的資料科學家應該擁有java、r、python、sas等語言的良好程式設計能力。程式語言本身並不重要,只要資料科學家熟悉程式設計的基本概念,並知道如何使用這些來自動執行重複任務或執行特定例程即可。
顯然,資料科學家應該有統計學、機器學習和/或定量建模方面的全面背景。從本質上講,資料科學是一項技術練習。分析模型和商業使用者之間往往存在巨大差距。為彌合這一差距,溝通和視覺化設施是關鍵。資料科學家應該知道如何透過使用交通訊號燈方法,olap(線上分析處理)設施,如果當時的業務規則等以使用者友好的方式表示分析模型、附帶的統計資料和報告。
資料科學家至少需要兩個層面的創造力:在技術層面上,重要的是在資料選擇、資料轉換和清理方面進行創新。在分析層面上,標準分析過程的步驟必須適應每個特定的應用,而“正確的猜測”往往可以產生很大的差異。分析是一個快速發展的領域。
新的問題、技術和相應的挑戰不斷湧現。資料科學家必須跟上這些新的發展和技術發展的步伐,並且有足夠的創造力來看待他們如何能夠創造新的商業機會。這些資料科學家在當今的就業市場很難獲得,這並不奇怪。然而,資料科學家有助於提供新的資料和/或見解,這可以讓企業利用新的戰略商業機會。
總而言之,確保高質量的資料是綜合各種技能的多學科練習。在此從資料質量的角度回顧了以下資料管理作業配置檔案:資訊架構師、資料庫設計師、資料所有者、資料管理員、資料庫管理員、資料科學家。