資料庫設計方法、規範與技巧
一、資料庫設計過程
資料庫技術是資訊資源管理最有效的手段。資料庫設計是指對於一個給定的應用環境,構造最優的資料庫模式,建立資料庫及其應用系統,有效儲存資料,滿足使用者資訊要求和處理要求。
資料庫設計中需求分析階段綜合各個使用者的應用需求(現實世界的需求),在概念設計階段形成獨立於機器特點、獨立於各個DBMS產品的概念模式(資訊世界模型),用E-R圖來描述。在邏輯設計階段將E-R圖轉換成具體的資料庫產品支援的資料模型如關係模型,形成資料庫邏輯模式。然後根據使用者處理的要求,安全性的考慮,在基本表的基礎上再建立必要的檢視(VIEW)形成資料的外模式。在物理設計階段根據DBMS特點和處理的需要,進行物理儲存安排,設計索引,形成資料庫內模式。
1.需求分析階段
需求收集和分析,結果得到資料字典描述的資料需求(和資料流圖描述的處理需求)。
需求分析的重點是調查、收集與分析使用者在資料管理中的資訊要求、處理要求、安全性與完整性要求。
需求分析的方法:調查組織機構情況、調查各部門的業務活動情況、協助使用者明確對新系統的各種要求、確定新系統的邊界。
常用的調查方法有:跟班作業、開調查會、請專人介紹、詢問、設計調查表請使用者填寫、查閱記錄。
分析和表達使用者需求的方法主要包括自頂向下和自底向上兩類方法。自頂向下的結構化分析方法(StructuredAnalysis,簡稱SA方法)從最上層的系統組織機構入手,採用逐層分解的方式分析系統,並把每一層用資料流圖和資料字典描述。
資料流圖表達了資料和處理過程的關係。系統中的資料則藉助資料字典(DataDictionary,簡稱DD)來描述。
資料字典是各類資料描述的集合,它是關於資料庫中資料的描述,即元資料,而不是資料本身。資料字典通常包括資料項、資料結構、資料流、資料儲存和處理過程五個部分(至少應該包含每個欄位的資料型別和在每個表內的主外來鍵)。
資料項描述={資料項名,資料項含義說明,別名,資料型別,長度,
取值範圍,取值含義,與其他資料項的邏輯關係}
資料結構描述={資料結構名,含義說明,組成:{資料項或資料結構}}
組成:{資料結構},平均流量,高峰期流量}
資料儲存描述={資料儲存名,說明,編號,流入的資料流,流出的資料流,
組成:{資料結構},資料量,存取方式}
處理過程描述={處理過程名,說明,輸入:{資料流},輸出:{資料流},
處理:{簡要說明}}
2.概念結構設計階段
透過對使用者需求進行綜合、歸納與抽象,形成一個獨立於具體DBMS的概念模型,可以用E-R圖表示。
概念模型用於資訊世界的建模。概念模型不依賴於某一個DBMS支援的資料模型。概念模型可以轉換為計算機上某一DBMS支援的特定資料模型。
概念模型特點:
(1)具有較強的語義表達能力,能夠方便、直接地表達應用中的各種語義知識。
(2)應該簡單、清晰、易於使用者理解,是使用者與資料庫設計人員之間進行交流的語言。
概念模型設計的一種常用方法為IDEF1X方法,它就是把實體-聯絡方法應用到語義資料模型中的一種語義模型化技術,用於建立系統資訊模型。
使用IDEF1X方法建立E-R模型的步驟如下所示:
2.1第零步——初始化工程
這個階段的任務是從目的描述和範圍描述開始,確定建模目標,開發建模計劃,組織建模隊伍,收集源材料,制定約束和規範。收集源材料是這階段的重點。透過調查和觀察結果,業務流程,原有系統的輸入輸出,各種報表,收集原始資料,形成了基本資料資料表。
2.2第一步——定義實體
實體整合員都有一個共同的特徵和屬性集,可以從收集的源材料——基本資料資料表中直接或間接標識出大部分實體。根據源材料名字表中表示物的術語以及具有“程式碼”結尾的術語,如客戶程式碼、代理商程式碼、產品程式碼等將其名詞部分代表的實體標識出來,從而初步找出潛在的實體,形成初步實體表。
2.3第二步——定義聯絡
IDEF1X模型中只允許二元聯絡,n元聯絡必須定義為n個二元聯絡。根據實際的業務需求和規則,使用實體聯絡矩陣來標識實體間的二元關係,然後根據實際情況確定出連線關係的勢、關係名和說明,確定關係型別,是標識關係、非標識關係(強制的或可選的)還是非確定關係、分類關係。如果子實體的每個例項都需要透過和父實體的關係來標識,則為標識關係,否則為非標識關係。非標識關係中,如果每個子實體的例項都與而且只與一個父實體關聯,則為強制的,否則為非強制的。如果父實體與子實體代表的是同一現實物件,那麼它們為分類關係。
2.4第三步——定義碼
透過引入交叉實體除去上一階段產生的非確定關係,然後從非交叉實體和獨立實體開始標識侯選碼屬性,以便唯一識別每個實體的例項,再從侯選碼中確定主碼。為了確定主碼和關係的有效性,透過非空規則和非多值規則來保證,即一個實體例項的一個屬性不能是空值,也不能在同一個時刻有一個以上的值。找出誤認的確定關係,將實體進一步分解,最後構造出IDEF1X模型的鍵基檢視(KB圖)。
2.5第四步——定義屬性
從源資料表中抽取說明性的名詞開發出屬性表,確定屬性的所有者。定義非主碼屬性,檢查屬性的非空及非多值規則。此外,還要檢查完全依賴函式規則和非傳遞依賴規則,保證一個非主碼屬性必須依賴於主碼、整個主碼、僅僅是主碼。以此得到了至少符合關係理論第三正規化的改進的IDEF1X模型的全屬性檢視。
2.6第五步——定義其他物件和規則
定義屬性的資料型別、長度、精度、非空、預設值、約束規則等。定義觸發器、儲存過程、檢視、角色、同義詞、序列等物件資訊。
3.邏輯結構設計階段
將概念結構轉換為某個DBMS所支援的資料模型(例如關係模型),並對其進行最佳化。設計邏輯結構應該選擇最適於描述與表達相應概念結構的資料模型,然後選擇最合適的DBMS。
將E-R圖轉換為關係模型實際上就是要將實體、實體的屬性和實體之間的聯絡轉化為關係模式,這種轉換一般遵循如下原則:
1)一個實體型轉換為一個關係模式。實體的屬性就是關係的屬性。實體的碼就是關係的碼。
2)一個m:n聯絡轉換為一個關係模式。與該聯絡相連的各實體的碼以及聯絡本身的屬性均轉換為關係的屬性。而關係的碼為各實體碼的組合。
3)一個1:n聯絡可以轉換為一個獨立的關係模式,也可以與n端對應的關係模式合併。如果轉換為一個獨立的關係模式,則與該聯絡相連的各實體的碼以及聯絡本身的屬性均轉換為關係的屬性,而關係的碼為n端實體的碼。
4)一個1:1聯絡可以轉換為一個獨立的關係模式,也可以與任意一端對應的關係模式合併。
5)三個或三個以上實體間的一個多元聯絡轉換為一個關係模式。與該多元聯絡相連的各實體的碼以及聯絡本身的屬性均轉換為關係的屬性。而關係的碼為各實體碼的組合。
6)同一實體集的實體間的聯絡,即自聯絡,也可按上述1:1、1:n和m:n三種情況分別處理。
7)具有相同碼的關係模式可合併。
為了進一步提高資料庫應用系統的效能,通常以規範化理論為指導,還應該適當地修改、調整資料模型的結構,這就是資料模型的最佳化。確定資料依賴。消除冗餘的聯絡。確定各關係模式分別屬於第幾正規化。確定是否要對它們進行合併或分解。一般來說將關係分解為3NF的標準,即:
表內的每一個值都只能被表達一次。
??表內的每一行都應該被唯一的標識(有唯一鍵)。
表內不應該儲存依賴於其他鍵的非鍵資訊。
4.資料庫物理設計階段
為邏輯資料模型選取一個最適合應用環境的物理結構(包括儲存結構和存取方法)。根據DBMS特點和處理的需要,進行物理儲存安排,設計索引,形成資料庫內模式。
5.資料庫實施階段
運用DBMS提供的資料語言(例如SQL)及其宿主語言(例如C),根據邏輯設計和物理設計的結果建立資料庫,編制與除錯應用程式,組織資料入庫,並進行試執行。資料庫實施主要包括以下工作:用DDL定義資料庫結構、組織資料入庫、編制與除錯應用程式、資料庫試執行6.資料庫執行和維護階段
資料庫應用系統經過試執行後即可投入正式執行。在資料庫系統執行過程中必須不斷地對其進行評價、調整與修改。包括:資料庫的轉儲和恢復、資料庫的安全性、完整性控制、資料庫效能的監督、分析和改進、資料庫的重組織和重構造。
建模工具的使用
為加快資料庫設計速度,目前有很多資料庫輔助工具(CASE工具),如Rational公司的RationalRose,CA公司的Erwin和Bpwin,Sybase公司的PowerDesigner以及Oracle公司的OracleDesigner等。
ERwin主要用來建立資料庫的概念模型和物理模型。它能用圖形化的方式,描述出實體、聯絡及實體的屬性。ERwin支援IDEF1X方法。透過使用ERwin建模工具自動生成、更改和分析IDEF1X模型,不僅能得到優秀的業務功能和資料需求模型,而且可以實現從IDEF1X模型到資料庫物理設計的轉變。ERwin工具繪製的模型對應於邏輯模型和物理模型兩種。在邏輯模型中,IDEF1X工具箱可以方便地用圖形化的方式構建和繪製實體聯絡及實體的屬性。在物理模型中,ERwin可以定義對應的表、列,並可針對各種資料庫管理系統自動轉換為適當的型別。
設計人員可根據需要選用相應的資料庫設計建模工具。例如需求分析完成之後,設計人員可以使用Erwin畫ER圖,將ER圖轉換為關係資料模型,生成資料庫結構;畫資料流圖,生成應用程式。
二、資料庫設計技巧
1.設計資料庫之前(需求分析階段)
1)理解客戶需求,詢問使用者如何看待未來需求變化。讓客戶解釋其需求,而且隨著開發的繼續,還要經常詢問客戶保證其需求仍然在開發的目的之中。
2)瞭解企業業務可以在以後的開發階段節約大量的時間。
3)重視輸入輸出。
在定義資料庫表和欄位需求(輸入)時,首先應檢查現有的或者已經設計出的報表、查詢和檢視(輸出)以決定為了支援這些輸出哪些是必要的表和欄位。
舉例:假如客戶需要一個報表按照郵政編碼排序、分段和求和,你要保證其中包括了單獨的郵政編碼欄位而不要把郵政編碼糅進地址欄位裡。
4)建立資料字典和ER圖表
ER圖表和資料字典可以讓任何瞭解資料庫的人都明確如何從資料庫中獲得資料。ER圖對錶明表之間關係很有用,而資料字典則說明了每個欄位的用途以及任何可能存在的別名。對SQL表示式的文件化來說這是完全必要的。
5)定義標準的物件命名規範
資料庫各種物件的命名必須規範。
2.表和欄位的設計(資料庫邏輯設計)
表設計原則
1)標準化和規範化
資料的標準化有助於消除資料庫中的資料冗餘。標準化有好幾種形式,但ThirdNormalForm(3NF)通常被認為在效能、擴充套件性和資料完整性方面達到了最好平衡。簡單來說,遵守3NF標準的資料庫的表設計原則是:“OneFactinOnePlace”即某個表只包括其本身基本的屬性,當不是它們本身所具有的屬性時需進行分解。表之間的關係透過外來鍵相連線。它具有以下特點:有一組表專門存放透過鍵連線起來的關聯資料。
舉例:某個存放客戶及其有關定單的3NF資料庫就可能有兩個表:Customer和Order。Order表不包含定單關聯客戶的任何資訊,但表內會存放一個鍵值,該鍵指向Customer表裡包含該客戶資訊的那一行。
事實上,為了效率的緣故,對錶不進行標準化有時也是必要的。
2)資料驅動
採用資料驅動而非硬編碼的方式,許多策略變更和維護都會方便得多,大大增強系統的靈活性和擴充套件性。
舉例,假如使用者介面要訪問外部資料來源(檔案、XML文件、其他資料庫等),不妨把相應的連線和路徑資訊儲存在使用者介面支援表裡。還有,如果使用者介面執行工作流之類的任務(傳送郵件、列印信箋、修改記錄狀態等),那麼產生工作流的資料也可以存放在資料庫裡。角色許可權管理也可以透過資料驅動來完成。事實上,如果過程是資料驅動的,你就可以把相當大的責任推給使用者,由使用者來維護自己的工作流過程。
3)考慮各種變化
在設計資料庫的時候考慮到哪些資料欄位將來可能會發生變更。舉例,姓氏就是如此(注意是西方人的姓氏,比如女性結婚後從夫姓等)。所以,在建立系統儲存客戶資訊時,在單獨的一個數據表裡儲存姓氏欄位,而且還附加起始日和終止日等欄位,這樣就可以跟蹤這一資料條目的變化。
欄位設計原則
4)每個表中都應該新增的3個有用的欄位
??dRecordCreationDate,在VB下預設是Now(),而在SQLServer下預設為GETDATE()
??sRecordCreator,在SQLServer下預設為NOTNULLDEFAULTUSER
??nRecordVersion,記錄的版本標記;有助於準確說明記錄中出現null資料或者丟失資料的原因
5)對地址和電話採用多個欄位
描述街道地址就短短一行記錄是不夠的。Address_Line1、Address_Line2和Address_Line3可以提供更大的靈活性。還有,電話號碼和郵件地址最好擁有自己的資料表,其間具有自身的型別和標記類別。
6)使用角色實體定義屬於某類別的列
在需要對屬於特定類別或者具有特定角色的事物做定義時,可以用角色實體來建立特定的時間關聯關係,從而可以實現自我文件化。
舉例:用PERSON實體和PERSON_TYPE實體來描述人員。比方說,當JohnSmith,Engineer提升為JohnSmith,Director乃至最後爬到JohnSmith,CIO的高位,而所有你要做的不過是改變兩個表PERSON和PERSON_TYPE之間關係的鍵值,同時增加一個日期/時間欄位來知道變化是何時發生的。這樣,你的PERSON_TYPE表就包含了所有PERSON的可能型別,比如Associate、Engineer、Director、CIO或者CEO等。還有個替代辦法就是改變PERSON記錄來反映新頭銜的變化,不過這樣一來在時間上無法跟蹤個人所處位置的具體時間。
7)選擇數字型別和文字型別儘量充足
在SQL中使用smallint和tinyint型別要特別小心。比如,假如想看看月銷售總額,總額欄位型別是smallint,那麼,如果總額超過了$32,767就不能進行計算操作了。
而ID型別的文字欄位,比如客戶ID或定單號等等都應該設定得比一般想象更大。假設客戶ID為10位數長。那你應該把資料庫表字段的長度設為12或者13個字元長。但這額外佔據的空間卻無需將來重構整個資料庫就可以實現資料庫規模的增長了。
3.選擇鍵和索引(資料庫邏輯設計)
鍵選擇原則:
1)鍵設計4原則
??為關聯欄位建立外來鍵。
??所有的鍵都必須唯一。
??避免使用複合鍵。
??外來鍵總是關聯唯一的鍵欄位。
2)使用系統生成的主鍵
設計資料庫的時候採用系統生成的鍵作為主鍵,那麼實際控制了資料庫的索引完整性。這樣,資料庫和非人工機制就有效地控制了對儲存資料中每一行的訪問。採用系統生成鍵作為主鍵還有一個優點:當擁有一致的鍵結構時,找到邏輯缺陷很容易。
3)不要用使用者的鍵(不讓主鍵具有可更新性)
在確定採用什麼欄位作為表的鍵的時候,可一定要小心使用者將要編輯的欄位。通常的情況下不要選擇使用者可編輯的欄位作為鍵。
4)可選鍵有時可做主鍵
把可選鍵進一步用做主鍵,可以擁有建立強大索引的能力。
索引使用原則:
索引是從資料庫中獲取資料的最高效方式之一。95%的資料庫效能問題都可以採用索引技術得到解決。
1)邏輯主鍵使用唯一的成組索引,對系統鍵(作為儲存過程)採用唯一的非成組索引,對任何外來鍵列採用非成組索引。考慮資料庫的空間有多大,表如何進行訪問,還有這些訪問是否主要用作讀寫。
2)大多數資料庫都索引自動建立的主鍵欄位,但是可別忘了索引外來鍵,它們也是經常使用的鍵,比如執行查詢顯示主表和所有關聯表的某條記錄就用得上。
3)不要索引memo/note欄位,不要索引大型欄位(有很多字元),這樣作會讓索引佔用太多的儲存空間。
4)不要索引常用的小型表
4.資料完整性設計(資料庫邏輯設計)
1)完整性實現機制:
實體完整性:主鍵
參照完整性:
父表中插入資料:受限插入;遞迴插入
父表中更新資料:級聯更新;受限更新;置空值
DBMS對參照完整性可以有兩種方法實現:外來鍵實現機制(約束規則)和觸發器實現機制
使用者定義完整性:
NOTNULL;CHECK;觸發器
2)用約束而非商務規則強制資料完整性
採用資料庫系統實現資料的完整性。這不但包括透過標準化實現的完整性而且還包括資料的功能性。在寫資料的時候還可以增加觸發器來保證資料的正確性。不要依賴於商務層保證資料完整性;它不能保證表之間(外來鍵)的完整性所以不能強加於其他完整性規則之上。
3)強制指示完整性
在有害資料進入資料庫之前將其剔除。啟用資料庫系統的指示完整性特性。這樣可以保持資料的清潔而能迫使開發人員投入更多的時間處理錯誤條件。
4)使用查詢控制資料完整性
控制資料完整性的最佳方式就是限制使用者的選擇。只要有可能都應該提供給使用者一個清晰的價值列表供其選擇。這樣將減少鍵入程式碼的錯誤和誤解同時提供資料的一致性。某些公共資料特別適合查詢:國家程式碼、狀態程式碼等。
5)採用檢視
為了在資料庫和應用程式程式碼之間提供另一層抽象,可以為應用程式建立專門的檢視而不必非要應用程式直接訪問資料表。這樣做還等於在處理資料庫變更時給你提供了更多的自由。
5.其他設計技巧
1)避免使用觸發器
觸發器的功能通常可以用其他方式實現。在除錯程式時觸發器可能成為干擾。假如你確實需要採用觸發器,你最好集中對它文件化。
2)使用常用英語(或者其他任何語言)而不要使用編碼
在建立下拉選單、列表、報表時最好按照英語名排序。假如需要編碼,可以在編碼旁附上使用者知道的英語。
3)儲存常用資訊
讓一個表專門存放一般資料庫資訊非常有用。在這個表裡存放資料庫當前版本、最近檢查/修復(對Access)、關聯設計文件的名稱、客戶等資訊。這樣可以實現一種簡單機制跟蹤資料庫,當客戶抱怨他們的資料庫沒有達到希望的要求而與你聯絡時,這樣做對非客戶機/伺服器環境特別有用。
4)包含版本機制
在資料庫中引入版本控制機制來確定使用中的資料庫的版本。時間一長,使用者的需求總是會改變的。最終可能會要求修改資料庫結構。把版本資訊直接存放到資料庫中更為方便。
5)編制文件
對所有的快捷方式、命名規範、限制和函式都要編制文件。
採用給表、列、觸發器等加註釋的資料庫工具。對開發、支援和跟蹤修改非常有用。
對資料庫文件化,或者在資料庫自身的內部或者單獨建立文件。這樣,當過了一年多時間後再回過頭來做第2個版本,犯錯的機會將大大減少。
6)測試、測試、反覆測試
建立或者修訂資料庫之後,必須用使用者新輸入的資料測試資料欄位。最重要的是,讓使用者進行測試並且同用戶一道保證選擇的資料型別滿足商業要求。測試需要在把新資料庫投入實際服務之前完成。
7)檢查設計
在開發期間檢查資料庫設計的常用技術是透過其所支援的應用程式原型檢查資料庫。換句話說,針對每一種最終表達資料的原型應用,保證你檢查了資料模型並且檢視如何取出資料。
三、資料庫命名規範
1.實體(表)的命名
1)表以名詞或名詞短語命名,確定表名是採用複數還是單數形式,此外給表的別名定義簡單規則(比方說,如果表名是一個單詞,別名就取單詞的前4個字母;如果表名是兩個單詞,就各取兩個單詞的前兩個字母組成4個字母長的別名;如果表的名字由3個單片語成,從頭兩個單詞中各取一個然後從最後一個單詞中再取出兩個字母,結果還是組成4字母長的別名,其餘依次類推)
對工作用表來說,表名可以加上字首WORK_後面附上採用該表的應用程式的名字。在命名過程當中,根據語義拼湊縮寫即可。注意,由於ORCLE會將欄位名稱統一成大寫或者小寫中的一種,所以要求加上下劃線。
舉例:
定義的縮寫Sales:Sal銷售;
Order:Ord訂單;
Detail:Dtl明細;
則銷售訂單明細表命名為:Sal_Ord_Dtl;
2)如果表或者是欄位的名稱僅有一個單詞,那麼建議不使用縮寫,而是用完整的單詞。
定義的縮寫MaterialMa物品;
物品表名為:Material,而不是Ma.
但是欄位物品編碼則是:Ma_ID;而不是Material_ID
3)所有的儲存值列表的表前面加上字首Z
目的是將這些值列表類排序在資料庫最後。
4)所有的冗餘類的命名(主要是累計表)前面加上字首X
冗餘類是為了提高資料庫效率,非規範化資料庫的時候加入的欄位或者表
5)關聯類透過用下劃線連線兩個基本類之後,再加字首R的方式命名,後面按照字母順序羅列兩個表名或者表名的縮寫。
關聯表用於儲存多對多關係。
如果被關聯的表名大於10個字母,必須將原來的表名的進行縮寫。如果沒有其他原因,建議都使用縮寫。
舉例:表Object與自身存在多對多的關係,則儲存多對多關係的表命名為:R_Object;
表Depart和Employee;存在多對多的關係;則關聯表命名為R_Dept_Emp
2.屬性(列)的命名
1)採用有意義的列名,表內的列要針對鍵採用一整套設計規則。每一個表都將有一個自動ID作為主健,邏輯上的主健作為第一組候選主健來定義,如果是資料庫自動生成的編碼,統一命名為:ID;如果是自定義的邏輯上的編碼則用縮寫加“ID”的方法命名。如果鍵是數字型別,你可以用_NO作為字尾;如果是字元型別則可以採用_CODE字尾。對列名應該採用標準的字首和字尾。
舉例:銷售訂單的編號欄位命名:Sal_Ord_ID;如果還存在一個數據庫生成的自動編號,則命名為:ID。
2)所有的屬性加上有關型別的字尾,注意,如果還需要其它的字尾,都放在型別字尾之前。
注:資料型別是文字的欄位,型別字尾TX可以不寫。有些型別比較明顯的欄位,可以不寫型別字尾。
3)採用字首命名
給每個表的列名都採用統一的字首,那麼在編寫SQL表示式的時候會得到大大的簡化。這樣做也確實有缺點,比如破壞了自動錶連線工具的作用,後者把公共列名同某些資料庫聯絡起來。
3.檢視的命名
1)檢視以V作為字首,其他命名規則和表的命名類似;
2)命名應儘量體現各檢視的功能。
4.觸發器的命名
觸發器以TR作為字首,觸發器名為相應的表名加上字尾,Insert觸發器加"_I",Delete觸發器加"_D",Update觸發器加"_U",如:TR_Customer_I,TR_Customer_D,TR_Customer_U。
5.儲存過程名
儲存過程應以"UP_"開頭,和系統的儲存過程區分,後續部分主要以動賓形式構成,並用下劃線分割各個組成部分。如增加代理商的帳戶的儲存過程為"UP_Ins_Agent_Account"。
6.變數名
變數名採用小寫,若屬於片語形式,用下劃線分隔每個單詞,如@my_err_no。
7.命名中其他注意事項
1)以上命名都不得超過30個字元的系統限制。變數名的長度限制為29(不包括標識字元@)。
2)資料物件、變數的命名都採用英文字元,禁止使用中文命名。絕對不要在物件名的字元之間留空格。
3)小心保留詞,要保證你的欄位名沒有和保留詞、資料庫系統或者常用訪問方法衝突
5)保持欄位名和型別的一致性,在命名欄位併為其指定資料型別的時候一定要保證一致性。假如資料型別在一個表裡是整數,那在另一個表裡可就別變成字元型了。
資料庫設計方法、規範與技巧
一、資料庫設計過程
資料庫技術是資訊資源管理最有效的手段。資料庫設計是指對於一個給定的應用環境,構造最優的資料庫模式,建立資料庫及其應用系統,有效儲存資料,滿足使用者資訊要求和處理要求。
資料庫設計中需求分析階段綜合各個使用者的應用需求(現實世界的需求),在概念設計階段形成獨立於機器特點、獨立於各個DBMS產品的概念模式(資訊世界模型),用E-R圖來描述。在邏輯設計階段將E-R圖轉換成具體的資料庫產品支援的資料模型如關係模型,形成資料庫邏輯模式。然後根據使用者處理的要求,安全性的考慮,在基本表的基礎上再建立必要的檢視(VIEW)形成資料的外模式。在物理設計階段根據DBMS特點和處理的需要,進行物理儲存安排,設計索引,形成資料庫內模式。
1.需求分析階段
需求收集和分析,結果得到資料字典描述的資料需求(和資料流圖描述的處理需求)。
需求分析的重點是調查、收集與分析使用者在資料管理中的資訊要求、處理要求、安全性與完整性要求。
需求分析的方法:調查組織機構情況、調查各部門的業務活動情況、協助使用者明確對新系統的各種要求、確定新系統的邊界。
常用的調查方法有:跟班作業、開調查會、請專人介紹、詢問、設計調查表請使用者填寫、查閱記錄。
分析和表達使用者需求的方法主要包括自頂向下和自底向上兩類方法。自頂向下的結構化分析方法(StructuredAnalysis,簡稱SA方法)從最上層的系統組織機構入手,採用逐層分解的方式分析系統,並把每一層用資料流圖和資料字典描述。
資料流圖表達了資料和處理過程的關係。系統中的資料則藉助資料字典(DataDictionary,簡稱DD)來描述。
資料字典是各類資料描述的集合,它是關於資料庫中資料的描述,即元資料,而不是資料本身。資料字典通常包括資料項、資料結構、資料流、資料儲存和處理過程五個部分(至少應該包含每個欄位的資料型別和在每個表內的主外來鍵)。
資料項描述={資料項名,資料項含義說明,別名,資料型別,長度,
取值範圍,取值含義,與其他資料項的邏輯關係}
資料結構描述={資料結構名,含義說明,組成:{資料項或資料結構}}
組成:{資料結構},平均流量,高峰期流量}
資料儲存描述={資料儲存名,說明,編號,流入的資料流,流出的資料流,
組成:{資料結構},資料量,存取方式}
處理過程描述={處理過程名,說明,輸入:{資料流},輸出:{資料流},
處理:{簡要說明}}
2.概念結構設計階段
透過對使用者需求進行綜合、歸納與抽象,形成一個獨立於具體DBMS的概念模型,可以用E-R圖表示。
概念模型用於資訊世界的建模。概念模型不依賴於某一個DBMS支援的資料模型。概念模型可以轉換為計算機上某一DBMS支援的特定資料模型。
概念模型特點:
(1)具有較強的語義表達能力,能夠方便、直接地表達應用中的各種語義知識。
(2)應該簡單、清晰、易於使用者理解,是使用者與資料庫設計人員之間進行交流的語言。
概念模型設計的一種常用方法為IDEF1X方法,它就是把實體-聯絡方法應用到語義資料模型中的一種語義模型化技術,用於建立系統資訊模型。
使用IDEF1X方法建立E-R模型的步驟如下所示:
2.1第零步——初始化工程
這個階段的任務是從目的描述和範圍描述開始,確定建模目標,開發建模計劃,組織建模隊伍,收集源材料,制定約束和規範。收集源材料是這階段的重點。透過調查和觀察結果,業務流程,原有系統的輸入輸出,各種報表,收集原始資料,形成了基本資料資料表。
2.2第一步——定義實體
實體整合員都有一個共同的特徵和屬性集,可以從收集的源材料——基本資料資料表中直接或間接標識出大部分實體。根據源材料名字表中表示物的術語以及具有“程式碼”結尾的術語,如客戶程式碼、代理商程式碼、產品程式碼等將其名詞部分代表的實體標識出來,從而初步找出潛在的實體,形成初步實體表。
2.3第二步——定義聯絡
IDEF1X模型中只允許二元聯絡,n元聯絡必須定義為n個二元聯絡。根據實際的業務需求和規則,使用實體聯絡矩陣來標識實體間的二元關係,然後根據實際情況確定出連線關係的勢、關係名和說明,確定關係型別,是標識關係、非標識關係(強制的或可選的)還是非確定關係、分類關係。如果子實體的每個例項都需要透過和父實體的關係來標識,則為標識關係,否則為非標識關係。非標識關係中,如果每個子實體的例項都與而且只與一個父實體關聯,則為強制的,否則為非強制的。如果父實體與子實體代表的是同一現實物件,那麼它們為分類關係。
2.4第三步——定義碼
透過引入交叉實體除去上一階段產生的非確定關係,然後從非交叉實體和獨立實體開始標識侯選碼屬性,以便唯一識別每個實體的例項,再從侯選碼中確定主碼。為了確定主碼和關係的有效性,透過非空規則和非多值規則來保證,即一個實體例項的一個屬性不能是空值,也不能在同一個時刻有一個以上的值。找出誤認的確定關係,將實體進一步分解,最後構造出IDEF1X模型的鍵基檢視(KB圖)。
2.5第四步——定義屬性
從源資料表中抽取說明性的名詞開發出屬性表,確定屬性的所有者。定義非主碼屬性,檢查屬性的非空及非多值規則。此外,還要檢查完全依賴函式規則和非傳遞依賴規則,保證一個非主碼屬性必須依賴於主碼、整個主碼、僅僅是主碼。以此得到了至少符合關係理論第三正規化的改進的IDEF1X模型的全屬性檢視。
2.6第五步——定義其他物件和規則
定義屬性的資料型別、長度、精度、非空、預設值、約束規則等。定義觸發器、儲存過程、檢視、角色、同義詞、序列等物件資訊。
3.邏輯結構設計階段
將概念結構轉換為某個DBMS所支援的資料模型(例如關係模型),並對其進行最佳化。設計邏輯結構應該選擇最適於描述與表達相應概念結構的資料模型,然後選擇最合適的DBMS。
將E-R圖轉換為關係模型實際上就是要將實體、實體的屬性和實體之間的聯絡轉化為關係模式,這種轉換一般遵循如下原則:
1)一個實體型轉換為一個關係模式。實體的屬性就是關係的屬性。實體的碼就是關係的碼。
2)一個m:n聯絡轉換為一個關係模式。與該聯絡相連的各實體的碼以及聯絡本身的屬性均轉換為關係的屬性。而關係的碼為各實體碼的組合。
3)一個1:n聯絡可以轉換為一個獨立的關係模式,也可以與n端對應的關係模式合併。如果轉換為一個獨立的關係模式,則與該聯絡相連的各實體的碼以及聯絡本身的屬性均轉換為關係的屬性,而關係的碼為n端實體的碼。
4)一個1:1聯絡可以轉換為一個獨立的關係模式,也可以與任意一端對應的關係模式合併。
5)三個或三個以上實體間的一個多元聯絡轉換為一個關係模式。與該多元聯絡相連的各實體的碼以及聯絡本身的屬性均轉換為關係的屬性。而關係的碼為各實體碼的組合。
6)同一實體集的實體間的聯絡,即自聯絡,也可按上述1:1、1:n和m:n三種情況分別處理。
7)具有相同碼的關係模式可合併。
為了進一步提高資料庫應用系統的效能,通常以規範化理論為指導,還應該適當地修改、調整資料模型的結構,這就是資料模型的最佳化。確定資料依賴。消除冗餘的聯絡。確定各關係模式分別屬於第幾正規化。確定是否要對它們進行合併或分解。一般來說將關係分解為3NF的標準,即:
表內的每一個值都只能被表達一次。
??表內的每一行都應該被唯一的標識(有唯一鍵)。
表內不應該儲存依賴於其他鍵的非鍵資訊。
4.資料庫物理設計階段
為邏輯資料模型選取一個最適合應用環境的物理結構(包括儲存結構和存取方法)。根據DBMS特點和處理的需要,進行物理儲存安排,設計索引,形成資料庫內模式。
5.資料庫實施階段
運用DBMS提供的資料語言(例如SQL)及其宿主語言(例如C),根據邏輯設計和物理設計的結果建立資料庫,編制與除錯應用程式,組織資料入庫,並進行試執行。資料庫實施主要包括以下工作:用DDL定義資料庫結構、組織資料入庫、編制與除錯應用程式、資料庫試執行6.資料庫執行和維護階段
資料庫應用系統經過試執行後即可投入正式執行。在資料庫系統執行過程中必須不斷地對其進行評價、調整與修改。包括:資料庫的轉儲和恢復、資料庫的安全性、完整性控制、資料庫效能的監督、分析和改進、資料庫的重組織和重構造。
建模工具的使用
為加快資料庫設計速度,目前有很多資料庫輔助工具(CASE工具),如Rational公司的RationalRose,CA公司的Erwin和Bpwin,Sybase公司的PowerDesigner以及Oracle公司的OracleDesigner等。
ERwin主要用來建立資料庫的概念模型和物理模型。它能用圖形化的方式,描述出實體、聯絡及實體的屬性。ERwin支援IDEF1X方法。透過使用ERwin建模工具自動生成、更改和分析IDEF1X模型,不僅能得到優秀的業務功能和資料需求模型,而且可以實現從IDEF1X模型到資料庫物理設計的轉變。ERwin工具繪製的模型對應於邏輯模型和物理模型兩種。在邏輯模型中,IDEF1X工具箱可以方便地用圖形化的方式構建和繪製實體聯絡及實體的屬性。在物理模型中,ERwin可以定義對應的表、列,並可針對各種資料庫管理系統自動轉換為適當的型別。
設計人員可根據需要選用相應的資料庫設計建模工具。例如需求分析完成之後,設計人員可以使用Erwin畫ER圖,將ER圖轉換為關係資料模型,生成資料庫結構;畫資料流圖,生成應用程式。
二、資料庫設計技巧
1.設計資料庫之前(需求分析階段)
1)理解客戶需求,詢問使用者如何看待未來需求變化。讓客戶解釋其需求,而且隨著開發的繼續,還要經常詢問客戶保證其需求仍然在開發的目的之中。
2)瞭解企業業務可以在以後的開發階段節約大量的時間。
3)重視輸入輸出。
在定義資料庫表和欄位需求(輸入)時,首先應檢查現有的或者已經設計出的報表、查詢和檢視(輸出)以決定為了支援這些輸出哪些是必要的表和欄位。
舉例:假如客戶需要一個報表按照郵政編碼排序、分段和求和,你要保證其中包括了單獨的郵政編碼欄位而不要把郵政編碼糅進地址欄位裡。
4)建立資料字典和ER圖表
ER圖表和資料字典可以讓任何瞭解資料庫的人都明確如何從資料庫中獲得資料。ER圖對錶明表之間關係很有用,而資料字典則說明了每個欄位的用途以及任何可能存在的別名。對SQL表示式的文件化來說這是完全必要的。
5)定義標準的物件命名規範
資料庫各種物件的命名必須規範。
2.表和欄位的設計(資料庫邏輯設計)
表設計原則
1)標準化和規範化
資料的標準化有助於消除資料庫中的資料冗餘。標準化有好幾種形式,但ThirdNormalForm(3NF)通常被認為在效能、擴充套件性和資料完整性方面達到了最好平衡。簡單來說,遵守3NF標準的資料庫的表設計原則是:“OneFactinOnePlace”即某個表只包括其本身基本的屬性,當不是它們本身所具有的屬性時需進行分解。表之間的關係透過外來鍵相連線。它具有以下特點:有一組表專門存放透過鍵連線起來的關聯資料。
舉例:某個存放客戶及其有關定單的3NF資料庫就可能有兩個表:Customer和Order。Order表不包含定單關聯客戶的任何資訊,但表內會存放一個鍵值,該鍵指向Customer表裡包含該客戶資訊的那一行。
事實上,為了效率的緣故,對錶不進行標準化有時也是必要的。
2)資料驅動
採用資料驅動而非硬編碼的方式,許多策略變更和維護都會方便得多,大大增強系統的靈活性和擴充套件性。
舉例,假如使用者介面要訪問外部資料來源(檔案、XML文件、其他資料庫等),不妨把相應的連線和路徑資訊儲存在使用者介面支援表裡。還有,如果使用者介面執行工作流之類的任務(傳送郵件、列印信箋、修改記錄狀態等),那麼產生工作流的資料也可以存放在資料庫裡。角色許可權管理也可以透過資料驅動來完成。事實上,如果過程是資料驅動的,你就可以把相當大的責任推給使用者,由使用者來維護自己的工作流過程。
3)考慮各種變化
在設計資料庫的時候考慮到哪些資料欄位將來可能會發生變更。舉例,姓氏就是如此(注意是西方人的姓氏,比如女性結婚後從夫姓等)。所以,在建立系統儲存客戶資訊時,在單獨的一個數據表裡儲存姓氏欄位,而且還附加起始日和終止日等欄位,這樣就可以跟蹤這一資料條目的變化。
欄位設計原則
4)每個表中都應該新增的3個有用的欄位
??dRecordCreationDate,在VB下預設是Now(),而在SQLServer下預設為GETDATE()
??sRecordCreator,在SQLServer下預設為NOTNULLDEFAULTUSER
??nRecordVersion,記錄的版本標記;有助於準確說明記錄中出現null資料或者丟失資料的原因
5)對地址和電話採用多個欄位
描述街道地址就短短一行記錄是不夠的。Address_Line1、Address_Line2和Address_Line3可以提供更大的靈活性。還有,電話號碼和郵件地址最好擁有自己的資料表,其間具有自身的型別和標記類別。
6)使用角色實體定義屬於某類別的列
在需要對屬於特定類別或者具有特定角色的事物做定義時,可以用角色實體來建立特定的時間關聯關係,從而可以實現自我文件化。
舉例:用PERSON實體和PERSON_TYPE實體來描述人員。比方說,當JohnSmith,Engineer提升為JohnSmith,Director乃至最後爬到JohnSmith,CIO的高位,而所有你要做的不過是改變兩個表PERSON和PERSON_TYPE之間關係的鍵值,同時增加一個日期/時間欄位來知道變化是何時發生的。這樣,你的PERSON_TYPE表就包含了所有PERSON的可能型別,比如Associate、Engineer、Director、CIO或者CEO等。還有個替代辦法就是改變PERSON記錄來反映新頭銜的變化,不過這樣一來在時間上無法跟蹤個人所處位置的具體時間。
7)選擇數字型別和文字型別儘量充足
在SQL中使用smallint和tinyint型別要特別小心。比如,假如想看看月銷售總額,總額欄位型別是smallint,那麼,如果總額超過了$32,767就不能進行計算操作了。
而ID型別的文字欄位,比如客戶ID或定單號等等都應該設定得比一般想象更大。假設客戶ID為10位數長。那你應該把資料庫表字段的長度設為12或者13個字元長。但這額外佔據的空間卻無需將來重構整個資料庫就可以實現資料庫規模的增長了。
3.選擇鍵和索引(資料庫邏輯設計)
鍵選擇原則:
1)鍵設計4原則
??為關聯欄位建立外來鍵。
??所有的鍵都必須唯一。
??避免使用複合鍵。
??外來鍵總是關聯唯一的鍵欄位。
2)使用系統生成的主鍵
設計資料庫的時候採用系統生成的鍵作為主鍵,那麼實際控制了資料庫的索引完整性。這樣,資料庫和非人工機制就有效地控制了對儲存資料中每一行的訪問。採用系統生成鍵作為主鍵還有一個優點:當擁有一致的鍵結構時,找到邏輯缺陷很容易。
3)不要用使用者的鍵(不讓主鍵具有可更新性)
在確定採用什麼欄位作為表的鍵的時候,可一定要小心使用者將要編輯的欄位。通常的情況下不要選擇使用者可編輯的欄位作為鍵。
4)可選鍵有時可做主鍵
把可選鍵進一步用做主鍵,可以擁有建立強大索引的能力。
索引使用原則:
索引是從資料庫中獲取資料的最高效方式之一。95%的資料庫效能問題都可以採用索引技術得到解決。
1)邏輯主鍵使用唯一的成組索引,對系統鍵(作為儲存過程)採用唯一的非成組索引,對任何外來鍵列採用非成組索引。考慮資料庫的空間有多大,表如何進行訪問,還有這些訪問是否主要用作讀寫。
2)大多數資料庫都索引自動建立的主鍵欄位,但是可別忘了索引外來鍵,它們也是經常使用的鍵,比如執行查詢顯示主表和所有關聯表的某條記錄就用得上。
3)不要索引memo/note欄位,不要索引大型欄位(有很多字元),這樣作會讓索引佔用太多的儲存空間。
4)不要索引常用的小型表
4.資料完整性設計(資料庫邏輯設計)
1)完整性實現機制:
實體完整性:主鍵
參照完整性:
父表中插入資料:受限插入;遞迴插入
父表中更新資料:級聯更新;受限更新;置空值
DBMS對參照完整性可以有兩種方法實現:外來鍵實現機制(約束規則)和觸發器實現機制
使用者定義完整性:
NOTNULL;CHECK;觸發器
2)用約束而非商務規則強制資料完整性
採用資料庫系統實現資料的完整性。這不但包括透過標準化實現的完整性而且還包括資料的功能性。在寫資料的時候還可以增加觸發器來保證資料的正確性。不要依賴於商務層保證資料完整性;它不能保證表之間(外來鍵)的完整性所以不能強加於其他完整性規則之上。
3)強制指示完整性
在有害資料進入資料庫之前將其剔除。啟用資料庫系統的指示完整性特性。這樣可以保持資料的清潔而能迫使開發人員投入更多的時間處理錯誤條件。
4)使用查詢控制資料完整性
控制資料完整性的最佳方式就是限制使用者的選擇。只要有可能都應該提供給使用者一個清晰的價值列表供其選擇。這樣將減少鍵入程式碼的錯誤和誤解同時提供資料的一致性。某些公共資料特別適合查詢:國家程式碼、狀態程式碼等。
5)採用檢視
為了在資料庫和應用程式程式碼之間提供另一層抽象,可以為應用程式建立專門的檢視而不必非要應用程式直接訪問資料表。這樣做還等於在處理資料庫變更時給你提供了更多的自由。
5.其他設計技巧
1)避免使用觸發器
觸發器的功能通常可以用其他方式實現。在除錯程式時觸發器可能成為干擾。假如你確實需要採用觸發器,你最好集中對它文件化。
2)使用常用英語(或者其他任何語言)而不要使用編碼
在建立下拉選單、列表、報表時最好按照英語名排序。假如需要編碼,可以在編碼旁附上使用者知道的英語。
3)儲存常用資訊
讓一個表專門存放一般資料庫資訊非常有用。在這個表裡存放資料庫當前版本、最近檢查/修復(對Access)、關聯設計文件的名稱、客戶等資訊。這樣可以實現一種簡單機制跟蹤資料庫,當客戶抱怨他們的資料庫沒有達到希望的要求而與你聯絡時,這樣做對非客戶機/伺服器環境特別有用。
4)包含版本機制
在資料庫中引入版本控制機制來確定使用中的資料庫的版本。時間一長,使用者的需求總是會改變的。最終可能會要求修改資料庫結構。把版本資訊直接存放到資料庫中更為方便。
5)編制文件
對所有的快捷方式、命名規範、限制和函式都要編制文件。
採用給表、列、觸發器等加註釋的資料庫工具。對開發、支援和跟蹤修改非常有用。
對資料庫文件化,或者在資料庫自身的內部或者單獨建立文件。這樣,當過了一年多時間後再回過頭來做第2個版本,犯錯的機會將大大減少。
6)測試、測試、反覆測試
建立或者修訂資料庫之後,必須用使用者新輸入的資料測試資料欄位。最重要的是,讓使用者進行測試並且同用戶一道保證選擇的資料型別滿足商業要求。測試需要在把新資料庫投入實際服務之前完成。
7)檢查設計
在開發期間檢查資料庫設計的常用技術是透過其所支援的應用程式原型檢查資料庫。換句話說,針對每一種最終表達資料的原型應用,保證你檢查了資料模型並且檢視如何取出資料。
三、資料庫命名規範
1.實體(表)的命名
1)表以名詞或名詞短語命名,確定表名是採用複數還是單數形式,此外給表的別名定義簡單規則(比方說,如果表名是一個單詞,別名就取單詞的前4個字母;如果表名是兩個單詞,就各取兩個單詞的前兩個字母組成4個字母長的別名;如果表的名字由3個單片語成,從頭兩個單詞中各取一個然後從最後一個單詞中再取出兩個字母,結果還是組成4字母長的別名,其餘依次類推)
對工作用表來說,表名可以加上字首WORK_後面附上採用該表的應用程式的名字。在命名過程當中,根據語義拼湊縮寫即可。注意,由於ORCLE會將欄位名稱統一成大寫或者小寫中的一種,所以要求加上下劃線。
舉例:
定義的縮寫Sales:Sal銷售;
Order:Ord訂單;
Detail:Dtl明細;
則銷售訂單明細表命名為:Sal_Ord_Dtl;
2)如果表或者是欄位的名稱僅有一個單詞,那麼建議不使用縮寫,而是用完整的單詞。
舉例:
定義的縮寫MaterialMa物品;
物品表名為:Material,而不是Ma.
但是欄位物品編碼則是:Ma_ID;而不是Material_ID
3)所有的儲存值列表的表前面加上字首Z
目的是將這些值列表類排序在資料庫最後。
4)所有的冗餘類的命名(主要是累計表)前面加上字首X
冗餘類是為了提高資料庫效率,非規範化資料庫的時候加入的欄位或者表
5)關聯類透過用下劃線連線兩個基本類之後,再加字首R的方式命名,後面按照字母順序羅列兩個表名或者表名的縮寫。
關聯表用於儲存多對多關係。
如果被關聯的表名大於10個字母,必須將原來的表名的進行縮寫。如果沒有其他原因,建議都使用縮寫。
舉例:表Object與自身存在多對多的關係,則儲存多對多關係的表命名為:R_Object;
表Depart和Employee;存在多對多的關係;則關聯表命名為R_Dept_Emp
2.屬性(列)的命名
1)採用有意義的列名,表內的列要針對鍵採用一整套設計規則。每一個表都將有一個自動ID作為主健,邏輯上的主健作為第一組候選主健來定義,如果是資料庫自動生成的編碼,統一命名為:ID;如果是自定義的邏輯上的編碼則用縮寫加“ID”的方法命名。如果鍵是數字型別,你可以用_NO作為字尾;如果是字元型別則可以採用_CODE字尾。對列名應該採用標準的字首和字尾。
舉例:銷售訂單的編號欄位命名:Sal_Ord_ID;如果還存在一個數據庫生成的自動編號,則命名為:ID。
2)所有的屬性加上有關型別的字尾,注意,如果還需要其它的字尾,都放在型別字尾之前。
注:資料型別是文字的欄位,型別字尾TX可以不寫。有些型別比較明顯的欄位,可以不寫型別字尾。
3)採用字首命名
給每個表的列名都採用統一的字首,那麼在編寫SQL表示式的時候會得到大大的簡化。這樣做也確實有缺點,比如破壞了自動錶連線工具的作用,後者把公共列名同某些資料庫聯絡起來。
3.檢視的命名
1)檢視以V作為字首,其他命名規則和表的命名類似;
2)命名應儘量體現各檢視的功能。
4.觸發器的命名
觸發器以TR作為字首,觸發器名為相應的表名加上字尾,Insert觸發器加"_I",Delete觸發器加"_D",Update觸發器加"_U",如:TR_Customer_I,TR_Customer_D,TR_Customer_U。
5.儲存過程名
儲存過程應以"UP_"開頭,和系統的儲存過程區分,後續部分主要以動賓形式構成,並用下劃線分割各個組成部分。如增加代理商的帳戶的儲存過程為"UP_Ins_Agent_Account"。
6.變數名
變數名採用小寫,若屬於片語形式,用下劃線分隔每個單詞,如@my_err_no。
7.命名中其他注意事項
1)以上命名都不得超過30個字元的系統限制。變數名的長度限制為29(不包括標識字元@)。
2)資料物件、變數的命名都採用英文字元,禁止使用中文命名。絕對不要在物件名的字元之間留空格。
3)小心保留詞,要保證你的欄位名沒有和保留詞、資料庫系統或者常用訪問方法衝突
5)保持欄位名和型別的一致性,在命名欄位併為其指定資料型別的時候一定要保證一致性。假如資料型別在一個表裡是整數,那在另一個表裡可就別變成字元型了。