正規化,一般意義上是指關係資料庫的設計正規化
設計關係資料庫時,遵從不同的規範要求,設計出合理的關係型資料庫,這些不同的規範要求被稱為不同的正規化,各種正規化呈遞次規範,越高的正規化資料庫冗餘越小。
目前關係資料庫有六種正規化:第一正規化(1NF)、第二正規化(2NF)、第三正規化(3NF)、巴德斯科範式(BCNF)、第四正規化(4NF)和第五正規化(5NF,又稱完美正規化)。
滿足最低要求的正規化是第一正規化(1NF)。在第一正規化的基礎上進一步滿足更多規範要求的稱為第二正規化(2NF),其餘正規化以次類推。一般說來,資料庫只需滿足第三正規化(3NF)就行了。
第一正規化(1NF)無重複的列 所謂第一正規化(1NF)是指在關係模型中,對域新增的一個規範要求,所有的域都應該是原子性的,即資料庫表的每一列都是不可分割的原子資料項,而不能是集合,陣列,記錄等非原子資料項。即實體中的某個屬性有多個值時,必須拆分為不同的屬性。在符合第一正規化(1NF)表中的每個域值只能是實體的一個屬性或一個屬性的一部分。簡而言之,第一正規化就是無重複的域。
說明:在任何一個關係資料庫中,第一正規化(1NF)是對關係模式的設計基本要求,一般設計中都必須滿足第一正規化(1NF)。不過有些關係模型中突破了1NF的限制,這種稱為非1NF的關係模型。換句話說,是否必須滿足1NF的最低要求,主要依賴於所使用的關係模型。第二正規化(2NF)屬性 在1NF的基礎上,非碼屬性必須完全依賴於碼[在1NF基礎上消除非主屬性對主碼的部分函式依賴]
第二正規化(2NF)是在第一正規化(1NF)的基礎上建立起來的,即滿足第二正規化(2NF)必須先滿足第一正規化(1NF)。第二正規化(2NF)要求資料庫表中的每個例項或記錄必須可以被唯一地區分。選取一個能區分每個實體的屬性或屬性組,作為實體的唯一標識。例如在員工表中的身份證號碼即可實現每個一員工的區分,該身份證號碼即為候選鍵,任何一個候選鍵都可以被選作主鍵。在找不到候選鍵時,可額外增加屬性以實現區分,如果在員工關係中,沒有對其身份證號進行儲存,而姓名可能會在資料庫執行的某個時間重複,無法區分出實體時,設計闢如ID等不重複的編號以實現區分,被新增的編號或ID選作主鍵。(該主鍵的新增是在ER設計時新增,不是建庫時隨意新增)
第二正規化(2NF)要求實體的屬性完全依賴於主關鍵字。所謂完全依賴是指不能存在僅依賴主關鍵字一部分的屬性,如果存在,那麼這個屬性和主關鍵字的這一部分應該分離出來形成一個新的實體,新實體與原實體之間是一對多的關係。為實現區分通常需要為表加上一個列,以儲存各個例項的唯一標識。簡而言之,第二正規化就是在第一正規化的基礎上屬性完全依賴於主鍵。第三正規化(3NF)屬性 在1NF基礎上,任何非主屬性不依賴於其它非主屬性[在2NF基礎上消除傳遞依賴]
第三正規化(3NF)是第二正規化(2NF)的一個子集,即滿足第三正規化(3NF)必須滿足第二正規化(2NF)。簡而言之,第三正規化(3NF)要求一個關係中不包含已在其它關係已包含的非主關鍵字資訊。例如,存在一個部門資訊表,其中每個部門有部門編號(dept_id)、部門名稱、部門簡介等資訊。那麼在的員工資訊表中列出部門編號後就不能再將部門名稱、部門簡介等與部門有關的資訊再加入員工資訊表中。如果不存在部門資訊表,則根據第三正規化(3NF)也應該構建它,否則就會有大量的資料冗餘。簡而言之,第三正規化就是屬性不依賴於其它非主屬性,也就是在滿足2NF的基礎上,任何非主屬性不得傳遞依賴於主屬性。巴德斯科範式(BCNF)屬性 在1NF基礎上,任何非主屬性不能對主鍵子集依賴[在3NF基礎上消除對主碼子集的依賴]
巴德斯科範式(BCNF)是第三正規化(3NF)的一個子集,即滿足巴德斯科範式(BCNF)必須滿足第三正規化(3NF)。通常情況下,巴德斯科範式被認為沒有新的設計規範加入,只是對第二正規化與第三正規化中設計規範要求更強,因而被認為是修正第三正規化,也就是說,它事實上是對第三正規化的修正,使資料庫冗餘度更小。這也是BCNF不被稱為第四正規化的原因。某些書上,根據正規化要求的遞增性將其稱之為第四正規化是不規範,也是更讓人不容易理解的地方。而真正的第四正規化,則是在設計規範中添加了對多值及依賴的要求。
對於BCNF,在主碼的任何一個真子集都不能決定於非主屬性。關係中U主碼,若U中的任何一個真子集X都不能決定於非主屬性Y,則該設計規範屬性BCNF。例如:在關係R中,U為主碼,A屬性是主碼中的一個屬性,若存在A->Y,Y為非主屬性,則該關係不屬性BCNF。
一般關係型資料庫設計中,達到BCNF就可以了!
正規化,一般意義上是指關係資料庫的設計正規化
設計關係資料庫時,遵從不同的規範要求,設計出合理的關係型資料庫,這些不同的規範要求被稱為不同的正規化,各種正規化呈遞次規範,越高的正規化資料庫冗餘越小。
目前關係資料庫有六種正規化:第一正規化(1NF)、第二正規化(2NF)、第三正規化(3NF)、巴德斯科範式(BCNF)、第四正規化(4NF)和第五正規化(5NF,又稱完美正規化)。
滿足最低要求的正規化是第一正規化(1NF)。在第一正規化的基礎上進一步滿足更多規範要求的稱為第二正規化(2NF),其餘正規化以次類推。一般說來,資料庫只需滿足第三正規化(3NF)就行了。
第一正規化(1NF)無重複的列 所謂第一正規化(1NF)是指在關係模型中,對域新增的一個規範要求,所有的域都應該是原子性的,即資料庫表的每一列都是不可分割的原子資料項,而不能是集合,陣列,記錄等非原子資料項。即實體中的某個屬性有多個值時,必須拆分為不同的屬性。在符合第一正規化(1NF)表中的每個域值只能是實體的一個屬性或一個屬性的一部分。簡而言之,第一正規化就是無重複的域。
說明:在任何一個關係資料庫中,第一正規化(1NF)是對關係模式的設計基本要求,一般設計中都必須滿足第一正規化(1NF)。不過有些關係模型中突破了1NF的限制,這種稱為非1NF的關係模型。換句話說,是否必須滿足1NF的最低要求,主要依賴於所使用的關係模型。第二正規化(2NF)屬性 在1NF的基礎上,非碼屬性必須完全依賴於碼[在1NF基礎上消除非主屬性對主碼的部分函式依賴]
第二正規化(2NF)是在第一正規化(1NF)的基礎上建立起來的,即滿足第二正規化(2NF)必須先滿足第一正規化(1NF)。第二正規化(2NF)要求資料庫表中的每個例項或記錄必須可以被唯一地區分。選取一個能區分每個實體的屬性或屬性組,作為實體的唯一標識。例如在員工表中的身份證號碼即可實現每個一員工的區分,該身份證號碼即為候選鍵,任何一個候選鍵都可以被選作主鍵。在找不到候選鍵時,可額外增加屬性以實現區分,如果在員工關係中,沒有對其身份證號進行儲存,而姓名可能會在資料庫執行的某個時間重複,無法區分出實體時,設計闢如ID等不重複的編號以實現區分,被新增的編號或ID選作主鍵。(該主鍵的新增是在ER設計時新增,不是建庫時隨意新增)
第二正規化(2NF)要求實體的屬性完全依賴於主關鍵字。所謂完全依賴是指不能存在僅依賴主關鍵字一部分的屬性,如果存在,那麼這個屬性和主關鍵字的這一部分應該分離出來形成一個新的實體,新實體與原實體之間是一對多的關係。為實現區分通常需要為表加上一個列,以儲存各個例項的唯一標識。簡而言之,第二正規化就是在第一正規化的基礎上屬性完全依賴於主鍵。第三正規化(3NF)屬性 在1NF基礎上,任何非主屬性不依賴於其它非主屬性[在2NF基礎上消除傳遞依賴]
第三正規化(3NF)是第二正規化(2NF)的一個子集,即滿足第三正規化(3NF)必須滿足第二正規化(2NF)。簡而言之,第三正規化(3NF)要求一個關係中不包含已在其它關係已包含的非主關鍵字資訊。例如,存在一個部門資訊表,其中每個部門有部門編號(dept_id)、部門名稱、部門簡介等資訊。那麼在的員工資訊表中列出部門編號後就不能再將部門名稱、部門簡介等與部門有關的資訊再加入員工資訊表中。如果不存在部門資訊表,則根據第三正規化(3NF)也應該構建它,否則就會有大量的資料冗餘。簡而言之,第三正規化就是屬性不依賴於其它非主屬性,也就是在滿足2NF的基礎上,任何非主屬性不得傳遞依賴於主屬性。巴德斯科範式(BCNF)屬性 在1NF基礎上,任何非主屬性不能對主鍵子集依賴[在3NF基礎上消除對主碼子集的依賴]
巴德斯科範式(BCNF)是第三正規化(3NF)的一個子集,即滿足巴德斯科範式(BCNF)必須滿足第三正規化(3NF)。通常情況下,巴德斯科範式被認為沒有新的設計規範加入,只是對第二正規化與第三正規化中設計規範要求更強,因而被認為是修正第三正規化,也就是說,它事實上是對第三正規化的修正,使資料庫冗餘度更小。這也是BCNF不被稱為第四正規化的原因。某些書上,根據正規化要求的遞增性將其稱之為第四正規化是不規範,也是更讓人不容易理解的地方。而真正的第四正規化,則是在設計規範中添加了對多值及依賴的要求。
對於BCNF,在主碼的任何一個真子集都不能決定於非主屬性。關係中U主碼,若U中的任何一個真子集X都不能決定於非主屬性Y,則該設計規範屬性BCNF。例如:在關係R中,U為主碼,A屬性是主碼中的一個屬性,若存在A->Y,Y為非主屬性,則該關係不屬性BCNF。
一般關係型資料庫設計中,達到BCNF就可以了!