-
1 # 科學聯盟
-
2 # CynthiaLee95
熵最初是熱力學中的概念,當然我的物理學的也不好,引用百度百科“1877年,玻爾茲曼用下面的關係式表示系統的無序性大小: S ∝ lnΩ, 1900年普朗克引入了比例係數k, S = klnΩ”其中k是一個常數,叫做玻爾茲曼常數,S是宏觀系統的熵值,Ω是可能的微觀狀態數,Ω越大,表示系統越混亂無序。 因此熵是表示系統內分子熱運動無序性的一種量度。
資訊學中的熵和熱力學中的熵不是一個東西,但是他們有著很多的相似性。資訊熵是統計學中隨機變數不確定度的一種度量。同樣表達了系統中變數的一種分佈特性。
資訊熵的公式如下:
p(x)代表系統中一個變數的機率分佈,若x有三種可能取值為x1,x2,x3,則
H(X) = -p(x=x1)logp(x=x1)-p(x=x2)logp(x=x2)-p(x=x3)logp(x=x3) 。
若x取值為x1,x2,x3的機率為1,0,0,系統是非常有序的,全為x1
則H(X)=-1log1=0
若x取值x1,x2,x3的機率為1/3,1/3,1/3,系統是無序的,x各變數均勻分佈
則H(X)=-1/3log1/3-1/3log1/3-1/3log1/3=-log1/3=1.58
可見系統越無序資訊熵值越大。
-
3 # 亂彈小異
熵,資訊熵在機器學習和深度學習中是十分重要的。那麼,資訊熵到底是什麼呢?
首先,資訊熵是描述的一個事情的不確定性。比如:我說,太陽從東方升起。那麼這個事件發生的機率幾乎為1,那麼這個事情的反應的資訊量就會很小。如果我說,太陽從西方升起。那麼這就反應的資訊量就很大了,這有可能是因為地球的自轉變成了自東向西,或者地球脫離軌道去到了別的地方,那麼這就可能導致白天變成黑夜,熱帶雨林將變成沙漠,東北亞將不再是苦寒之地,而是現在的西歐一樣的海洋性季風氣候,而西歐變成寒帶大陸性氣候跟現在的東北亞苦寒之地一樣。
那麼,太陽從東方升起這個事件,機率很大,資訊量就會很少。相反,太陽從西方升起,機率很小,資訊量就會很多。因此,資訊熵常被用來作為一個系統的資訊含量的量化指標,從而可以進一步用來作為系統方程最佳化的目標或者引數選擇的判據。
先來一個資訊熵的公式:
其中:()代表隨機事件的機率。
由上面太陽東昇西落,西升東落很容易看出,資訊量是隨著發生的機率的增大而減少的,而且不能為負。
另外,如果我們有兩個不相關事件A和B,那麼可以得知這兩個事情同時發生的資訊等於各自發生的資訊之和。即h(A,B) = h(A) + h(B)
而且,根據貝葉斯定理,p(A,B) = p(A) * p(B)
根據上面說到的說熵的定義應該是機率的單調函式。我們很容易看出結論熵的定義 h 應該是機率 p(x) 的 log 函式,因此一個隨機變數的熵可以使用以下定義:
此處的負號,僅僅是為了保證熵為正數或者為零,而log函式的基數2可以使任意數,只不過根據普遍傳統,使用2作為對數的底。
我們用熵來評價整個隨機變數x平均的資訊量,而平均最好的量度就是隨機變數的期望,即資訊熵的定義如下:
最終的公式就出來了!還要說明的是,當這個事情一定發生的時候,發生的機率就為1,那麼它的資訊量為0,資訊熵就為0。
-
4 # 時光遊戲
資訊理論之父 C. E. Shannon 在 1948 年發表的論文“通訊的數學理論( A Mathematical Theory of Communication )”中, Shannon 指出,任何資訊都存在冗餘,冗餘大小與資訊中每個符號(數字、字母或單詞)的出現機率或者說不確定性有關。 Shannon 借鑑了熱力學的概念,把資訊中排除了冗餘後的平均資訊量稱為“資訊熵”,並給出了計算資訊熵的數學表示式。
本內容 通常,一個信源傳送出什麼符號是不確定的,衡量它可以根據其出現的機率來度量。機率大,出現機會多,不確定性小;反之就大。 不確定性函式f是機率P的單調遞降函式;兩個獨立符號所產生的不確定性應等於各自不確定性之和,即
f(P,P)=f(P)+f(P),這稱為可加性。同時滿足這兩個條件的函式f是對數函式 。 在信源中,考慮的不是某一單個符號發生的不確定性,而是要考慮這個信源所有可能發生情況的平均不確定性。若信源符號有n種取值:U…U…U,對應機率為:P…Pi…P,且各種符號的出現彼此獨立。這時,信源的平均不確定性應當為單個符號不確定性-logP的統計平均值(E),可稱為資訊熵,即 ,式中對數一般取2為底,單位為位元。但是,也可以取其它對數底,採用其它相應的單位,它們間可用換底公式換算。 最簡單的單符號信源僅取0和1兩個元素,即二元信源,其機率為P和Q=1-P,該信源的熵即為如圖1所示。 由圖可見,離散信源的資訊熵具有:①非負性,即收到一個信源符號所獲得的資訊量應為正值,H(U)≥0;②對稱性,即對稱於P=0.5(③確定性,H(1,0)=0,即P=0或P=1已是確定狀態,所得資訊量為零;④極值性,當P=0.5時,H(U)最大;而且H(U)是P的上凸函式。 正在載入圖1 二元信源的熵 對連續信源,仙農給出了形式上類似於離散信源的連續熵, 雖然連續熵H(U)仍具有可加性,但不具有資訊的非負性,已不同於離散信源。H(U)不代表連續信源的資訊量。連續信源取值無限,資訊量是無限大,而H(U)是一個有限的相對值,又稱相對熵。但是,在取兩熵的差值為互資訊時,它仍具有非負性。這與力學中勢能的定義相仿。
回覆列表
資訊熵是借用物理學裡的熵的概念而定義的描述資訊的抽象概念。
首先要清楚資訊的含義是什麼。資訊理論的說法是:消除不確定性的東西。物理中稱之為:有序度。它往往與某事件確定的機率聯絡,比如到某樓找某人,只知在某棟(共50套房間,5層、10套/層),則找到此人的機率為1/50,若有人說(提供資訊)他住第三層,則在三樓找到此人的機率為1/10,其它層找到此人的機率為0,若最後打聽到住某房間,則找到此人機率為1,住其它房的機率為0,可見資訊的獲得意味著機率分佈的集中。
於是我們就要問,資訊如何描述。換句話,資訊量如何定義。我們在只知道某棟樓情況下的資訊量肯定是低於知道具體某棟樓和具體的層數時的資訊量。而這兩種情況下,找到該人的機率是不同的,一個自然的想法就是,資訊量和機率有關。
我們基於以下的假定來構造資訊量的表示式:
(1)資訊量應當是機率pi(i= l,…, N)的連續函式;
(2)如果所有的機率pi相等,即pi=1/N, 那麼資訊量應當是N的單調增函式;
(3)如果選擇是分為相繼的兩步達到的,那麼原先的一步選擇的資訊量應等於分步選擇的各個資訊量值的加權和。
那麼可以證明資訊量的表示式為
Hs是資訊量的表示符號,k是一個正實數,一般會取為1。這個公式便是資訊量的表示式。它與熱力學裡的熵表示式類似,所以又叫資訊熵公式。由於這個公式最早是夏農(Shannon)提出來的,所以又叫該公式為夏農熵公式。
值得一提,資訊熵是有單位的。如果以2為對數的底數,那麼單位是位元;以e為底數,則是奈特,又叫自然單位;以10為底數,單位是迪特。
可以定義自資訊量:
前面說資訊是消除不確定性的東西。那麼這個公式如何體現這一點?考慮機率p=0,那麼自資訊量對於無窮大,而p=1,自資訊量對於0。我們只能這樣理解:消除0機率事件的不確定性所需的資訊量為無窮大,而機率為的事情是完全確定的,不需要資訊去消除其不確定性。從這裡看出,資訊等價於負熵。
【注意,資訊熵和熱力學熵是有區別的。熱力學熵存在一個共軛量——溫度,但是資訊熵沒有。這件事情對於熱力學極其重要。因為我們在研究熱力學各種物理量的時候,可以藉助共軛量夠早的一個重要的數學變換——勒讓德變換從某一個廣義能量來獲得其他廣義能量。比如,焓與內能之間就是透過這樣的勒讓德變換而相互轉換的:H=U+pV。亥姆霍茲自由能與內能之間存在這樣的勒讓德變換:F=U-TS。但是非共軛量是不能構造勒讓德變換的。在分析力學裡正則座標和正則動量是共軛量,所以可以用它們的乘積和拉格朗日函式構造一個勒讓德變換,而獲得哈密頓函式。但是由於資訊熵不存在共軛量,所以我們不能構造勒讓德變換。】