【特邀嘉賓】
胡本立先生,協同資料聯合創始人,國際資料管理協會中國區創始和現任主席。曾任世界銀行首席資訊科技官,負責世行資訊科技總體架構的設計、開發、和執行,支援世行的戰略和使命;繼後任香港證券及期貨事務監察委員會資訊長、顧問;中國證監會戰略及規劃委員會委員;中國社保基金理事會高階技術顧問;國際資料管理協會顧問,副主席,負責國際資料標準;惠普中國諮詢總顧問等。近年來專注資料管理,尤其是理解人、資料和計算機之間的複雜認知過程,和需要的資料思維、技術和工具。
一、題目的由來
無論從哪個領域或視角,在數字時代個人及單位都需要同“一串位元”打交道,不論這個位元是加密的或沒加密的,基礎層的或應用層的。數字化時代是從位元開始的,我希望通過對位元的歷史和一些相關基本概念的介紹,有助於更好、更有效地討論目前許多數字經濟中出現的概念問題,包括大資料、機器學習、人工智慧、認知科學到數字經濟、電子/虛擬/加密/數字貨幣以及區塊鏈等。本次討論簡述從位元延申出來的兩個與它緊密相關的基本概念——資料和資訊,其它的相關概念都是建立在這兩個基本概念之上。
二、“位元”的由來
位元的詞源是bit,bit是從bite(“一小塊/咬一口”)而來。bit作為資訊的二進位制位的縮寫,最早出現在1947年John W. Tukey寫給貝爾實驗室同事的備忘錄中。隨後夏農(Claude Shannon)於1948年在他最著名的“通訊的數學理論”中,將其定義為計算機中資料的最小單位,即要麼0要麼1的最小單位,後來也被稱“夏農位元”。
三、“資訊”是什麼——位元與資訊理論的簡史
中文版的《資訊簡史》這本書對“資訊”一詞的提出、使用和意義等問題有過詳細介紹。但是,在本次討論中,我想讓大家知道的是“資訊”是絕對抽象的一個詞,因而有多種不同定義。
談到資訊在科學和工程上的定義,大家都會討論夏農的那篇文章。圖1是夏農對通訊系統的一般描述,包括一串位元的產生,傳遞以及恢復的全過程(注意它涉及的範圍和沒有包括的內容)。
當時,半導體的發明讓物理層次上實現數字化成為可能。夏農主要的興趣是通訊,如何保證這一串位元從一個地方能不失真地傳到另一地方,這一過程涉及到編碼、統計、加密或解密一系列過程。在上述過程中,需要給這個不完全是物理的,又與物理有關的,並且有不少數學工具(如布林代數、概率等)可用來描述的東西取名(與牛頓在他的力學中為“力”取名的情況類似,牛頓最後用了“force”這個詞,而這個詞當時是用來指軍隊,今天也還是)。夏農經過與許多當時他周圍的各學科的同事討論,最後決定把“這個東西”稱為“資訊”,同時資訊的最小單位是“位元”。
然而,當時使他和現在許多人困惑的是資訊理論中的資訊與通常大家在用的“資訊”不是一回事,有時甚至正好相反。而且他進一步發現他的資訊理論中的數學公式與物理中描述無序或混亂概念的“熵”的公式一樣,這一現象在數學上稱為同構。於是,資訊又與物理聯絡上了,而位元又被稱為“夏農熵”。
夏農是個很低調、不希望誇大並且很嚴謹的科學家,他清醒地不把這一串位元的含義包括在他的資訊理論裡進行討論和處理。人類一直有興趣去發現規律,所謂規律即是它的可預測性。一般認為資訊越多越可預測,但按夏農的資訊理論來講,越可預測的資訊它含有的資訊量應越少,因為你已不需要更多的資訊來預測了。這有點有悖常理,但科學或工程上所指的資訊,就是夏農發明的資訊,它與我們一般認為在計算機和手機儲存上確定的1和0不是一個概念或事物了。
另外,資訊世界的位元與物理世界的原子也常被一起討論,其中一個原因可能是希望理解兩個世界究竟有無聯絡,如果有,兩者是如何聯絡的。另一個原因可能是位元和原子是這兩個世界中的最小度量和元素,如果我們能理解兩個世界中最小、最基本的元素之間的關係,我們最終就可以理解和建立這兩個世界的聯絡。MIT的尼葛洛龐帝早在1995年在他的“Being Digital”(Bits and Atoms)一書中,從管理學的角度,討論和列舉了許多由網際網路帶來的“資訊化”、“數字化”的例子。但這些也已經是二十多年前的事了,我覺得目前的數字化、比特幣、數字貨幣和數字化轉型只是那些概念的繼續或延申。
總之,現在大量關於“數字化”的概念和討論,與位元和資訊理論中的數字化完全是不同層次的概念和問題。資訊理論中的數字化是將模擬訊號數字化(也就是一個位元),從而在噪音很大或者無限的環境下,保證發出方和接收方的位元是一樣的,避免了模擬訊號傳輸的失真問題。所以當時的數字化是革命性的,提高了資訊傳遞的品質(需要注意的是香弄只是把中間傳遞的過程數字化了,他有意迴避了最後的接受者,但從整個資料的或者資訊的生命週期來講,它只不過是中間的一部分,更難以處理的是後面涉及到人的部分。這個問題人工智慧希望能夠解決,可能也取得了一定的成績了,但是距離概念化的過程還是挺大)。但是與當時一樣,我們始終仍面臨的是如何理解和處理這一串位元究竟是什麼的問題。全面理解它們的區別和聯絡有助我們至少在概念層對目前的數字經濟,虛擬經濟如何為實體經濟服務,數字貨幣,數字化改革等的更好討論會有所幫助。
我覺得要理解資料究竟是什麼應包括兩個方面,一是資料是如何產生的和被使用(處理)的全過程,二是資料過程是一個從不終止的迴圈動態過程,也是人的和所謂機器的學習過程。
圖2描述了資料的概念,其中出現數據的地方都已經標示在圖中。圖中最關鍵的部分就是兩個人拿了兩個電話在通電話,也就是數字化繞不過中間“人”的存在。雖然圖中有很多環狀結構,但是中間總是有一個過程是圓的,包括機器的設計、計算機的設計、人工智慧的演算法都避免不了人的因素。所以很多人嘗試希望機器能夠脫離人,但是我的基本觀點還是自動化,也就是機器的背後還是需要依靠人來設計。
下面我從資料的角度講“三個世界”。如圖3所示,有一個男孩和一個女孩,左邊有兩條狗,一條是狼狗,一條是對人友好的狗。在整個過程中,這兩個小孩學會怎麼用詞彙表達這兩條不同的狗。實際上如果狗有被接觸或者有感覺看見它時,人對狗的概念已經形成了,但狗的應該叫“狗”還是叫“犬”這個還沒有形成。人在感知到“狗”之後,訊號傳遞到人腦之中,腦根據狗的基本特徵達成共識,從而從感官中的“狗”形成了狗的概念。最後,右上角有一個老人開始教他,男孩和女孩就明白了這個東西就是狗。
所以基於這三個事件,我們可以得到“三個世界”:左邊的是客觀存在的世界;中間是以概念主觀的世界為主(因為實際上嚴格來講,主觀事件下面大腦的神經元,也是物質結構),概念只有在人腦中才有;右邊是大量資料構成的表示世界。那麼這三個世界應該如何打通?上圖實際上反映了這個迴圈和三個世界的關聯,但關聯的程度不一定完全一樣。例如,男孩和女孩可能對狗的基本特徵(如兩個眼睛、四個腳)基本上不會有不同的意見,但是如果男孩是被狼狗咬過的,女孩則沒有被狗咬過,那麼他們對狗的感覺和理解是不一樣的,當然這種不同不一定很顯性地體現出來。
對於客觀世界,大家都在努力發現客觀世界的自然科學規律,我們現在碰到的大量問題是在表示世界裡面。有人認為表示世界是虛擬的,但實際上它不是真的虛擬,它只是和左邊的客觀物理世界不一樣。例如,聲音是一種資料,但資料也是物理的,只不過不是完全像左邊的客觀世界的物理世界的東西。故而我們大量在討論或辯論的就是在表示世界裡面的事情,我的一個觀點是包括傳統資料、概念模型、邏輯模型、物理模型等,只要是在腦外的都是物理的,尤其從現在人工智慧的觀點來講的話也更是。人工智慧都是在處理一些訊號,這些訊號對人來講都是訊號。
以從事資料管理行業的人的視角來看,他們把所有的東西都認為是資料,而且所有與之相關都是資料管理。我在這裡通過一張簡單的圖(如圖4所示)來展示我們的工作。左邊是人工智慧的機器,主要是統計分類;右邊是傳統的資料管理世界,包括資料庫、資料倉庫、資料探勘、資料分析等,即在人工智慧以前的整個一套IT系統。但是左邊和右邊並不能自動地連線在一起,而是需要依靠人,這個不是一個簡單的過程。而且左邊的分類也沒有到概念層,也就是達到能夠理解的,能夠跟右邊的資料產生、儲存和使用相連線的層次。所以這裡面實際上有很大的機會。
第一,不同層次的問題需要在不同層次中去討論和解決。我們現在的討論基本上是不分層次的,從夏農的資訊理論到下面的位元,技術上的中間層到具體業務,還有經濟金融的概念,這裡面有好幾個層次。我覺得不同層次的問題需要在不同層次中去討論和解決。當然跨界很重要,許多創造發明都是跨界產生的,但是也有風險。
第二,不同層次問題需要能被打通。真的創新如果是跨層次,那麼就需要打通。打通是資料管理的老問題了,但整合孤島打通絕對不是一個簡單的過程。通常一個流行的看法就是技術能夠解決這個問題,但是再好的技術和算力,要是真的能打通的話,還是需要靠人的介入。
第三,直接與間接的問題。科技給經濟和社會帶來的影響可能有兩方面,一個是直接的,一個是間接的。科技一方面直接改變人的行為,另一方面通過人的行為變化產生的資料間接影響經濟的模型。它們之間是有連線的,他們的連線主要還在人。
第四,幾種不同的概念和資料的定義和分類問題。我覺得現在分類是個很大的問題,主要是概念的定義和分類,這不是一個容易的問題。首先,分類是物理的還是人為的?物理的意思是這個資料產生是由自然規律來決定的,人的因素很少或者沒有。自然科學基本上希望把人類的因素都去掉,但事實上又少不了人。不管是極為抽象的廣義相對論,還是其他理論,最後都是人研究出來的。上面講的分類需要有一個驗證的過程,現在許多情況很難驗證,也經常變化,從而導致人也在改變這個情況。人的一些看法、理解和定義都在變化,但是物理方面的東西卻比較容易達成共識,例如溫度、氣候,當然這些也不是完全能夠達成共識,物理的氣象地震還是沒有辦法完全準確的算出來。其次是不同領域和行業的分類,每個領域是從自身的某一個角度來看這個世界,如果你要他換另外一個角度來看世界,這個領域就不是原來的那個領域了,這裡面有交叉問題。
六、結束語
“這門新的工程學科將建立在上個世紀賦予了實質的思想之上,如資訊、演算法、資料、不確定性、計算、推理和優化。此外,由於新學科的大部分重點將放在來自人類和關於人類的資料上,因此,它的發展將需要社會科學和人文學科的觀點。” ——科技當然重要,但是目前的許多問題的瓶頸是社會和人文的,不是或不都是科技能解決的。
“無論我們是否很快就能理解“智慧”,我們都面臨著一項重大挑戰,那就是如何將計算機和人類結合起來,從而增強人類的生活。雖然各種構建塊已經就位,但是將它們組合在一起的原則還沒有到位,……我們早期的許多社會規模的推理和決策系統已經暴露出嚴重的概念缺陷” —— 我也這麼認為,目前需要嚴謹的科學意識和態度,努力和盡力解決那些“已經暴露出嚴重的概念缺陷”。
七、問答環節
Q1: “數字貨幣”和“貨幣數字化”這兩個概念您怎麼看?
A1: 我覺得主要還是看貨幣怎麼定義,如果經濟學家不能對貨幣的定義搞清楚,那麼數字這個東西就可以掛上去了。我理解的貨幣數字化就是電子支付、電子貨幣。整個關於貨幣的討論從電子的到後來虛擬的,再到加密的,現在又回到數字,最近有一個報告則又回到了電子。所以一些基本的概念如果不正確或者不清楚,我們可以整天就在這些名字裡面兜圈子。現在比較熱門大的數字化改革基本上就是業務模式的改變,這種業務模式改變是從人的行為產生的資料那裡改的,而不是直接從技術上產生的。我覺得經濟學家需要重新看這個世界,可能需要重新突出原來的一些模型,但是又不能完全重新推翻。管理層也要重新理解資料究竟是什麼,我很擔心他們一知半解,因為他們對資料有更深的理解才能立好法律。關於資料怎麼確權、什麼算隱私、什麼算自己的資料等等都還沒有搞清楚。現在整個資料的環境都變了,法律法規肯定是滯後的,但滯後的法律法規又要管理現在的環境,所以這裡面又有很多值得進一步討論的。我覺得國內監管方面的問題是監管的界限不清晰。雖然銀監會和保監會合並了,但是這個機構上的合併跟資料上的融合之間還是有距離的。
【免責宣告】
本文為內部交流紀要,未經主講嘉賓本人審閱,所載資訊均為個人觀點,不代表任何機構的意見,僅供“全球市場與中國連線”的活動參會人員使用。紀要根據參會者發言整理,不保證相關資訊的準確性和完整性。紀要中所述內容和意見僅供參考,不構成對所述資產的投資建議。
本文版權為“全球市場與中國連線”會議祕書處所有,本團隊對本紀要保留一切權利,未經事先書面許可,任何機構和個人不得以任何形式翻版、影印、發表或引用本紀要的任何部分。