回覆列表
  • 1 # 海水不鹹34

    依賴大資料和強算力,相當於採用窮舉法,就忽視了演算法的重要性。演算法是需要循序漸進的研究。如果方向錯了就可能浪費一輩子的時間。比如說有一根導線環繞地球一圈,某個地方有斷點。如何找到這個斷點?根據現在的條件,我們採用窮舉的方法,順序的去找也能找到。如果採用對分法,很快就能找到。

    現在所談論的神經網路,都是標準的相同的結構,他有一個特點就是相鄰層的連線,是悉數相連的。因此資訊與機構無關,只與粘接權重有關,在神經網路中,表現為連線點,遞質囊泡的多少。這種理論暗含著一個潛在的觀點,神經網路的結構是由基因遺傳的,而不是有後天資訊造成的。那麼神經元就沒有必要後天產生,實際上大部分神經元是在後天產生的,而且各不相同。神經幹細胞就是產生神經元的重要材料,並非是修補受傷的神經元。實驗證明老年人的大腦,也有新的神經元產生。這就是大方向,錯了造成的結果。

  • 2 # 機器之心Pro

    本文介紹了拓撲資料分析(TDA)的基本原理,給出了案例展示,並指出該方法可以高效地進行視覺化分析,有望為人工智慧黑箱提供可解釋性。

    機器學習和人工智慧都是「黑箱」技術——這是使用機器學習、人工智慧進行資料研究遭受的批評之一。雖然它們能自動提供有用的答案,但是卻不能給人類提供可解讀的輸出。因此,我們往往不能瞭解它們在做什麼,又是如何做到的。

    Ayasdi 對這個問題提出瞭解決方法,其中利用了該公司的核心技術——拓撲資料分析(TDA)。該方法能夠提供強有力的、具有詳細解釋的輸出。然而,在這篇文章中,我們將把工作擴充套件到目前 TDA 的「比較」方法之外。當前的方法使用的拓撲網路由資料集的資料點(行)構建。在這項新的工作中,Ayasdi 將特徵(列)也融合在網路當中,據此展示了一個改進的、易解釋的結果。

    首先介紹一下該解釋方法的工作原理。

    假設我們有一個數據集,並且在其中已經辨別出了一些子組。這些子組可能是資料的一個組成部分(例如,某種疾病有許多不同的形式,比如炎症性腸病,或該資料含有一個倖存者/非倖存者的資訊),或者說,這些子組是由行集合的某拓撲模型透過分割或熱點分析建立的。

    如果選擇其中的兩個子組,Ayasdi 技術允許研究者根據他們的 Kolmogorov-Smirnov 分數(KS 分數)生成特徵列表。每個特徵有兩個分佈——每個子組各有一個分佈。KS 分數衡量兩個子組之間的差異。與本結構相關的也就是標準統計意義上的 P 值。

    其解釋是,排列在第一位的變數是最能區分兩個子組的變數,而其餘的特徵是按其區分能力排列的。因此,解釋機制的輸出是一個有序的特徵表。通常,透過檢視列表能獲得有用的解釋,即,是何因素導致了不同子組之間的區別。

    然而,該列表解釋起來往往很複雜。就像 Google 搜尋後會得到一長串回覆一樣,人們很可能會發現列表頂部分佈不成比例,較低的響應又不為人們所關注。我們怎樣才能進一步提高這些「比較列表」的透明度和可理解性呢?

    重要的是,要記住,Ayasdi 構造的拓撲模型假定給出了一個數據矩陣,以及資料集行的差異性或距離函式。通常,該距離函式是歐幾里得距離,但是也可以選擇其他距離函式,例如相關距離、各種角度距離等。獲得資料矩陣 M 後,人們可以將它轉置為一個新的矩陣 M^T。其中,初始矩陣的列是轉置矩陣的行,反之亦然,如下圖所示。

    現在,假設我們有一個數據矩陣 M,以及在上述資料集中的一個子組 G。該子組可能透過先驗資訊得來,也可能透過在 M 矩陣中行的拓撲模型分割得來。對於矩陣 M 中的每一列 c_i(即轉置矩陣 M^T 的每一行),我們現在可以計算子組 G 中每一行的均值,即 c_i 的平均值。

    我們將把它記為 fi,G。當這個數字包含 i 時,我們在 M^T 的行集合上獲得一個函式。因此,再次重申,M 矩陣中的行的一個子組將在 M^T 的行集合上產生一個函式。Ayasdi 拓撲模型的功能之一是,透過對應於節點的行,能夠利用資料矩陣的行函式的平均值對拓撲模型的節點進行著色。這對於瞭解資料屬性而言是一個非常有用的方法。尤其地,我們現在可以利用 M^T 矩陣的行集合中子組 G 的著色情況,檢視該組的特徵。

    請看下例。

    荷蘭癌症研究所(NKI)構建了一個數據集,其中包括來自 272 名乳腺癌患者取樣的微陣列分析。本案例中的微陣列分析提供了為研究篩選的一組基因中每個基因的 mRNA 表達水平。從這些基因中,我們選擇了 1500 個表達水平最高的基因。我們得到一個 272 x 1500 的矩陣,其中 1500 列對應於資料集中具有最大方差的 1500 個基因,272 行對應於樣本總量。對於這個資料集,資料矩陣中行集合的拓撲分析已經在 [1] 和 [2] 中進行了。

    我們的拓撲模型展示如下。

    上圖表明,拓撲模型包括一個很長的「樹幹」部分,然後分裂成兩個「小枝」。在資料集中,存在一個名為 eventdeath 的二進位制變數。如果患者在研究期間存活,則 eventdeath = 0;如果患者死亡則 eventdeath = 1。令人感興趣的是,患者存活情況與圖的結構相對應。一種方法是透過變數 eventdeath 的平均值進行著色。其結果如下所示。

    我們可以看到,上面的「小枝」呈深藍色。這表明 eventdeath 變數值低,實際上其值為零——這意味著每個患者都存活了下來。然而,下面「小枝」的存活率差得多,尖端節點幾乎完全由無法存活的患者組成。我們希望理解這種現象,看看資料中的哪些特徵與「小枝」的產生有關,從而瞭解變數 eventdeath 的迥異行為。為此,我們可以從拓撲模型中選擇多種不同的子組。

    在上圖中,A 組為高生存率組,B 組為低生存率組,C 組可以表徵為與其他兩組差異最大的組(根據組間距離進行確定)。如上所述,基於這三個組,我們可以在 1500 個特徵上建立 3 個函式。

    如果我們建立一組特徵的拓撲模型,我們可以用每個函式的平均值來給它著色。下面的三張圖片展示了其結果。

    在比較 A 組和 B 組著色情況時,我們發現其差異十分顯著。A 組著色後,某個區域呈亮紅色,而 B 組著色後相應區域呈亮藍色。結果可見下圖。左側的模型是 A 組著色,右側模型是 B 組著色。

    組 I 和組 II 的顏色明顯不同。組 I 在 A 組中主要為紅色,而在 B 組中主要為藍色(小固相區域除外)。組 II 恰好相反,在 A 組中為藍色,在 B 組中為紅色。這些組可能與高雌激素受體表達有關,其中在組 I 中呈正相關,在組 II 中呈負相關。眾所周知,雌激素受體表達是乳腺癌存活與否的「強訊號」。如果我們比較所有三組(如下圖):

    我們也可以看到,C 組似乎是 B 組的一個「較弱」形式,其中右上角的藍色區域面積較小,下面區域的紅色較弱。在左側的「島」上,C 組也顯示出比 A 、B 組更強的紅色著色。理解哪些基因參與了 A、B、C 三組右上角的強紅色塊將是非常有意思的。此外,研究哪些基因參與了左側「島」的表達也很有趣。瞭解這些基因組需要使用各種基於網路的生物學通路分析的工具。

    總而言之,我們已經展示瞭如何對資料集中的特徵空間使用拓撲建模,而不是利用行集合直接從資料集尋找洞察。具有超過 4 個特徵的資料集不能直接使用標準圖形技術直觀地理解,但是具有成百上千個特徵的資料集透過這種方式理解起來卻很容易。該方法能直接識別行為一致的特徵組,這通常在基因組和更普遍的生物學資料的分析中存在。

    參考文獻

    [1] M. Nicolau, A. Levine, and G. Carlsson, Topology based data analysis identifies a subgroup of breast cancers with a unique mutational profile and excellent survival, Proc. Natl. Acad. Sci., vol. 108, no. 17, 7265-7270, (2011).

    [2] P. Lum, G. Singh, A. Lehman, T. Ishkhanov, M. Vejdemo-Johansson, M. Alagappan, and G. Carlsson, Extracting insights from the shape of complex data using topology, Scientific Reports 3, Article number 1236, (2013).

  • 3 # study875cnBeta

    一支由多國研究人員組成的科研團隊近期開始向人工智慧傳授自我判斷的能力,並指出做出這個決定的依據和理由。“黑盒”正變得透明,這對於人工智慧領域來說無疑是重大事件。

    在人工智慧領域搞清楚神經網路為何做出這些決定是眾多科研專家攻克的方向,黑盒問題本質上就是我們真的信任人工智慧系統。該團隊來自伯克利大學、阿姆斯特丹大學、MPI for Informatics以及Facebook的人工智慧研究部門,他們的研究建立在此前的工作基礎上,只不過這次他們向人工智慧傳授了新的技巧。

    所謂“黑盒子”,是指從使用者的觀點來看一個器件或產品時,並不關心其內部構造和原理,而只關心它的功能及如何使用這些功能。但從研究者的角度講,搞清楚內部構造和原理是必須的。

    同人類相同,他能夠“指出”回答某個問題所需要的依據,並透過文字描述的方式來闡述是如何理解這個依據的。團隊所提出的問題基本上是人類9歲的智力水平能夠回答的問題。

    根據團隊近期公佈的白皮書,這是首次人造系統能夠以兩種不同方式來進行自我解釋。在論文中寫道:“我們的模型首次具備提供決定的自然語言判斷以及在圖片中指出依據的能力。”

    科研專家開發的人工智慧能夠回答關於影象的某些常規問題,在給定的情境中能夠回答關於影象主體和動作的相關問題。並且該人工智慧能夠透過描述所看到的內容並且高亮圖片中的某些部分來給出依據回答。

  • 4 # AI踐行者

    目前AI更多的是依賴資料加上計算能力,然後透過演算法去提升效率,效果。從正常邏輯上看不出因果關係,故可能產生黑箱的感覺。應該從相關性上的邏輯去解釋,會解決黑箱的感覺。

    目前應該大部分從視覺化角度,去分析檢視AI的邏輯過程,演算法的執行過程,以期能歸納出可解釋的邏輯,讓人更容易理解。

  • 5 # 漢文悍武

    對事物的可解釋性是人類的慣常訴求。演算法是機密,不能公開給社會。人們甚至發現機器神經網路和大腦一樣也會出錯,卻無法解釋出錯的原因。演算法中的隱層作為一種普遍現象,它既然和人工智慧技術共存,那只是說明人工智慧技術不是那麼完美。

    中國古代有四大美女,這四大美女也都有瑕疵:昭君遠嫁異族,西施因為身體有病,所以搞出東施效顰的故事;楊玉環身材偏矮胖,但那是唐人審美觀的摯愛。

    人工智慧是新生事物,演算法也是新生事物,大家還不熟悉它的運作規則,不瞭解其中的全部原理和環節,這是可以理解的。對待它需要一點耐心,因為這只是時間和過程的問題。

    只要它現在不影響人工智慧正常發揮作用,相信科學家以後會有辦法揭秘這個黑箱,並把它透明化的。到那一天,我們會實現“技術的民主”。

  • 中秋節和大豐收的關聯?
  • 磷酸二氫鉀給花卉施肥濃度如何把握?