回覆列表
  • 1 # 原來一分鐘

    透過專用的演算法。

    簡單來說,人臉或者是影象,在計算機看來都是一樣的畫素的組合而已。透過一套演算法,識別出某個畫素周圍的畫素種類,進行分類,判斷等等操作,最終輸出一個結果,這就是識別的大概流程。

    而具體每個演算法如何詳細操作,如何最佳化,這就是各家廠商的商業秘密了。

    感興趣的可以蒐集更多詳細資料和論文,這裡就不贅述了。

  • 2 # 醫療兵皮特兒

    用通俗的話總的來說,就是利用大資料抽取規律,再利用規律去預測(迴歸)、分類、聚類未知的輸入,得到輸出(結果)。

    單說圖片識別:

    這裡面的大資料就是已知的輸入(圖片)和已知的結果(圖片的標籤),抽取規律也就是相應的演算法(卷及神經網路),預測、分類、聚類就是得到圖片的結果(圖片識別)。

    可以分為以下幾步:

    第一步:資料的預處理。

    圖片是由一個一個的畫素組成的,就拿入門的案例說吧,MNIST資料集,是一個手寫數字的資料集,每一張圖片都是由28×28個畫素點形成的。

    就像這樣:

    總共有60000張這樣的圖片,而圖片的標籤(也就是結果)也是已知的(0~9),那麼設輸入為x輸出為y,

    計算機是無法讀懂圖片的,所以我們要將圖片轉換成計算機所能認識的東東。

    矩陣:

    x就是一個28×28的矩陣每一個點表示圖片中相應位置的灰度。有的神經網路為了更簡化的計算,將28×28 的矩陣,轉換為一個1×784的向量(一維矩陣)。這裡的x是28×28×1,這個1表示的是單通道,也就是隻有一種顏色。如果是彩色圖片的話,那麼就應該是28×28×3,這個3表示的是RGB三個顏色通道。

    y就是一個數字,0~9。

    有些演算法還會降x,y進行歸一化,也就是轉換為0~1之間的矩陣、數字。

    第二步:抽取特徵。

    卷積(特徵提取)的具體計算方法:

    其中input為輸入,filter叫做卷積核(暫且理解為濾波器),output叫做特徵圖,特徵圖的個數和filter的個數是相同的(filter W0、filter W1)。既然是矩陣,那麼可以設中間的引數是W,於是就有Wx+b = output。這裡的W是我們最終要訓練出來的。

    計算方法:

    w0與x藍色區域做內積(對應位置相乘後相加):

    f1第1層 = 0×1+ 0×1+ 0×1 + 0×-1+ 1×-1+ 1×0 + 0×-1+1×1+1×0 = 0

    f1第2層 = 0×-1+0×-1+0×1 +0×-1+0×1+1×0 +0×-1+2×1+2×0 = 2

    f1第3層 = 0×1+0×0+0×-1+ 0×0+2×0+2×0+ 0×1+0×-1+0×-1+ = 0

    那麼根據神經網路得分函式:f(x,w) = wx+b

    這裡的b =1

    那麼輸出的得分值就為f1+f2+f3+b = 0+2+0+1 =3

    最右邊綠色的矩陣第1行,第1列,就是3

    將卷積核在輸入矩陣滑動,

    同理可以計算

    這裡的輸出叫做特徵圖。

    這裡就可以看出,經過卷積核Filter(濾波器),將圖片濃縮了,濃縮之後,再進行一次非線性的處理,用一些非線性的函式將線性結果非線性化(叫做啟用函式),這層叫作卷積層。

    這裡只是一層,大型資料集(輸入很多的情況)一層是不夠的,需要很多層,輸入-卷積-輸出-卷積-輸出........。

    比如VGG-16,就有16個卷積層。

    進一步濃縮叫做池化層。

    同樣有一個filter,將特徵圖進行MAX(取最大值)或者MEAN(取均值),進一步濃縮特徵。

    濃縮完特徵之後,接著後面的層叫做全連線層。

    就是將權重引數W(矩陣),分別乘以池化完成的結果,得到最終的分類結果比如前邊所說的0~9的手寫字型,要分10個類別,如果池化完成的結果是1×64,那麼全連線層就應該是64×10,最終得到1×10的矩陣,就是分類0~9的結果。

    以上最重要的就是要求W,也就是最前邊說的,根據大資料找規律。

    第三步:引數更新

    那麼還有問題,W是多少誰知道?

    沒人知道,這裡是根據計算機一步一步的試出來的,

    先隨機的給出一組W,算出結果Y1,利用已知的x當做輸入,用已知的y與y1坐差值,那麼Y1-y就會有一個差值,就是預測值和真實值的差值。稱作損失函式,有些叫做代價函式。當代價函式最小的時候,預測值Y1和真實值y的差距越來越小,當差距在我們可以接受的範圍內,那麼就可以認為,由權重引數W生成的Y1可以對輸入x進行預測和分類。

    那麼如何讓損失函式最小呢?這裡並不是求導後求極值點,而是對損失函式求導數,調整W,使得差值沿著導數的方向前進,最終達到極小值點。

    這時候得到的W就是我們最終要的結果了。

    第四步:利用引數

    既然得到了W,我們就可以利用這個W,將一個未知結果的x輸入,從而得到透過W計算出的y,這個y就是圖片識別的結果。

    現在有很多的開源深度學習框架,是各大著名公司封裝好的函式(已經造好的輪子),

    以下是一個卷積神經網路識別MNIST的小例子(基於google深度學習框架TensorFlow):

    只是經過了21次的引數更新,最終的識別準確率在99%以上。

    輸出結果:

    Extracting MNIST_data/train-images-idx3-ubyte.gz

    Extracting MNIST_data/train-labels-idx1-ubyte.gz

    Extracting MNIST_data/t10k-images-idx3-ubyte.gz

    Extracting MNIST_data/t10k-labels-idx1-ubyte.gz

    第0次迭代,測試集準確率是0.7688

    第1次迭代,測試集準確率是0.7831

    第2次迭代,測試集準確率是0.8829

    第3次迭代,測試集準確率是0.8883

    第4次迭代,測試集準確率是0.889

    第5次迭代,測試集準確率是0.8919

    第6次迭代,測試集準確率是0.8908

    第7次迭代,測試集準確率是0.893

    第8次迭代,測試集準確率是0.894

    第9次迭代,測試集準確率是0.8949

    第10次迭代,測試集準確率是0.8927

    第11次迭代,測試集準確率是0.8935

    第12次迭代,測試集準確率是0.8948

    第13次迭代,測試集準確率是0.9873

    第14次迭代,測試集準確率是0.9881

    第15次迭代,測試集準確率是0.9864

    第16次迭代,測試集準確率是0.9885

    第17次迭代,測試集準確率是0.9906

    第18次迭代,測試集準確率是0.9876

    第19次迭代,測試集準確率是0.9884

    第20次迭代,測試集準確率是0.9902

  • 3 # 繁星落石

    透過CNN網路。

    目前進行人臉識別的主要方式還是卷積網路,雖然Hinton後來提出了膠囊網路,但是新的網路依然處於發展早期,還有很多需要完善的地方,相關的軟體配置以及工具包也並不成熟,距離普及會用還有一段時間。

    首先強調下人臉識別和圖片識別沒有本質上的區別,如果一定要說區別的話,人臉識別會透過捕捉面部特徵點來進行三角構建,特徵點是屬於基本不隨年齡發生變化的區域,這樣而已基本排除由化妝、裝扮以及年齡變化所帶來的面部識別失效影響,但是整容的話另說。

    至於CNN網路進行圖片識別,首先是透過數次卷積以後,提取到圖片的高維特徵,這些特徵在同類圖片中會必然性的出現,並且具有組合特性,之後利用全連線網路可以對高維特徵進行組合判別,不同的特徵會指向不同的類別,不同的特徵組合最終會給出不同的結論。

  • 4 # 百草莊

    影象識別是人工智慧的一個重要的研究課題,同時也是其他比如自動駕駛,圖片檢索,信用貸款,安防安檢等諸多應用的基礎。

    首先我們來看影象識別中的主要任務有哪些。面對一張圖片,我們可能發出的幾個基本問題:

    圖片中是否包含某種物體圖片中某種物體在什麼位置圖片中都有哪些物體圖片屬於什麼場景,或者描述了怎樣的場景

    以上種種都是在影象識別中可能的研究問題和方向,當然隨著科技的發展,更多複雜的、精細的影象識別方面的問題在誕生。

    接下來我們以影象識別的發展程序引入,探究AI技術是怎樣處理影象識別的問題,並逐步大放異彩的。

    在視覺領域做影象識別,物體識別的研究已經有幾十年歷史,但是直到幾年以前,有影響的影象識別產品並不多,一個是OCR,一個是指紋,一個是人臉檢測。

    影象識別剛開始的時候是從單一的物體識別做起,並且識別的主要是簡單規則的幾何形狀物體。

    對於這一類的影象識別,早期曾經採用過幾何的方法、結構的方法、規則的方法,也用了一些比較簡單的模式識別的方法。

    在80年代後期、90年代期間,機器學習有了一個飛速的發展,出現了一些了不起的研究成果,包括:支援向量機方法,AdaBoosting方法,計算學習理論等一些成果出現。這些成果使得機器學習和識別大大的往前走。人臉檢測是2001年的事,OCR和指紋是九十年代的事。從2001年、2002年開始有了更廣泛的影象識別研究,研究人員開始思考是否存在統一的方法框架進行影象識別,能否將機器學習領域的出色成果應用到影象識別上。

    著名華人女科學家李飛飛等提出使用“詞袋”(bag of words)方法用於影象識別。

    在識別影象的時候,我們可以把影象中的“高頻詞”放在一起來識別影象。這裡的“詞”是什麼?直觀地說就是小的影象塊。比如我們要識別一張人臉,這樣的影象上就會有像面板一樣,或者像眼睛一樣的影象塊。而相對來說,如果識別腳踏車,就會出現和車有關的影象塊,如:車座、車梁。這些影象塊就是“詞”。這樣就可以採用“詞袋”方法。實際上,影象中的詞不是我們說的這麼直觀,而是下方這樣的影象小塊。它是很底層的影象塊,非常小,3*3,5*5或者7*7大小的影象塊。這樣小的影象塊不表達很抽象的語義。

    這種方法提出後,有很多有意思的相關的論文發表。但是這種方法還有缺陷。在影象識別領域有一個ImageNet物體識別比賽,給你一些影象,讓你去設計和訓練你的演算法。比賽的時候就是提供一些新的影象,要求演算法告訴哪張圖片是什麼類別。如果預測前5個類別中有標準答案,就算預測正確。否則預測錯誤。這個比賽在2010年的第一名的成績是72%,到2011年第一名的成績是74%。我們知道,全世界那麼多優秀的團隊,有那麼好的資源去做這個事,每年的進步大概就是1%-2%的樣子。

    真正的突破是在2012年深度學習的引入。Hilton的團隊使用了深度學習進行ImageNet比賽,以大幅領先第二名的成績奪冠,其Top5錯誤率只要15.3%,使這一競賽有了質的飛躍,同時也促進了影象識別和深度學習的發展。

    從上面的發展程序中可以看到,AI或機器學習或深度學習技術主要是在進入21世紀之後在影象識別上取得了巨大進步。各類理論和演算法層出不窮,我們挑選部分里程碑式的工作進行說明。

    詞袋模型

    詞袋模型(Bag-of-Words)最初產生於自然語言處理領域,透過建模文件中單詞出現的頻率來對文件進行描述與表達。後來被引入計算機視覺領域, 由此開始大量的研究工作集中於詞包模型的研究,並逐漸形成了由下面四部分組成的標準目標分類框架:

    底層特徵提取

    底層特徵是物體分類與檢測框架中的第一步,底層特徵提取方式有兩種:一種是基於興趣點檢測,另一種是採用密集提取的方式。

    興趣點檢測演算法透過某種準則選擇具有明確定義的、區域性紋理特徵比較明顯的畫素點、邊緣、角點、區塊等,並且通常能夠獲得一定的幾何不變性,從而可以在較小的開銷下得到更有意義的表達,最常用的興趣點檢測運算元有 Harris 角點檢測子、FAST(Features from Accelerated Segment Test) 運算元、LoG (Laplacian of Gaussian)、DoG (Difference ofGaussian)等。密集提取從影象中按固定的步長、尺度提取出大量的區域性特徵描述,大量的區域性描述儘管具有更高的冗餘度,但資訊更加豐富,後面再使用詞袋模型進行有效表達後通常可以得到比興趣點檢測 更 好 的 性 能 。 常 用 的 局 部 特 徵 包 括 SIFT(Scale-invariant feature transform,尺度不變特徵轉換)、HOG(Histogram of Oriented Gradient, 方向梯度直方圖) 、LBP(Local Binary Pattern, 區域性二值模式) 等。

    這裡要說明一點是,近年來得到廣泛關注的深度學習理論中一個重要的觀點是手工設計的底層特徵描述子作為視覺資訊處理的第一步,往往會過早的丟失有用的資訊,直接從影象畫素學習到任務相關的特徵描述是比手工特徵更為有效的手段。

    特徵編碼

    底層特徵中可能包含了大量的冗餘與噪聲,為提高特徵表達的魯棒性,需要使用一種特徵變換演算法對底層特徵進行編碼,從而獲得更具區分性、更加魯棒的特徵表達,這一步對物體識別的效能具有至關重要的作用重要的特徵編碼演算法包括向量量化編碼、核詞典編碼、稀疏編碼、區域性線性約束編碼、顯著性編碼、Fisher 向量編碼、超向量編碼等。

    特徵匯聚

    空間特徵匯聚是特徵編碼後進行的特徵集整合操作,透過對編碼後的特徵,每一維都取其最大值或者平均值,得到一個緊緻的特徵向量作為影象的特徵表達。這一步得到的影象表達可以獲得一定的特徵不變性,同時也避免了使用特徵集進行影象表達的高額代價。最大值匯聚在絕大部分情況下的效能要優於平均值匯聚,也在物體分類中使用最為廣泛。由

    使用支援向量機等分類器進行分類

    從影象提取到特徵表達之後,一張影象可以使用一個固定維度的向量進行描述,接下來就是學習一個分類器對影象進行分類。這也是機器學習演算法用武之地。各類機器學習的分類器應用到其中,常用的分類器有支援向量機K 近鄰神經網路隨機森林等。基於最大化邊界的支援向量機是使用最為廣泛的分類器之一,在影象分類任務上效能很好,特別是使用了核方法的支援向量機。隨著物體分類研究的發展,使用的視覺單詞大小不斷增大,得到的影象表達維度也不斷增加,達到了幾十萬的量級。這樣高的資料維度,相比幾萬量級的資料樣本,都與傳統的模式分類問題有了很大的不同。隨著處理的資料規模不斷增大,基於線上學習的線性分類器成為首選,得到了廣泛的關注與應用。

    深度學習模型

    深度學習模型近年來在影象識別上也取得了良好效果,其基本思想是透過有監督或者無監督的方式學習層次化的特徵表達,來對物體進行從底層到高層的描述 。 主 流 的 深 度 學 習 模 型 包 括 自 動 編 碼 器(Auto-encoder)受限波爾茲曼機(Restricted Boltzmann Machine, RBM)深度信念網路(Deep Belief Nets, DBN)卷積神經網路(Convolutional Neural Netowrks, CNN)生物啟發式模型等。

    自動編碼器(Auto-encoder)是上世紀 80 年代提出的一種特殊的神經網路結構,並且在資料降維、特徵提取等方面得到廣泛應用。自動編碼器由編碼器和解碼器組成,編碼器將資料輸入變換到隱藏層表達,解碼器則負責從隱藏層恢復原始輸入。隱藏層單元數目通常少於資料輸入維度,起著類似“瓶頸”的作用,保持資料中最重要的資訊,從而實現資料降維與特徵編碼。自動編碼器是基於特徵重構的無監督特徵學習單元,加入不同的約束,可以 得 到 不 同 的 變 化 , 包 括 去 噪 自 動 編 碼 器(Denoising Autoencoders)稀疏自動編 碼器(Sparse Autoencoders)等,在數字手寫識別、影象分類等任務上取得了非常好的結果。

    受限玻爾茲曼機是一種無向二分圖模型,是一種典型的基於能量的模型(Enery-based Models,EBM)。之所以稱為“受限”,是指在可視層和隱藏層之間有連線,而在可視層內部和隱藏層內部不存在連線。受限玻爾茲曼機的這種特殊結構,使得它具有很好的條件獨立性,即給定隱藏層單元,可視層單元之間是獨立的,反之亦然。這個特性使得它可以實現同時對一層內的單元進行並行 Gibbs 取樣。受限玻爾茲曼機通常採用對比散度(Contrastive Divergence,CD)演算法進行模型學習。受限玻爾茲曼機作為一種無監督的單層特徵學習單元,類似於前面提到的特徵編碼演算法,事實上加了稀疏約束的受限玻爾茲曼機可以學到類似稀疏編碼那樣的Gabor 濾波器模式。

    深度信念網路(DBN)是一種層次化的無向圖模型。DBN 的基本單元是 RBM(Restricted Boltzmann Machine),首先先以原始輸入為可視層,訓練一個單層的RBM,然後固定第一層 RBM 權重,以 RBM 隱藏層單元的響應作為新的可視層,訓練下一層的 RBM,以此類推。透過這種貪婪式的無監督訓練,可以使整個 DBN 模型得到一個比較好的初始值,然後可以加入標籤資訊,透過產生式或者判別式方式,對整個網路進行有監督的精調,進一步改善網路效能。DBN 的多層結構,使得它能夠學習得到層次化的特徵表達,實現自動特徵抽象,而無監督預訓練過程則極大改善了深度神經網路在資料量不夠時嚴重的區域性極值問題。Hinton 等人透過這種方式,成功將其應用於手寫數字識別、語音識別、基於內容檢索等領域。

    卷積神經網路(CNN)最早出現在上世紀80 年代,最初應用於數字手寫識別,取得了一定的成功。然而,由於受硬體的約束,卷積神經網路的高強度計算消耗使得它很難應用到實際尺寸的目標識別任務上。卷積神經網路具有更為強大的特徵表達能力。

    大資料時代的來臨,更激發了資料驅動的深度學習模型的發展,實現了更高效的特徵提取與影象分類,將影象分類的發展推向一個新的高度。

  • 5 # AI深度學習求索

    人工智慧技術中,人臉識別和圖片識別,都是利用DCNN(深層卷積神經網路)提取圖片特徵,然後在圖片特徵上進行一定的操作。

    特徵提取

    這裡的特徵,可以理解成透過一定的計算公式將三維矩陣儲存的圖片轉換為一定緯度可以方便計算的矩陣(最簡單例子,一個向量),其實,可以看做資料降維啦,圖片那麼大的解析度,如果基於圖片計算,太耗費計算量和儲存量。

    特徵提取:圖片>網路>一個向量人臉識別:

    人臉識別是一對一比對或者一對多比對,假設,你需要對person A進行人臉識別,那麼前提,你的圖片資料庫裡有A的圖片,然後利用卷積神經網路,提取person A的圖片的特徵,將這個圖片的特徵和圖片資料庫中所有圖片提取的特徵進行比較,距離最相近的圖片判定為同一個人,那麼資料庫中最相近的那個人對應的屬性不就是我們想要得到的麼?

    人臉識別:提取圖片特徵;和資料庫中圖片特徵進行比較;距離最近的判定為同一個人;識別人的屬性圖片識別:

    最簡單的分類問題吧,首先,這個,你需要知道圖片識別出來存在多少種可能性,也就是圖片共有多少個類別; 然後,透過網路對圖片提取特徵,透過網路預測圖片屬於每一種類別的可能性(softmax瞭解一下),然後,定義可能性最大的那個類別為預測類別。

  • 6 # 影象演算法實踐

    我們知道,影象是由數字組成的,可以把影象想象成一個矩陣,最簡單的提取特徵的方法是求這個矩陣的特徵向量,相似的圖片擁有相似的特徵向量,假設利用二範數來做特徵向量的相似性度量的過程就是分類,簡單的說,特徵提取出來了,然後對特徵設定一個閾值(這個閾值可以是訓練出來的也可以是經驗值),在閾值範圍之內就是正樣本。

    隨著科技技術的不斷進步,硬體的不斷升級,特別是gpu對矩陣運算的提速,神經網路技術越來越多的運用到影象識別領域,現在我們講的ai技術、深度學習,大部分指的是神經網路,它是一種仿生物學的數學理論,有許多神經元在其中傳導,故名思義神經網路。網路是分多層次的(深層次的),來訓練影象,故又叫深度學習。

    神經網路作為一種影象識別方法如今被廣泛運用到各個領域。但它離不開模式識別的兩大步驟,特徵提取和分類。只不過其特徵是抽象的,神經網路的網路模型訓練出來的資料與網路模型相結合就是分類器。

    如果想要更多的理解影象識別還需要深入學習模式識別和機器學習相關內容,單憑這點手打內容遠遠不夠。

  • 7 # 商業偵查眼

    《復仇者聯盟: 終局之戰》美國未開映已盡破預售紀錄,單是全美預售金額估計達6億美元,而中國的開售票房,也已超過10億人民幣,果然是未出發先興奮。

    《復仇者聯盟: 終局之戰》最終全球的票房將高達60億美元,因此不少人以「十年」去形容漫威影業在《復仇者聯盟: 終局之戰》取得的成功。

    漫威真的是十年才磨出一劍?

    由2008年《鋼鐵俠》公映開始,連同上映的《復仇者聯盟: 終局之戰》,漫威合共出品了22部的漫威電影宇宙衍生片,不計《復仇者聯盟: 終局之戰》預售票房的金額,其餘21部電影在全球合共取得超過183億美元的票房。

    由此可見,《復仇者聯盟: 終局之戰》只是漫威過去10年磨出的其中一把劍,因為漫威已在過去10年多,磨出了合共22把令不少電影人「眼紅」的寶劍,同時每把寶劍平均價值超過8億美元。

    可是,令人唏噓的是2008年《鋼鐵俠》開啟MCU電影系列成功之門的背景,乃是美國雷曼兄弟倒閉、引發全球金融海嘯發生之年,當漫威為全球電影市場帶來新的局面,重新打造英雄電影之際,全球金融市場在金融海嘯後,又有沒有真正的英雄聯盟出現過?

    至少在聯儲局推出前所未有的量化寬鬆貨幣政策(QE)後,現在聯儲局似乎為如果從QE全身而退而感煩惱,同時全球企業的債務問題亦沒有因為金融海嘯而汲取教訓,反而全球75%的經濟體系正面對債務水平過高的問題,同時全球貧富懸殊越來越嚴重,所以當電影業有復仇者聯盟創造神話之時,全球經濟及金融體系其實也需要復仇者聯盟的助攻。

    漫威宇宙幕後大佬是迪士尼

    要講漫威概念股,第一隻不得不提的是迪斯尼,迪斯尼早於2009年收購漫威娛樂,不過因為當時漫威娛樂早已將旗下不少受歡迎角色的電影版權出售,例如將蜘蛛俠電影版權售予索尼、將X戰士、神奇四俠、死侍電影版權售予FOCUS等,所以漫威宇宙的角色遲遲未能聚首一堂。

    投資銀行高盛也看好迪士尼收購FOCUS和推出自家串流平臺後的發展,給予了迪斯尼「買入」的評價,目標價為142美元,現價約為135美元。特別是近年來迪斯尼大力開發中國市場,業績逐年上升。

    迪斯尼控股多家中國公司

    據企查查平臺顯示,華特迪士尼公司(紐約證券交易所上市名稱:DIS)華特迪士尼公司及其子公司和聯營機構, 是家庭娛樂和媒體業務的多元化國際企業之首,其五項主要業務包括媒體網路、主題樂園及度假區、影視娛樂、迪士尼消費品及迪士尼互動媒體集團。迪士尼公司是道瓊斯工業平均指數30個組成公司之一,上一財政年度總的收入達三百四十億美元。

    AI換臉黑寡婦變同福掌櫃“佟湘玉”,斯嘉麗卻難高興?

    就復仇者聯盟4在中國首先上映大獲成功的時候,調皮的網民玩起了AI換臉的遊戲。有人把主意打到了“黑寡婦”斯嘉麗約翰遜身上,而她的換臉角色竟是《同福客棧》裡的“掌櫃的”佟湘玉。

    整個人的氣質都洋氣了

    作為好萊塢收入最高的女演員之一,斯嘉麗·約翰遜顯然無法對中國網民的行為認同。因為她曾深受AI換臉的危害。早在2012年的時候,一名駭客洩露了包括斯嘉麗在內的諸多名人的裸照。雖然不法分子最終被判處10年徒刑、為後來者敲響了警鐘,但是近年來興起的人工智慧換臉術,又催生了一批近乎完美換臉的不雅影片。

    方便卻被濫用,AI換臉技術的黑暗面

    Google在2015年推出開源軟體庫「TensorFlow」,使得資源不僅免費更變得開放、易得,自此讓機器學習研究的門檻從實驗室帶進了大眾的膝上型電腦中。

    不過TensorFlow的威力現在Google也難易控制,在「FakeApp」出現後不僅是名人可能變不雅片主角,身邊好友、同學等一般民眾都將更容易受害。最初「deepfake(深偽)」製作影片所用到的工具,是基於TensorFlow 和Keras 等開源軟體,素材則是透過Google圖片搜尋、公開相簿取得,共同的特點就是公開開放且免費。

    「每個技術都可能被用來做壞事,這個我們攔不住,主要區別在於做這件事對每個人來說有多容易。」毋庸置疑,任何一項新技術的發明初衷都是為了改善人類的生活,

    它們絕大多數也確實做到了。其實這種「換臉」技術,其原型和相似技術幾年前就廣泛應用於影視行業之中了。《速度與激情7》中,由於主演保羅·沃剋意外去世,電影公司找來他的兩個弟弟擔任替身,在後期中使用CGI 技術替換掉了弟弟的臉,讓保羅成功「復活」,圓了無數冬粉一個夢。

    但是如果是你親戚朋友的臉被替換了呢?如果把犯罪現場所拍攝嫌疑人的臉換成你呢?如果在你不知情的情況下,不法分子發給你家人一段有你露臉的綁架影片呢?

    中國AI技術世界領先

    中國在AI領域正快速追趕美國,再過大約10年可能成為AI市場的領導者。美國目前在AI領域的投資不足。

    中國的目標是在2030年之前成為AI技術的領導者。中國最早可在2025年之前達成目標。在2020年之前中國會追上美國,2025年之前就會做得比美國好,2030年之前就主導整個AI產業。

    企查查資料平臺顯示華人工智慧企業超37000家

    中國在AI技術領域的論文佔比,從1997年4.26% 成長至2017年的27.68%,遙遙領先其他國家。而被高度引用的論文,代表了論文在該領域的代表性與重要性,中國也在2013年超越美國成為世界第一。

    中國、日本、美國三者佔全球總體專利公開數量的74%,其中中國又略微領先其他兩國。全球專利主要集中在語音識別、影象識別、機器人以及機器學習領域。

    截至2017年,中國AI技術人才數量達18,232人,佔世界總量8.9%,僅次於美國的13.9%。

    截至2018年6月,中國AI技術企業數量已達1,011家,位列世界第二。與第一名的美國2,028家有不小的差距。且中國AI技術企業高度集中在北京、上海與廣東,北京又以395家企業位列世界第一。主要的企業應用技術集中在語音、視覺與自然語言處理三方面。

    從2013年到2018年第一季,中國AI技術領域的投資與融資佔全球60%。但創投投資金流偏向大型企業,從投資的數量來看,中國仍是AI技術領域創投最活躍的國家。

    不過斯嘉麗儘可放心,因為中國目前已經禁止任何人以深度偽造技術替換影片中的人物面部,目的在避免侵犯肖像權、危害社會公益。

  • 中秋節和大豐收的關聯?
  • 英語學習有什麼規律?