回覆列表
  • 1 # 華為雲開發者聯盟

    本文分享自華為雲社群《

    GPT-4釋出,AIGC時代的多模態還能走多遠?系列之一: AIGC時代:未來已來-雲社群-華為雲

    人工智慧的快速發展使得我們進入了AIGC時代,即人工智慧與圖形計算相結合的時代。在這個時代,人們可以利用雲計算、大資料分析等技術來處理和呈現多模態資訊。例如,AI系統可以透過語音和影象識別技術對多媒體檔案進行分析,從而實現智慧的分類、檢索和推薦。此外,隨著5G和物聯網技術的不斷髮展,多模態資訊的處理和應用將會越來越普及。AIGC時代的到來,將會帶來巨大的機遇和挑戰。

    01 AIGC時代:萬物皆可AI生成

    AIGC是一種可以廣泛應用於文字、影象、音訊和影片生成的人工智慧技術。在文字生成方面,它可以運用多種演算法進行創作,例如Jasper、copy.Ai、ChatGPT、Bard和GTP4等。在影象生成領域,它可以使用技術如EditGAN、Deepfake、DALL-E和Stable Diffusion等,創造出各種令人驚歎的圖片。對於音訊生成,AIGC也擁有許多強大的工具,如DeepMusic、WaveNet、Deep Voice和MusicAutoBot等,可以生成高質量的音樂和聲音效果。最後,對於影片生成,AIGC同樣可以提供很多資源,比如Deepfake、VideoGPT、GliaCloud和ImageVideo等,能夠製作出專業級別的視覺效果和動畫。總之,AIGC在多個領域都有著廣泛的應用前景,並且將會繼續不斷地發展和完善。

    02 多模態大模型的分類與發展脈絡

    在單模態模型階段(2012年前),深度學習技術沒有普及,研究人員主要關注單一型別的資料處理,例如影象分類模型AlexNet等。

    緊接著進入單模態模型融合階段(2012-2018年),隨著深度學習技術的不斷髮展和應用場景的多樣化,研究人員開始嘗試將多個單模態模型進行融合,實現不同資料型別之間的交叉學習和融合,例如HT100M、LXMERT、VisualBERT、videoBERT等模型。

    目前已經處於多模態統一大模型階段(2018年至今),研究人員開始提出採用單個模型處理多個數據型別的方法,這類模型通常包含多種輸入和輸出方式,需要大量的計算資源和資料支援,已經取得良好的效果。例如UNITER模型,它是一個基於Transformer結構的多模態統一大模型,能夠同時處理文字、圖片和影片等資料型別。它在內部使用了跨模態交叉注意力機制來實現不同資料型別之間的互動,從而使得整個模型能夠更好地理解多種資料的語義資訊,並取得了領先的效能。

    03 文圖生成AIGC-變得精緻,可控

    近年來,隨著人工智慧技術的不斷髮展,文圖生成技術也得到了顯著的進步。今天的文圖生成模型不僅能夠生成逼真高畫質的影象,還能夠實現更精緻的效果,並具備可控性。 在實現更精緻的效果上,研究人員針對傳統GAN模型存在的缺陷,提出了許多改進方法,如Pix2PixHD、SPADE等。這些模型能夠增強模型輸出的細節表現力,生成更加真實、精細的影象。

    在提高模型的可控性上,研究人員引入了條件影象生成的思想。透過給定不同的條件資訊,包括語義標籤、風格向量等,可以使模型生成更多樣化、個性化的影象。

    例如,BigGAN、StyleGAN2等模型就能夠根據不同的條件生成各種風格迥異的影象。除此之外,研究人員還提出了interpolated GAN和controllable GAN等模型,使得使用者可以透過插值等方式來精細控制生成影象的各個細節。 總之,文圖生成技術在逼真高畫質的影象生成上取得了巨大的成功,在精細度和可控性方面也有了很大提高,這些技術的不斷進步將為我們帶來更加優秀、多樣化的文圖生成應用。

    然而, 文圖生成AIGC的出現使得畫風變得更加逼真高畫質,更有風格和意境。文圖生成是利用人工智慧技術根據輸入的文字生成影象。在文圖生成的研究中,逼真高畫質、融合多種風格和意境的影象生成是重要的研究方向。其中,高畫質作畫模型如Google Imagen,能夠實現高解析度、逼真的影象生成;而意境繪畫模型如StableDiffusion,則注重於將多種風格和意境進行融合,生成更加個性化、有深度的影象。這些模型的應用場景非常廣泛,如藝術創作、平面設計等領域。

    04 影片生成AIGC – 自然流暢、栩栩如生

    影片生成AIGC(Artificial Intelligence Generated Content)技術正越來越成熟,能夠使得生成的影片像真實一樣自然流暢、栩栩如生。 影片生成AIGC技術所用的演算法和模型也得到了不斷的最佳化和改進。新型的神經網路演算法、光學與物理學建模等技術被引入到影片生成AIGC中,使得生成的影片更加逼真。

    影片生成AIGC的研究重點在於如何捕捉到影片的場景、運動和情緒,以此生成自然流暢的影片。為此,研究人員將深度學習演算法應用於影片生成,使得機器可以從大量的影片資料中學習各種動作和情感,從而產生栩栩如生的影片。此外,生成的影片不僅要接近真實,還要做到自然流暢。

    研究人員還提出了許多技術手段,比如光流分析、雙向迴圈生成模型等,能夠在不同場景下實現平滑過渡,從而使得影片更加自然流暢。 影片生成AIGC技術的發展使得我們可以生成更加逼真、自然流暢的影片,應用場景非常廣泛,如影視製作、遊戲開發等領域。未來,影片生成AIGC將會進一步推進技術的發展和創新,給我們帶來更多的驚喜和新體驗。

    05 多模態AIGC大模型驅動的具身智慧

    多模態AIGC大模型驅動的具身智慧是一種人工智慧技術,它可以將感測器訊號和文字輸入結合起來,建立語言和感知的連結,從而操控機器人完成任務規劃和物品操作。谷歌推出的5620億引數PaLM-E就是其中的代表。

    這種技術的應用場景也很廣泛,如智慧家居、無人駕駛和工業自動化等領域。透過大模型驅動的具身智慧,機器人可以更加智慧地感知周圍環境,並根據文字輸入來規劃相應的行動,實現人機協同。 PaLM-E模型採用了先進的多模態AIGC技術,它可以結合影象、聲音、觸覺等多個感測器訊號來進行深度學習,並從中提取出關鍵特徵。同時,PaLM-E還能夠將文字輸入轉換為語義表示,與感知資訊相結合進行綜合判斷和決策。

    這種技術的發展使得機器人可以更加智慧地感知和理解周圍環境,進而實現精準的任務執行和物品操作。 PaLM-E進一步驗證了“智慧湧現”在多模感知和具身智慧上的效果。

    (以上影片來自論文《Google’s PaLM-E is a generalist robot brain that takes commands》)

    06 GPT-4 的釋出,標誌著 AIGC 邁入了多模態融合的新紀元

    GPT-4的模型取得了重大突破,它擁有強大的影象識別能力,處理長達 2.5 萬字的文字輸入,讓回答準確性大幅提升,以及能夠生成歌詞、富有創意的文字,可以實現風格的多樣化。GPT-4 作為一個強大的多模態模型,能夠接受影象和文字輸入,並輸出準確的文本回答。實驗證明,GPT-4 在各種專業測試和學術基準上的表現堪比人類水平。舉個例子,在模擬律師考試中,GPT-4 能夠取得前 10% 的成績,而 GPT-3.5 則稍顯遜色,只能排在倒數 10%。GPT-4 的新功能允許使用者指定視覺或語言任務,並以純文字設定並行處理文字和影象形式的 prompt。

    具體而言,當輸入包含文字和影象時,GPT-4 能生成相應的文字輸出,如自然語言、程式碼等。在許多領域,包括帶有文字和照片的文件、圖表或螢幕截圖等,GPT-4 都展現出了與純文字輸入類似的功能。此外,它還可以利用為純文字語言模型開發的測試時間技術進行增強,如少樣本和思維鏈 prompt。GPT-4是世界第一款強有力的AI系統,會掀起一場新的工業革命,帶來新的社會分工,創造新的應用場景,全面提升人類的智慧化水平。

    07 Is the AI GAME OVER?

    在Rich Sutton著名文章《苦澀的教訓》中,他提出了一個引人深思的觀點,即唯一導致AI進步的是更多的資料、更有效的計算。這一觀點得到了DeepMind研究主任Nando de Freitas的支援,他甚至宣稱AI現在完全取決於規模,AI領域更難的挑戰已經解決了,大模型已經(暫時)戰勝了精心設計的知識工程。

    這一觀點也得到了實際應用的證明,大量的資料和更強大的計算能力確實對AI技術的發展起著關鍵作用。 然而,我們也不能因此認為AI的發展已經結束了。如今,雖然大模型已經建立了基礎,但真正的挑戰仍然在於如何將其應用到實際場景中。例如,在自動駕駛領域,需要考慮不同的天氣條件、不同的交通狀況等複雜情況,這些都需要AI技術在實際應用中不斷實現迭代和最佳化。 此外,AI在推理、判斷和創造等方面仍面臨許多挑戰,實現真正的智慧仍然需要突破。因此,雖然大模型已經取得了重大進展,但AI的發展之路仍然任重而道遠。

    GPT-4釋出,AIGC時代的多模態還能走多遠?我將釋出四個系列,還會探討AIGC的阿克琉斯之踵, 多模態認知智慧和AIGC for MMKG,敬請期待!

    華為雲部落格_大資料部落格_AI部落格_雲計算部落格_開發者中心-華為雲

  • 2 # 聚象科技

    ChatGPT還有著侷限性

    面對ChatGPT在各個方面的出色表現,很多人開始擔心自己的職業發展。擁有如此強大能力的ChatGPT究竟能否替代搜尋引擎?許多職業將因此而消失嗎?我們不需要過度擔心,畢竟ChatGPT還有著不可忽視的三大侷限性。ChatGPT的未來發展仍有很長的路要走。一、內容準確性不高ChatGPT的內容準確性不夠高並且會非常固執地堅持錯誤的結果。這其實也是這一類大規模語言模型一直以來面臨的難題。在Instruct GPT的論文中,作者明確提到了這個模型會犯非常低階的錯誤,甚至是加減運算也有可能會出錯。比如,當你問它關於“松鼠桂魚”的做法時,它有時回答要用烤箱來烤,有時回答要用水煮,甚至會說材料需要用到松鼠。很顯然,“松鼠桂魚”這個專有名詞並不在它的學習範圍內。二、模型邊界的模糊一旦機器人的回覆超越了倫理或者道德邊界,結果就會變得非常不可控。雖然OpenAI有意避免讓ChatGPT在回覆中包含有違倫理、種族和道德要求的內容,但是使用者仍然可以輕易使用假裝的方式騙過AI。 三、內容更新不及時 這是因為訓練如此大規模的語言模型,不管在資金還是時間上,都是非常大的消耗,因此很難讓模型的訓練資料時時囊括最新資訊。例如,當問其對蘋果M2晶片的效能評價時,它明確的回覆是蘋果M2還沒有釋出。雖然ChatGPT會在不久的將來更新這些即時資訊,但顯示出訓練資料的更新速度遠遠慢於搜尋引擎。所以ChatGPT不一定是第四次工業革命的開始,可能第四次工業革命已經開始了。

  • 3 # 寧教授網路空間元宇宙

    AIGC(人工智慧、物聯網、大資料、雲計算)目前可以看作是第四次工業革命的重要組成部分,它在數字技術、物理技術和生物技術的推動下,正在全球範圍內快速發展。

    目前,AIGC 處於快速發展階段,不斷湧現出新的產品和技術,正在改變人們的生活方式、商業模式和社會結構。在工業4.0的背景下,AIGC 技術已經被廣泛應用於製造業、交通運輸、醫療保健、金融、農業等領域。

    ChatGPT 是一種基於人工智慧技術的自然語言處理系統,它可以進行自然對話,生成人類般的回答。雖然 ChatGPT 在 AIGC 技術中具有重要地位,但它並不能單獨代表第四次工業革命的開始。第四次工業革命是一個複雜的概念,它涉及到數字技術、物理技術和生物技術的綜合應用,而 ChatGPT 只是其中的一部分。

  • 4 # 華夏冉閔

    我認為chatGPT 與AIGC水平、人類社會的模型可以簡化為以下:

    算力與正確率(智力)呈 Power Law 關係:每堆 N 倍的機器/算力/模型大小,它的正確率會上升 x%。

    但是不幸的是,勞動力市場的需求的智力與數量並不成線性關係,它們也呈現了 Power Law 的比例:智力要求每高一個級別,市場的需求量就是原來的 1/x。

    例如,

    1.公務員一年蓋 一百個章,發表10次公文並不需要什麼智力,但是公務員隊伍只會繼續保持規模;

    2.但是初級程式設計師的需求就小了很多,尤其是細分領域很多測試崗和運維崗都消失了;

    3.需要最高智力的崗位,由於AIGC的輔助,比如最近沸沸揚揚的生物分子的科研, 數千個研究崗灰飛煙滅了。

    所以兩者相乘,可能會有一個很不幸的結果: 算力每增加 N 倍,勞動力市場上不可被替代的工作就會就成原來的 1/M。而堆機器的 scalability 似乎遠高於人類進化的 scalability。

    那麼基本的趨勢就是,99%的傳統人員失業正在揭開序幕,尤其是在中小企業。華為,BATJ等大公司能夠率先跨入AIGC的大規模應用當中去,大廠員工還能透過AIGC部門的能力繼續往前走,但是大量的中小企業由於被巨型企業壓縮了生存空間,可能的崗位會迅速萎縮。

  • 5 # 以手推松曰一句

    ❶AIGC是自動化智慧全球聯盟的簡稱,旨在探索在第四次工業革命中的智慧機器、物聯網、3D列印、自動化技術和人工智慧等新技術的應用,以及這些新技術最大限度地改善企業的競爭力和盈利能力。

    ❷ChatGPT是一款應用於聊天機器人的開源自然語言處理(NLP)工具。

    ❸根據當前的發展,AIGC正處於第四次工業革命的起點階段。ChatGPT技術有助於推動人工智慧發展,但它不能說是第四次工業革命的開始,而是作為支撐第四次工業革命發展的基礎技術之一。

    ❹第四次工業革命包括智慧機器、物聯網、3D列印、自動化技術、人工智慧等多項新技術,它改變了傳統制造業的生產環境,使之更加高效、智慧、可持續。

  • 6 # 一千萬年銀河

    第一個問題:AIGC(人工智慧全球化中心)是指人工智慧技術在全球範圍內的快速發展和廣泛應用,與第四次工業革命有著密切的關係。為了回答這個問題,我們需要回顧歷次工業革命的發展歷程,瞭解它們的特點和發展階段。

    第一次工業革命始於18世紀末,以機械生產為主要特徵,發明了蒸汽機和紡織機等機械裝置,極大地提高了生產效率和勞動力水平。

    第二次工業革命始於19世紀末至20世紀初,以電力和內燃機為主要特徵,發明了電話、電燈、汽車和飛機等新型產品和裝置,推動了生產方式和生活方式的深刻變革。

    第三次工業革命始於20世紀70年代至80年代,以計算機和資訊科技為主要特徵,發明了微處理器、網際網路、行動通訊等新型技術和產品,打開了資訊化時代的大門。

    第四次工業革命則始於21世紀初,以數字化、物聯網、人工智慧、機器學習、自動化等技術為主要特徵,推動了智慧化時代的到來。

    目前AIGC處於第四次工業革命的發展階段,以人工智慧技術為主要特徵,正在推動世界各行各業的智慧化和自動化發展,如智慧家居、自動駕駛、智慧醫療等等。儘管人工智慧技術仍存在一些挑戰和問題,例如隱私保護、倫理道德等問題,但它仍然是當前最具有前景和潛力的技術之一,將對未來的經濟、社會和文化產生深遠影響。

    第二個問題:chatGPT不是第四次工業革命的開始。

    ChatGPT是一種自然語言處理技術,它是由OpenAI開發的一種人工智慧技術,用於處理和生成自然語言文字。它屬於人工智慧領域中的一種語言模型,透過訓練資料來學習自然語言處理的能力,因此它可以用於各種自然語言任務,例如問答、對話、文字生成等等。

    第四次工業革命是指數字化、物聯網、人工智慧、機器學習、自動化等技術的快速發展和廣泛應用,正在改變著世界各行各業的發展方式和模式。雖然ChatGPT等人工智慧技術是第四次工業革命的重要組成部分,但它們並不等同於第四次工業革命的開始。

  • 7 # 愛自己的蠟人

    歷次工業革命的發展歷程可以大致分為四個階段:

    第一次工業革命:從18世紀末到19世紀中葉,以蒸汽機為代表的機械化生產開始興起。

    第二次工業革命:從19世紀末到20世紀初,以電力和內燃機為代表的大規模機械化生產開始興起。

    第三次工業革命:從20世紀70年代到21世紀初,以資訊科技和網際網路為代表的數字化和智慧化生產開始興起。

    第四次工業革命:從21世紀初到現在,以人工智慧、大資料、物聯網等為代表的智慧化和自動化技術開始興起。

    目前AIGC處於第四次工業革命的階段,這一階段的主要特徵是以人工智慧和智慧化技術為代表的新型生產方式的興起,這種生產方式使得生產效率和質量都有了顯著的提升,同時也帶來了新的產業和商業模式。

    ChatGPT是一種基於人工智慧和自然語言處理技術的智慧對話系統,可以視為第四次工業革命的一部分,但它並不能代表整個第四次工業革命的開始,因為第四次工業革命還包括許多其他的技術和應用領域。

  • 中秋節和大豐收的關聯?
  • 西漢異姓可以封王嗎?