首頁>科技>

​​​【摘要】農曆新年將至,聽說華為雲 AI 又將開啟智慧對對聯迎接牛氣沖天,讓我們拭目以待!作為資深 Copy 攻城獅,想要自己實現一個對對聯的模型,是不能可能完成的任務,因此我搜羅了不少前人的實踐案例,今天想和大家分享的是和鯨社群的 rua年糕 貢獻的專案-AI 對聯,基於 ModelArts 的 「我的筆記本」實現。

一、環境準備

準備環境前,先嘮叨幾句:ModelArts是面向開發者的一站式AI開發平臺,ModelArts 在人工智慧三要素中都有非常出色的表現,資料方面提供海量資料預處理及半自動化標註,演算法方面除了開發者自己開發還=提供大量的預置演算法和訂閱演算法可供選擇,算力方面目前開發環境提供免費算力以及即點即用的「我的筆記本」。目前個人比較中意的功能就是「我的筆記本」,如果您體驗過 MindSpore 教程的 「Run in ModelArts」,您會發現其實教程中連結的就是 ModelArts 的 「我的筆記本」模組,具體體驗可閱讀我的歷史文章5分鐘線上體驗MindSpore的圖層IR--MindIR。

相比常規的開發先要裝一堆的環境和軟體,基於 ModelArts 的 AI 開發似乎變得更簡單,理論上有能上網的裝置就夠了,比如 pad,然後僅僅需要註冊一個華為雲賬號並實名認證。當然,ModelArts準備工作並不僅僅是這些,比如如需用到 OBS 還需生成訪問金鑰並完成 ModelArts 全域性配置。具體操作請參考ModelArts-Lab:https://gitee.com/ModelArts/ModelArts-Lab。

Free的「我的筆記本」就在 ModelArts 總覽頁底部的開發工具卡片中,點選「立即體驗」即可開啟一個預設的 CPU 環境的 JupyterLab,我們可以在右邊的「切換規格」欄進行環境或者規格的切換。需要注意的是:切換資源後,將影響例項下所有Notebook與Terminal。Notebook中執行的所有變數將失效,Terminal需要重新開啟,手動安裝包不再生效,需要重新執行。 目前, CPU 和 GPU 環境支援 Conda-python3 、Pytorch-1.0.0、TensorFlow-1.13.1等8種Notebook環境,不過使用 GPU 需要注意:1、免費規格用於使用體驗,會在1小時後自動停止;2、免費算力不包含物件儲存服務(OBS)儲存資源費用。 如果想使用 MindSpore 框架,可以從 MindSpore 官方文件教程中的 「Run in ModelArts」進行跳轉到帶有 MindSpore 框架的 JupyterLab。

二、Seq2Seq 簡介

Seq2Seq是 Google 在 2017年開源的一款用於 TensorFlow 的通用編碼器&解碼器框架(encoder-decoder framework),可用於機器翻譯、文字摘要、會話建模、影象描述等。

論文地址: https://arxiv.org/abs/1703.03906

三、Copy 實踐

新建 TensorFlow1.13.1 環境的 notebook 檔案,開始程式碼編(kao)寫(bei)。

資料集下載

couplet-dataset儘管比較陳舊,但擁有 70 萬條資料,應該夠實現一個簡單的對對聯模型。

依賴安裝及引用資料處理模型定義

其他程式碼此處就不再貼了,建議直接參考原始碼出處,或者訪問https://github.com/hu-qi/modelarts-couplet。此處我選擇 200 個 Epoch,訓練過程如下圖:

從圖中明顯可以看出評估函式輸出的下聯不斷地在調整。當訓練完成之後我們便煉的了簡單能使用的丹--AI 對對聯模型,緊接著測試一下:

不錯不錯,還是挺工整通順的!

四、總結

此次實踐的資料集和notebook 已上傳到 github :https://github.com/hu-qi/modelarts-couplet, 另外對聯資料也共享到 ModelArts AI Gallery:couplet-dataset:70萬對聯資料集,歡迎取閱!

14
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 自動駕駛軌跡預測演算法:NeurIPS挑戰賽冠軍方案