這個紀錄的意義非常深遠,也就是說,未來人們想要查詢資料,說句話就行了。
非常期待後續的商業化,估計這個走下去會革了資料分析師的命,哈哈開玩笑了~~
以下為原文摘錄,有相關方案和演算法的內容說明,可以參考
NL2SQL最佳方法揭秘
NL2SQL,也就是把自然語言“翻譯”成機器能理解的SQL語句,在人機互動中有巨大的價值,這樣的成績意味著,92.19%的情況下,你說的話都能被機器準確的理解,並給到你想要的答案。
那麼,既然機器能理解人話,那從紛繁複雜的資料庫中找到資料也是更為容易的事情了。
肖仰華教授說,現在阻礙大資料價值變現的最大難題就是訪問資料門檻太高,依賴資料庫管理員寫複雜的SQL,而且考慮到中文的表述更加多樣,中文NL2SQL要比英文難很多。
針對中文NL2SQL的問題,冠軍團隊的張嘯宇在比賽答辯中揭秘了實現的方法:
v2_1571027832747_img_000.jpg
WikiSQL排行榜上的第一名、來自微軟Dynamics 365團隊的X-SQL有一些問題,模型框架不完全適配,在value抽取上colume特徵不顯著,容易抽取混亂。
針對這些問題,冠軍團隊提出了M-SQL,將原本X-SQL的6個子任務改為8個子任務,並且增加三個子模型,S-num、Value抽取、Value匹配,一次性將query中含有的所有Value抽取出來。
之後進行了一些細節提升,比如在資料預處理方面,將資料、年份、單位、日期、同義詞進行修正,統一query的正規化;在query資訊表達方面,用XLS標記提到CLS標記,這樣線上下驗證集上準確率提高了0.3個百分點。
用到的預訓練模型,則是哈工大發布的BERT-wwm-ext模型。
最終的成果,張嘯宇覺得非常滿意:“我覺得機器轉的比我好,大言不慚的說,已經超過了人類的水平。”
這個紀錄的意義非常深遠,也就是說,未來人們想要查詢資料,說句話就行了。
非常期待後續的商業化,估計這個走下去會革了資料分析師的命,哈哈開玩笑了~~
以下為原文摘錄,有相關方案和演算法的內容說明,可以參考
NL2SQL最佳方法揭秘
NL2SQL,也就是把自然語言“翻譯”成機器能理解的SQL語句,在人機互動中有巨大的價值,這樣的成績意味著,92.19%的情況下,你說的話都能被機器準確的理解,並給到你想要的答案。
那麼,既然機器能理解人話,那從紛繁複雜的資料庫中找到資料也是更為容易的事情了。
肖仰華教授說,現在阻礙大資料價值變現的最大難題就是訪問資料門檻太高,依賴資料庫管理員寫複雜的SQL,而且考慮到中文的表述更加多樣,中文NL2SQL要比英文難很多。
針對中文NL2SQL的問題,冠軍團隊的張嘯宇在比賽答辯中揭秘了實現的方法:
v2_1571027832747_img_000.jpg
WikiSQL排行榜上的第一名、來自微軟Dynamics 365團隊的X-SQL有一些問題,模型框架不完全適配,在value抽取上colume特徵不顯著,容易抽取混亂。
針對這些問題,冠軍團隊提出了M-SQL,將原本X-SQL的6個子任務改為8個子任務,並且增加三個子模型,S-num、Value抽取、Value匹配,一次性將query中含有的所有Value抽取出來。
之後進行了一些細節提升,比如在資料預處理方面,將資料、年份、單位、日期、同義詞進行修正,統一query的正規化;在query資訊表達方面,用XLS標記提到CLS標記,這樣線上下驗證集上準確率提高了0.3個百分點。
用到的預訓練模型,則是哈工大發布的BERT-wwm-ext模型。
最終的成果,張嘯宇覺得非常滿意:“我覺得機器轉的比我好,大言不慚的說,已經超過了人類的水平。”