如果不是的話,為什麼要讀那麼多前沿論文?
前段時間NLP領域的BERT,我拿來在業務資料集上fine-tune之後,效果特別好。
二分類準確率從之前模型的0.92提高到0.9997,
十分類從之前的0.8x提高到0.97,
此外paraphrase detection任務單模型precision也提高到了0.95,且泛化能力極好,換了一個子領域的資料上去居然不需要繼續fine-tune,隨機測了十幾個用例只錯一個。
但真正上生產環境的時候碰到了一些問題,一是模型儲存開銷極大,一個BERT分類器模型400多M,我們知識樹的節點那麼多,假設只有十個分類器,這部分開銷也很大了。
而且用CPU做inference的話會很慢,但是要改GPU的話每年機器這一塊的成本就會增加很多。
所以最前沿的模型能不能真正用起來,會有很多trade-off在裡面
人工智慧在工業界用到的模型不是最前沿的,之所以讀那麼多前沿論文,是告訴你這行業發展很快,在落後的技術上發展,你可能永遠也趕不上最前沿的水平。
前段時間NLP領域的BERT,我拿來在業務資料集上fine-tune之後,效果特別好。
二分類準確率從之前模型的0.92提高到0.9997,
十分類從之前的0.8x提高到0.97,
此外paraphrase detection任務單模型precision也提高到了0.95,且泛化能力極好,換了一個子領域的資料上去居然不需要繼續fine-tune,隨機測了十幾個用例只錯一個。
但真正上生產環境的時候碰到了一些問題,一是模型儲存開銷極大,一個BERT分類器模型400多M,我們知識樹的節點那麼多,假設只有十個分類器,這部分開銷也很大了。
而且用CPU做inference的話會很慢,但是要改GPU的話每年機器這一塊的成本就會增加很多。
所以最前沿的模型能不能真正用起來,會有很多trade-off在裡面