SPL 中呼叫 Python 程式

首頁>技術>raqsoft2020-12-25 16:41

SPL 中呼叫 Python 程式

【摘要】 集算器 SPL 集成了對 python 程式的呼叫，也提供對建模演算法介面支援。具體開發要求、使用詳細情況，請前往乾學院：SPL 中呼叫 Python 程式!

集算器是強大的資料計算引擎，但目前對於機器學習演算法的提供還不夠豐富。而 python 中有許多此類演算法。藉助 YM 外部庫，就可以讓集算器 SPL 呼叫 python 寫的程式碼，從而彌補這一不足。

下面具體說明：

1．SPL 與 python 環境配置2．python 模組開發規範要求3．ym_exec 介面呼叫4．建模演算法模組使用

SPL、python、介面關係示意圖：

SPL 中呼叫 ym_exec 介面，將引數傳遞給 python 下的 apply() 介面，apply 呼叫 python 程式處理後返回結果給 SPL。

1． SPL 與 python 環境配置

為了 SPL 與 python 之間能通訊，實現相互訪問，需要進行有關的設定。下面以在 win10 下，python3.7+SPL 為例來說明如何設定的。

C、配置檔案：在外部庫目錄 esProc\extlib\Yimming\userconfig.xml 檔案中設定引數，引數如下：

D、服務端程式應用程式指提供的 python 服務端程式：

以上配置完成之後，重啟集算器後就可以使用 ym_exec() 介面。

2． python 模組開發規範要求

A、def apply(ls) 介面，python 程式的對外介面，實現與 SPL 互動處理。B、引數 ls 為 list 資料型別，它類似於 java 中的入口函式 void main(string argv[]) 中的 argv 引數。C、返回值，返回 dataframe 結構資料存放在 list 型別的變數中, 可在 SPL 中顯示。D、樣例說明：demo.pyimport pandas as pdimport sysdef apply(lists): cols = [“value”] ls = [] for x in lists: ls.append(“{}”.format(x)) df = pd.DataFrame(ls, columns=cols) lls=[] lls.append(df) return llsif __name__ == “__main__”: res = apply(sys.argv[1:]) print(‘res={}’.format(res))執行：python demo.py “AAA” “BBB” 1000輸出：res=[ value 0 AA 1 BBB 2 1000]本程式 apply()介面，實現將傳遞的引數加入到變數列表 ls 中，然後 ls 放入 dataframe 結構裡，dataframe 再放入要返回的變數列表 lls 裡。開發中，先在 python 下測試 apply() 介面正常後，就可以在 SPL 中呼叫了。

需要注意的是，由於 dataframe 是透過 msgpack 編碼後返回的資料，因此要求 dataframe 中同一列的資料型別一致，否則 msgpack 編碼時出錯，SPL 中收不到 dataframe 資料.

3．ym_exec 介面呼叫格式： ym_exec(pyfile, p1,p2,…)。呼叫 pyfile 檔案並執行它，後面跟傳入的引數 p1,p2 等。引數個數不定, 只要與介面 apply() 對應。

具體用法如 demo.py：

執行結果：

4. 建模演算法模組使用

下面再演示一下如何在集算器呼叫 python 實現偏最小二乘演算法（PLS，目前集算器本身未提供）。在執行它之前，需要安裝易明外部庫，配置設定參考《SPL 實現自動建模和預測》。

由於 PLS 演算法的引數較為複雜，我們將呼叫格式約定為：ym_exec(pyfile, data, jsonstr)

SPL 中呼叫 pyfile 檔案並執行它，data 為需要建模的資料（序表），將 PLS 演算法眾多引數寫成 json 串。同樣地，需要與 pyfile 中 apply() 處理對應起來，才能正確解析各引數值。

data： data 為預表或帶標頭檔案的資料檔名。資料中包括目標變數 target 所在的列。jsonstr: json 字串，例如： {target:0,n_components:3,deflation_mode:‘regression’, mode:‘A’,norm_y_weights:False, scale:False,algorithm:‘nipals’, max_iter:500,tol:0.000001,copy:True}其中 target 指定目標變數所在的列，不可缺少。

SPL 指令碼 pls_demo.dfx：

首行為 target 的資料 data_test.csv：

pls_demo.py 檔案，針對 python 模組演算法使用參考

from scipy.linalg import pinv2import numpy as npimport pandas as pdimport demjson #演算法類 pls_demo：class pls_demo(): … … . Pass # 介面實現def apply(lists): if len(lists)<2: return None data = lists[0] # 資料引數 val = lists[1] #jsonstr 串引數 if (type(data).__name__ ==“str”): data = pd.read_csv(data) # 1. 對 json 字串中特定值處理 #print(val) val = val.lower().replace(“false”, “‘False’”) val = val.replace(“true”, “‘True’”) val = val.replace(“none”, “‘None’”) dic = demjson.decode(val) if dic.__contains__(‘target’) ==False: print(“param target is not set”) return # 2. 對 target 引數的處理，它可能為列數，也可能為名稱 targ = dic[‘target’] if type(targ).__name__ == “int”: col = data.columns colname = col.tolist()[targ] else: colname = targ Y = data[colname] X = data.drop(colname, axis=1) # 3. 模型引數處理，沒有傳遞的引數需要設定預設值. if dic.__contains__(‘n_components’) :n_components=dic[‘n_components’] else: n_components=15 if dic.__contains__(‘deflation_mode’) :deflation_mode=dic[‘deflation_mode’] else: deflation_mode=“regression” if dic.__contains__(‘mode’):mode=dic[‘mode’] else: mode=“A” ……. # 4. 模型演算法載入 #print(“n_components={}”.format(n_components)) pls_model = pls_demo(n_components, deflation_mode, mode,…) # 訓練資料 pls_model.fit(X, Y) # 預測 y_pred = pls_model.predict(X) # 5. 填充返回值 f = [“value”] df = pd.DataFrame(y_pred, columns=f) #print(y_pred) lls=[] lls.append(df) return lls

#6. 測試if __name__ == ‘__main__’: ls = [] ls.append(“a2ef764c53ec1fbc_X.new.csv”) val = “{target:0,n_components:3,deflation_mode:‘regression’,” \ “mode:‘a’,norm_y_weights:False,” \ “scale:False,algorithm:‘nipals’,” \ “max_iter:500,tol:0.000001,copy:True}” ls.append(val) apply(ls)

開發過程中，先在 python 下透過 main 函式測試 apply() 介面正常後，就可以在 SPL 中呼叫了。

最新評論

劇多

SPL 中呼叫 Python 程式

相關內容