首頁>技術>

對於新手來說,大資料分析的離線環境的配置和安裝還是有一些難度的,網上有一些部落格寫了,但是也比較簡潔,沒有一個完整的環境的搭建過程,因此寫下來分享給大家使用。

前置工作:

首先需要現在一臺可以聯網的伺服器上面安裝anaconda3,pyspark包等。

step1 :安裝anaconda3,下載anaconda3的安裝包,執行以下命令:

bash Anaconda3-5.3.1-Linux-x86_64.sh

設定安裝路徑為 /usr/local/anaconda3/

* 完成之後獲取安裝列表r1.txt: pip freeze>r1.txt

step2 :bash_profile中新增路徑'

vi ~/.bash_profile

PATH=/usr/local/anaconda3/bin:$PATH

export PATH

step3 使配置生效

. ~/.bash_profile

以上是安裝和配置anaconda3,anaconda3是python大資料分析和演算法的一個全家桶。這裡不做詳細介紹,感興趣的可以百度一下。

step4 安裝pyspark

/usr/local/anaconda3/pip install pyspark

*完成之後重新獲取安裝列表r2.txt: pip freeze>r2.txt

step5 下載pyspark離線安裝包:

1 比較r1.txt和r2.txt 安裝包的差異 diff r1.txt r2.txt,生成r3

2 下載pyspark的離線安裝包和 依賴包。

執行:pip download -r r3.txt,把下載好的安裝包打包site.tar。

執行完以上步驟之後,我們就可以進行離線伺服器安裝了。

安裝anaconda3的步驟跟上面的一模一樣。

離線安裝pyspark跟線上安裝pysaprk有一些差別:離線安裝的話就不能使用pip install+包名 直接安裝了,需要先在現在環境下下載好離線安裝包(打包成site.tar ),把安裝包上傳到離線環境的伺服器,再去離線安裝執行以下命令:

/usr/local/anaconda3/bin/pip install --no-index --find-links=./site -r ./site/r3.txt

執行完這些操作之後,python的大資料分析開發環境就安裝完畢了。這裡面的核心是如何使用pip download 生成離線安裝包,以及使用pip install 如何離線安裝需要用的開發包。各位同學學會了嗎?

6
最新評論
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • 如何避免java專案中的迴圈依賴問題