對於新手來說,大資料分析的離線環境的配置和安裝還是有一些難度的,網上有一些部落格寫了,但是也比較簡潔,沒有一個完整的環境的搭建過程,因此寫下來分享給大家使用。
前置工作:
首先需要現在一臺可以聯網的伺服器上面安裝anaconda3,pyspark包等。
step1 :安裝anaconda3,下載anaconda3的安裝包,執行以下命令:
bash Anaconda3-5.3.1-Linux-x86_64.sh
設定安裝路徑為 /usr/local/anaconda3/
* 完成之後獲取安裝列表r1.txt: pip freeze>r1.txt
step2 :bash_profile中新增路徑'
vi ~/.bash_profile
PATH=/usr/local/anaconda3/bin:$PATH
export PATH
step3 使配置生效
. ~/.bash_profile
以上是安裝和配置anaconda3,anaconda3是python大資料分析和演算法的一個全家桶。這裡不做詳細介紹,感興趣的可以百度一下。
step4 安裝pyspark
/usr/local/anaconda3/pip install pyspark
*完成之後重新獲取安裝列表r2.txt: pip freeze>r2.txt
step5 下載pyspark離線安裝包:
1 比較r1.txt和r2.txt 安裝包的差異 diff r1.txt r2.txt,生成r3
2 下載pyspark的離線安裝包和 依賴包。
執行:pip download -r r3.txt,把下載好的安裝包打包site.tar。
執行完以上步驟之後,我們就可以進行離線伺服器安裝了。
安裝anaconda3的步驟跟上面的一模一樣。
離線安裝pyspark跟線上安裝pysaprk有一些差別:離線安裝的話就不能使用pip install+包名 直接安裝了,需要先在現在環境下下載好離線安裝包(打包成site.tar ),把安裝包上傳到離線環境的伺服器,再去離線安裝執行以下命令:
/usr/local/anaconda3/bin/pip install --no-index --find-links=./site -r ./site/r3.txt
執行完這些操作之後,python的大資料分析開發環境就安裝完畢了。這裡面的核心是如何使用pip download 生成離線安裝包,以及使用pip install 如何離線安裝需要用的開發包。各位同學學會了嗎?