export SPARK_PATH=(path found above by running brew info apache-spark)export PYSPARK_DRIVER_PYTHON="jupyter"export PYSPARK_DRIVER_PYTHON_OPTS="notebook"#For python 3, You have to add the line below or you will get an error#export PYSPARK_PYTHON=python3alias snotebook="$SPARK_PATH/bin/pyspark --master local[2]"
# useful to have this code snippet to avoid getting an error in case forgeting# to close spark try: spark.stop()except: pass # Using findspark to find automatically the spark folderimport findsparkfindspark.init() # import python librariesimport random # initializefrom pyspark.sql import SparkSessionspark = SparkSession.builder.master("local[*]").getOrCreate()num_samples = 100000000 def inside(p): x, y = random.random(), random.random() return x*x + y*y < 1 count = spark.sparkContext.parallelize(range(0, num_samples)).filter(inside).count()pi = 4 * count / num_samplesprint(pi)
在mac系統安裝pyspark教程
介紹Apache Spark是資料處理框架中最熱門,規模最大的開源專案之一,它具有豐富的高階API,可用於Scala,Python,Java和R等程式語言。
Spark提供了一個很棒的Python API,稱為PySpark。這使Python程式設計師可以與Spark框架進行互動-允許您大規模處理資料並使用分散式檔案系統上的物件。
在Mac上安裝Spark(本地)第一步:安裝Brew
如果已經安裝過了brew,可以跳過此步驟 :
1. 在Mac上開啟終端(terminal)
2. 輸入下面的命令。
$ /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"3.點選回車繼續,或按任何其他鍵放棄。
第二步:安裝Anaconda
在同一終端中,只需輸入:
$ brew cask install anaconda第三步:安裝PySpark
1. 終端型別
$ brew install apache-spark2. 如果看到以下錯誤訊息,
請執行
$ brew cask install caskroom/versions/java8來安裝Java8,如果已安裝,則不會看到此錯誤。
3.在終端上輸入,檢查pyspark是否正確安裝。
$ pyspark如果您看到以下內容,則表明它已正確安裝:
使用PySpark準備開啟Jupyter筆記本本節假定PySpark已正確安裝,並且在終端上鍵入時沒有出現錯誤
$ pyspark在這一步,我將介紹您必須執行的步驟,以建立使用SparkContext自動初始化的Jupyter Notebook。為了為您的終端會話建立全域性配置檔案,您將需要建立或修改.bash_profile或.bashrc檔案。在這裡,我將使用.bash_profile作為示例
1. 檢查您的系統中是否有.bash_profile $ ls -a,如果沒有,請使用建立一個
$ touch ~/.bash_profile2. 透過執行查詢Spark路徑
$ brew info apache-spark3.如果您已經有一個.bash_profile,請執行
export SPARK_PATH=(path found above by running brew info apache-spark)export PYSPARK_DRIVER_PYTHON="jupyter"export PYSPARK_DRIVER_PYTHON_OPTS="notebook"#For python 3, You have to add the line below or you will get an error#export PYSPARK_PYTHON=python3alias snotebook="$SPARK_PATH/bin/pyspark --master local[2]"4.按ESC退出插入模式,輸入:wq以退出VIM。您可以在此處完善更多的VIM命令。
5.透過$ source ~/.bash_profile在Jupyter Notebook中使用PySpark的最喜歡的方式重新整理終端配置檔案是透過安裝findSpark軟體包,該軟體包使我可以在程式碼中使用Spark Context。
findSpark包並非特定於Jupyter Notebook,您也可以在自己喜歡的IDE中使用此技巧。
透過在終端上執行以下命令來安裝findspark
$ pip install findspark啟動常規的Jupyter Notebook,然後執行以下命令:
# useful to have this code snippet to avoid getting an error in case forgeting# to close spark try: spark.stop()except: pass # Using findspark to find automatically the spark folderimport findsparkfindspark.init() # import python librariesimport random # initializefrom pyspark.sql import SparkSessionspark = SparkSession.builder.master("local[*]").getOrCreate()num_samples = 100000000 def inside(p): x, y = random.random(), random.random() return x*x + y*y < 1 count = spark.sparkContext.parallelize(range(0, num_samples)).filter(inside).count()pi = 4 * count / num_samplesprint(pi)輸出應為:
3.14179228
啟動SparkSessionSparkSession是Spark功能的主要切入點:它表示與Spark叢集的連線,您可以使用它來建立RDD並在該叢集上廣播變數。當您使用Spark時,一切都以此SparkSession開始和結束。請注意,SparkSession是Spark 2.0的一項新功能,可最大程度地減少要記住或構造的概念數量。(在Spark 2.0.0之前,三個主要的連線物件是SparkContext,SqlContext和HiveContext)。
在互動式環境中,已經在名為spark的變數中為您建立了SparkSession。為了保持一致性,在自己的應用程式中建立名稱時應使用該名稱。
您可以透過生成器模式建立一個新的SparkSession,該生成器模式使用“流利的介面”樣式的編碼透過將方法連結在一起來構建新物件。可以傳遞Spark屬性,如以下示例所示:
from pyspark.sql import SparkSessionspark = SparkSession\ .builder .master("local[*]") .config("spark.driver.cores", 1) .appName("test pyspark") .getOrCreate()在您的應用程式結束時,請記住呼叫spark.stop() 以結束SparkSession。讓我們瞭解上面定義的各種設定:
· master:設定要連線的Spark主URL,例如“ local”在本地執行,“ local [4]”在4核本地執行,或“ spark:// master:7077”在Spark獨立叢集上執行。
· config:透過指定(鍵,值)對來設定配置選項。
· appName:設定應用程式的名稱,如果未設定名稱,將使用隨機生成的名稱。
· getOrCreate:獲取一個現有檔案SparkSession;如果不存在,則根據此構建器中設定的選項建立一個新檔案。如果返回了現有的SparkSession,SQLContext則將應用此構建器中指定的影響配置的配置選項。由於SparkContext無法在執行時修改配置(您必須先停止現有上下文),而SQLContext可以在執行時修改配置。
結論如果您有大型資料集需要處理,推薦您使用pyspark。對於小型資料集(幾GB),建議使用Pandas。