首頁>科技>

導讀

近年來,隨著大資料的興起,藉助大資料的城市空間研究成果不斷湧現。以手機信令、公交刷卡、大規模GPS等為代表的“大資料”已經進入城市規劃和城市研究的各個領域,但研究重點仍聚焦於城市現狀分析上。利用大資料建立模型,並基於模型進行具體規劃應用的探索較少。本研究以手機信令資料為主要資料來源,以“通勤”(居住-就業)作為研究物件,構建精細化的上海市分單元通勤模型,並探索基於殘差分析的模型最佳化方法,最後透過兩個案例展示了模型在規劃實踐中的應用。說明:本文為論文《大資料背景下的通勤模型構建與應用——以上海為例》的主要內容的簡寫導讀版,由於需要說明建模的方法過程,理論性較強。分兩篇推送,上篇為模型篇;下篇為應用篇。

手機信令資料。本研究使用上海移動手機信令資料,資料記錄量上,上海市域範圍內平均每天約記錄到1600萬左右使用者,產生信令資料約5億條。透過手機信令資料識別使用者的居住地和就業地,共識別出1370萬穩定的居住就業人口,占上海市六普常住人口的57%。將資料彙總到上海市各普查區單元(社群、行政村),得到每個單元的居住人口和就業人口(即就業崗位)以及各單元之間的通勤聯絡(居住-就業)。可以看到,從中心城區向外記錄量逐漸越少,平均從每單元出發的通勤流1836條。

▲ 圖1 | 各單元通勤出發記錄量

2 基礎模型構建

以通勤量為因變數,以就業崗位和通勤時間為自變數,構建基礎模型:

其中,為單元間的通勤量,為就業地單元的就業崗位數量,為出發地和就業地之間的通勤時間成本,分別為出發地單元的就業崗位影響係數和通勤時間衰減係數,為常數項。

基礎模型平均擬合優度為0.76,各單元擬合優度如圖2所示。中心城單元擬合優度較高,尤其是外環以內浦西地區,擬合優度普遍在0.7以上。中心城外圍近郊區至遠郊區過渡地帶的擬合優度較差,在0.5~0.7範圍內波動,因為這些地區的居民中遠距離通勤者佔比較高,對於以距離衰減為基本規律的模型來說,大量的遠距離通勤者顯然會降低模型的擬合優度。而遠郊區的擬合優度又有所提高,總的來說,是因為這些地區相對獨立,就業大多在本地區內解決,通勤活動相對規律,模型較容易擬合。

▲ 圖2 | 基礎模型擬合優度

模型係數上,分別求解各單元的就業崗位影響係數(αi)和通勤時間衰減係數(βi),如圖3所示。分單元模型的就業崗位係數的值大部分在0.9至1.1之間,通勤時間衰減係數的值大部分在-2.8至-1.8之間。就業崗位係數反映的是一個單元的居民受就業地崗位數量影響的程度,該係數越大,意味著在目的地增加相同數量的就業崗位對該單元的居民產生的吸引越大。就業崗位係數最大的地帶位於浦西內外環之間自東北向西南一帶,而該地帶恰恰是上海市就業崗位相對比較缺乏的地區,分佈著大量大型居住區(圖3a)。通勤時間衰減係數反映的是通勤量隨距離變化的敏感程度,該係數的絕對值越大說明增加相同通勤時間後通勤量減少得越快,即該單元居民更偏向於就近就業。其空間分佈上,中心城區的絕對值普遍小於外圍地區(圖3b)。中心城區單元周邊的就業崗位選擇較多,且公共交通可達性高,因而居民的就業空間分佈相對均勻。而外圍崗位相對稀少,且交通可達性較差,大部分的居民就業被限制在本地,反映在距離衰減係數上會呈現較大負值。上述這些通勤空間規律的異質性在傳統的全域性通勤模型上是無法反映出來的。

▲ 圖3 | 基礎模型係數空間分佈

3 殘差分析-最佳化模型

基礎模型平均擬合優度為0.76,即可以解釋約76%的外出通勤行為,剩餘部分是透過目前的兩個自變數(即就業崗位和通勤時間)無法解釋的部分,即模型的殘差(residuals)。殘差可能由各種原因造成,最主要的原因是模型缺少影響通勤的關鍵變數。對基礎模型的殘差進行分析,可從中提取新的變數,從而對基礎模型進行最佳化。圖4所示是上海各單元之間實際的通勤聯絡和透過模型預測的通勤聯絡之間的差異,可以看到,模型預測結果總體上與實際結果接近,但存在部分差異較大的區域。

▲ 圖4 | 基礎模型係數空間分佈

如圖5所示是模型的“通勤聯絡殘差”。圖中的有向線段代表模型預測值低於實際值的數量,即實際值減去預測值,線段越粗,則代表模型低估的值越大。從圖中可以看出,高殘差聯絡的空間分佈具有明顯的特徵。透過分析,可以總結出4類典型特徵。特徵一為遠郊區行政區內部的通勤聯絡被低估,實際通勤聯絡遠高於預測通勤聯絡,典型例子如金山、奉賢、青浦等。特徵二為主城區邊緣就業中心大量吸引周邊居民就業,模型低估了這部分通勤者,典型例子為張江和金橋。特徵三為近郊區大型就業中心逆向吸引中心城的就業者,而模型低估了這部分通勤聯絡,典型例子如寶鋼工業園區。特徵四為地鐵末端大型居住區與中心城區通勤聯絡較強,模型對此的解釋預測能力有限,典型例子為9號線沿線的九亭等地區。

▲ 圖5 | 通勤聯絡殘差

根據這4個特徵,可以提取出3個新的變數。根據特徵一提取“行政邊界”,根據特徵二和三提取“就業中心”變數,根據特徵四提取“地鐵沿線”變數。將3個變數加入到基礎模型中,重新擬合模型,得到的“最佳化模型”的平均擬合優度為0.87,模型的解釋力相比於基礎模型有了大幅度提高。

▲ 表1 | 從基礎模型殘差中提取的新變數

4 殘差進一步分析——殘差模型

最佳化模型仍有進一步提升的潛力,但透過上述方法再找到系統變數的難度較大。本研究透過對模型個體殘差的區域性空間自相關分析,生成“殘差自變數”,加入最佳化模型,形成殘差模型。“殘差自變數”表徵當下通勤中的特殊聯絡,短期預測中可以保留,中長期預測不應該考慮。

區域性空間自相關可以根據單元個體的殘差空間分佈特徵,對殘差進行空間統計,將殘差分為4種典型的集聚型別:高高集聚(HH cluster)、低低集聚(LL cluster)、高低集聚(HL cluster)、低高集聚(LH cluster)。各種型別的殘差分佈對應的可能現實因素如表2所示。但值得一提的是,表中所列的地鐵線、就業崗位型別、搬遷等因素僅僅是影響殘差的若干因素之一,實際上是無法將4種類型的殘差集聚型別精確對應到其影響因素的。

▲ 表2 | 殘差集聚特徵與解釋

經過區域性空間自相關檢驗,將空間上存在顯著集聚特徵的殘差分為了4種類型,根據集聚型別生成殘差自變數,每一種型別對應一個虛擬變數。將該殘差變數加入到最佳化模型中,形成殘差模型,殘差模型包含5個常規變數和4個殘差變數,該模型的平均擬合優度超過0.92,遠高於基礎模型和最佳化模型。殘差模型僅能用於通勤量的預測,且適用於近期預測,不能直接解釋,不適用於遠期預測。

5 建模方法總結

基於手機信令資料大樣本和全覆蓋的特點,構建分單元通勤模型,得到基礎模型,並透過殘差分析對模型進行最佳化,得到最佳化模型和殘差模型,進而形成“基礎模型-最佳化模型-殘差模型”的建模路徑。對比傳統建模路徑和大資料建模路徑,可以看到,大資料建模的核心在於對殘差的系統分析和變數提取,這在傳統資料環境下是很難實現的。

▲ 圖6 | 基於大資料的建模路徑

3個模型中,基礎模型包含兩個最基本變數(就業崗位數量和通勤時間),擬合優度較低;最佳化模型透過殘差分析加入了更多的變數(X),可認為是常規手段下最好的模型;殘差模型包含常規變數和殘差變數(N),擬合優度最高,但只可預測不可解釋,因為殘差自變數本質上是不可解釋的。

▲ 表3 | 三個模型的特性比較

注:X是透過殘差分析提取出的系統變數;N是區域性空間自相關生成的變數。

15
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 今晚庫克將宣佈一項大事