首頁>科技>新智元2021-07-08 15:11

早在蘇美爾王國時期，這個智慧王國的子民就開始記錄資料，進行人口普查、分配糧食。

全世界最早產生的文明之一蘇美爾的人口普查記錄

蘇美爾人貢獻了書面資料分析的最早記錄。

隨著計算機的出現，人們開始用機器分析大型資料集，這一階段最早可以追溯到大型計算機時代。

計算機大大加快了資料分析的速度，被廣泛應用在審計和人口普查上。

而這種將大量資料分析與社會問題相結合的工作，即計算社會科學（Computational social science）近年來得到了巨大的發展。

巨大的發展伴隨的是沒有限制、不受監管的資料收集。

這其中存在很大風險：缺乏監控以及從匿名資料中重新識別身份的風險。

還有人擔心，收集資料卻沒有徵得當事人的同意怎麼辦？

大部分資料都被少數大型科技公司壟斷怎麼辦？

不僅大型科技公司掌握資料、資料使用權在向發達國家、富裕人群傾斜，這樣做出的決策難免會有偏差。

所以，目前需要我們將社會科學和不同學科以及收集分析大型資料集所需的技能結合起來，這就需要跨學科的合作。

但是，目前跨學科合作面臨諸多挑戰。

克服跨學科的語言障礙
計算社會科學集社會、自然、計算科學等學科於一身。

同一個詞，在不同學科之間可能有不同的含義，在這種情況下就很容易「雞同鴨講」。

例如，在社會科學領域，「預測」（prediction）通常含有「相關」的意思；而在物理科學領域，這個詞更多指的是「預測」。

「token」在不同領域裡也有不同含義

因此，不同學科之間需要克服同一術語表達不同意思的語言障礙。開展跨學科研究時，科學家們首先需要學會彼此的語言，然後得出一種能夠相互理解的術語。

但比起語言障礙，更難的是如何展示、分析和解釋資料，最終解釋某種現象。

比方說，要想了解交通擁堵的原因，研究人員會收集並預測交通流量資料，還會從司機口中瞭解到他們選擇特定路線的原因。計算社會科學的學科互補特性，能更高效地回答研究問題。

處理資料的「大忌」
所有研究結果取決於分析策略，還取決於資料的質量，在處理社會資料的時候更是如此。

要想完成計算社會科學的研究，就先得要有大量的資料，如手機的定位資訊。但是這些資訊通常不是出於研究目的才收集的，因此很容易被人誤解。

僅從數字中觀察到趨勢或模式中就得出結論，這是研究人員處理大資料集的「大忌」。研究人員應該考慮可能會影響結果的因素。

為了提取資料的真正意義，研究人員需要確保他們根據理論，仔細地定義測量物件，並適當地進行驗證和解釋。

演算法的廣泛影響是另一個潛在錯誤。演算法遍及整個社會，以不同的方式影響著個人和群體行為，這意味著，所有的觀察不僅在描述人類行為，還在描述演算法對人們行為方式的影響。

社會科學理論需要更新，承認演算法帶來的影響；要是沒有這些理論，沒有清晰理解演算法對可用資料的影響，研究人員就無法得出有意義的結論。

最新評論