伴隨著中國走向世界,並且與世界的經濟社會往來越來越密切,各種來自全球的風險與挑戰層出不窮,僅僅從維護國家利益的角度來看,研究者在研究過程中納入全球視野是極有必要的。
大資料時代的到來,為研究者觀察全球社會的運作提供了極佳機遇,基於大資料的全球社會科學研究逐步有了可能。這將會極大地拓寬社會科學的研究視野,讓原本高度依賴本土經驗的社會科學研究不再只是“地方性知識”,可是具有整個星球意義上的普適性。
更為重要的是,所有基於大資料的研究,共享同樣的資料,研究的可重複性,可檢驗性得到極大提高,也有助於其研究結論廣為接受並得到推廣。
實際上,從全球比較的層面進行社會科學研究,在社會社科的奠基人那裡就有了這樣的基因。
比如說,在馬克思對近現代社會的系統性研究中,全球視野是非常強的。馬克思在談分析1500年發現新大陸之後的世界體系時,最經典的名言莫過於說,舊金山、澳洲的金礦與遠東的茶葉生產、倫敦的股票市場的變化之間的緊密關聯,生產與貿易的全球化,讓世界整合成為一個有機關聯的體系。馬克思在《資本論》中分析資本主義、殖民主義的運作時,其全球比較視野,全球關聯的視野也一以貫之。因為馬克思深刻地認識到,要研究資本主義社會,在全球化程序已經開啟的時代,缺乏全球的眼光是完全不行的,只有將世界有機關聯起來進行研究,從世界體系的角度展開研究,我們才有可能獲得完整的知識。在全球化開啟的時代,沒有任何一個地方可以安於一隅,而會在政治、經濟、文化等諸多方面與全球化程序融為一體。
再比如說,在馬克斯.韋伯的體系中,全球比較的視野也體現的淋漓盡致。無論是《經濟與社會》,還是《比較宗教學研究》,還是他對理性化程序的分析,都顯示出高度的全球比較視野。為了說明新教對於資本主義產生的推動作用,他對西歐的天主教、中東的猶太教和伊斯蘭教、以及印度的佛教、遠東的儒教與道教進行了系統的觀察與比較,試圖從這樣一種全球比較的視野中獲得洞見。
可以說,這些學術大家為了論證其觀點的可接受性,拓展其理論的想象力,不遺餘力地從全球經驗來力推其研究視野的拓展,將其理論的經驗邊界不斷拓寬,從而擺脫理論建構的“地方性知識”的困擾。
馬克思,韋伯的努力是值得敬佩的,也是難能可貴的。因為在經驗資料高度碎片化,尤其是不同語言之間經驗資料的閱讀等難題的限制,以及異域的經驗資料獲取難度較大時,這種努力就更顯得彌足珍貴,這不但需要理論傢俱有極強的社會學想象力,而且也需要有極強的經驗資訊駕馭能力。故而,如果研究者沒有極強的學術獻身精神,以及敏銳的理論洞察力,要實現這些都是非常困難的。
而大資料時代的到來,拓展社會科學的新版圖,為全球社會學研究帶來了光明的前景。具體而言,大資料時代的到來從以下幾個方面推動了全球比較社會學研究。
一是網際網路作為全球資訊的匯聚平臺出現,來自於全球的資料資訊獲取具有了可能性,這為研究人類命運共同體的風險與挑戰提供了永無止境的海量資訊。一統天下的網際網路,為世界各地的資訊交融,社會經濟文化交流提供了統一的平臺,網際網路在不斷匯聚世界各個角落的資訊,將原本老死不相往來的世界整合成為一個統一的平臺,來自世界各種語言的資訊在此匯聚,層出不窮的資料產生。在當前,每半年產生的網際網路資料資訊,等於過去一切時代人類所產生的資訊的總和。這對於理解世界各個地方提供了資料來源。全球社會的生活世界高度整合進入網際網路之後,觀察世界各地的社會運作邏輯,以及比較世界不同角落人群的心理、行為傾向就具有了可行性。
筆者藉助於GDELT資料庫,刻畫2015-2018年間世界上2610多個省的反移民指數。該圖清晰地反映,反移民浪潮主要發生在北美和西歐,即西方發達國家陣營,而且,在西歐,反移民指數的空間分佈在西歐與中歐之間畫下了一道清晰的分界線,這條分界線大致是“丘吉爾”說說的從波羅的海到黑海之間的長長的“鐵幕”,也就是東西方世界對抗的分界線。
以GDELT資料庫為例,該資料庫從2015年開始系統運作,匯聚來自世界所有角落、具有實時性的網路媒介資訊,這些資訊包括入口網站、網路新聞、廣告、廣播、部落格、網路論壇等,大致包含了全球30多萬個類似的媒介來源,以每15分鐘更新一次資料,並且將世界上65種語言中的資訊進行匯聚,既透過將各種語言翻譯成英文進行處理的方式開展自然語言處理,也以自然語言處理的方式直接對不同語言的原始資訊進行自然語言處理。自然語言處理主要包括機率主題模型、情感計算、實體分析等方面,並將這些自然語言處理的資料結果變成研究者可以直接計算的“半結構化資料”。
那麼,研究者可以用這些具有全球性的資料庫做什麼呢?根據研究者的不同興趣,可以從事完全不同的研究。筆者主要從全球比較社會學的角度,談談利用此資料庫的價值。
比如說,從研究人類社會的構成來看,該資料庫為對社會生活中最為主要的現象都做了分類,這些分類體系包括;
(1) 有關人的分類的,包括語言、種族、階層、職業、宗教、所使用的貨幣等等,僅僅從這個角度看,該資料庫已經對於社會科學研究中所需要的最為主要的分類已經做了處理,而且隨著技術的進一步拓展,還可以進一步拓展分類體系。
(2) 有關人類行為模式以及社會互動模式的,這些人類行為與互動模式的種類包含了社會生活中最為主要的型別,包括個體性的反社會行為、親社會行為,而關於互動模式的,既包括合作,衝突,以及群體性行為等。有關人類行為模式和社會互動模式的型別高達300多種。
(3) 有關人類社會認知、社會情緒等社會心態的,在GDELT資料的GCAM資料庫下,總計有18種情感詞庫,用於從不同的角度測量人類的情緒與認知狀態。這對於研究原本難以量化的情感計算領域,提供極佳機遇。
如果從全球比較的角度來看,藉助於GDELT的資料庫對世界各民族、各種語言的資訊都有所涵蓋,那麼該資料對於我們研究人類生態系統,以及人類社會系統如何執行,就具有了可行性。
二是層出不窮的來自於世界各地的資料庫被整合,或者原本無法被數字化(data)的資訊(information)被資料化。這些來自於各種語言、各個民族的資料,也為研究者進行全球層面的比較提供了契機。與網際網路資訊在空間上的超強廣度不同的是,這些資訊可以在時間上具有極強的跨度。
Google Books就是這樣的資料庫。谷歌圖書最初將歐美一些頂級大學的圖書館的館藏圖書進行掃描,逐步將其書籍來源進行擴充,至今已經掃描了世界上9種語言中的3000多萬冊圖書,這一程序還在繼續。人類要了解我們過去的歷史以及過去社會的運作邏輯,主要依賴於過去的文字記載。谷歌圖書目前的書籍來源在時間上可以擴充套件到1500年。藉助於這些海量的圖書資訊,及其有助於我們理解過去500年來人類社會運作的方方面面,而且,可以對主要文明和國家的歷史進行比較。
當然,該資料庫目前還沒有完全開發,目前主要用於做詞頻統計。可以設想,隨著該資料庫所納入的書籍資訊不斷擴充,比如說從現在的3000萬冊(大致佔古登堡印刷術以來人類出版書籍的10%左右),增加到2億冊左右(即占人類出版書籍的2/3),同時在文字資訊的自然語言處理方面,也像GDELT資料庫那樣,從多個維度對資料資訊進行提取,可以設想,該資料的威力對於研究全球史的意義與價值。可以毫不誇張地說,這一定會在史學研究領域帶來一場紮紮實實的研究方式革命。
藉助於Google Books,筆者曾經繪製了1800-1900這100年間世界貿易格局的變遷,以圓圈的大小反映各個城市在貿易格局中的重要性,以城市之間連線的粗細反映貿易互動的頻繁程度。左圖是1800-1810年(19世紀頭10年)的貿易格局,右圖是1890-1900年,即19世紀最後10年的貿易格局。19世紀初,最重要的貿易重鎮還是在亞歐大陸的中心城市之間,倫敦、羅馬、耶路撒冷構成了這個貿易體系的三個最為核心的節點,三者之間的共現頻率遠超其他城市;而到了19世界末,最重要的貿易節點已經變成了大西洋兩岸的城市,城市之間的雙邊貿易的集中程度降低了,貿易的總量在極大程度的增加的同時,卻分散到了更多的城市之間,而不是像19世紀初期那樣高度集中在少數幾個關鍵節點城市。
除了GDELT,Google Books等天文量級的文字資料資訊之外,來自於Facebook,Twitter,Wikipedia,Reddit等社交媒體資料、網路論壇資料、網路百科資料,無不可以從全球的層面幫助研究者從資料中獲取洞見,獲得對“人類生態系統”,或者說“人類命運共同體”的認知。
在大資料資訊已在全球層面整合、在星球層面覆蓋、在各種語言中以指數級增長的背景下,如何從全球的層面提出有意義的問題,從冷冰冰的資料海洋中提取出服務於國家建設的洞見,在當今時代顯得尤為關鍵。
很顯然,當前世界意義的資料資訊整合主要是由美國主導的,具體而言,是由谷歌、微軟等這樣的世界級企業主導的,這些大資料資訊對於他們認識全球社會如何運作,並服務於其企業的資本運作是“如虎添翼”,同時也服務於其國家利益。而中國學界在這方面的反應目前還頗為遲鈍。在“資訊就是情報,情報蘊含價值”的時代,中國學術界應該重新“開眼看世界”,這種“開眼看世界”不是像現在所流行的所謂的“國際視野”,而是說,將這種具有全球意義的大資料及其分析技術納入到我們的研究程序中,提升全球層面的資訊駕馭能力,問題發現能力以及理論建構能力,擺脫地方性知識的困擾,提升中國社會科學的學術話語權。
伴隨著中國走向世界,並且與世界的經濟社會往來越來越密切,各種來自全球的風險與挑戰層出不窮,僅僅從維護國家利益的角度來看,研究者在研究過程中納入全球視野是極有必要的。
大資料時代的到來,為研究者觀察全球社會的運作提供了極佳機遇,基於大資料的全球社會科學研究逐步有了可能。這將會極大地拓寬社會科學的研究視野,讓原本高度依賴本土經驗的社會科學研究不再只是“地方性知識”,可是具有整個星球意義上的普適性。
更為重要的是,所有基於大資料的研究,共享同樣的資料,研究的可重複性,可檢驗性得到極大提高,也有助於其研究結論廣為接受並得到推廣。
實際上,從全球比較的層面進行社會科學研究,在社會社科的奠基人那裡就有了這樣的基因。
比如說,在馬克思對近現代社會的系統性研究中,全球視野是非常強的。馬克思在談分析1500年發現新大陸之後的世界體系時,最經典的名言莫過於說,舊金山、澳洲的金礦與遠東的茶葉生產、倫敦的股票市場的變化之間的緊密關聯,生產與貿易的全球化,讓世界整合成為一個有機關聯的體系。馬克思在《資本論》中分析資本主義、殖民主義的運作時,其全球比較視野,全球關聯的視野也一以貫之。因為馬克思深刻地認識到,要研究資本主義社會,在全球化程序已經開啟的時代,缺乏全球的眼光是完全不行的,只有將世界有機關聯起來進行研究,從世界體系的角度展開研究,我們才有可能獲得完整的知識。在全球化開啟的時代,沒有任何一個地方可以安於一隅,而會在政治、經濟、文化等諸多方面與全球化程序融為一體。
再比如說,在馬克斯.韋伯的體系中,全球比較的視野也體現的淋漓盡致。無論是《經濟與社會》,還是《比較宗教學研究》,還是他對理性化程序的分析,都顯示出高度的全球比較視野。為了說明新教對於資本主義產生的推動作用,他對西歐的天主教、中東的猶太教和伊斯蘭教、以及印度的佛教、遠東的儒教與道教進行了系統的觀察與比較,試圖從這樣一種全球比較的視野中獲得洞見。
可以說,這些學術大家為了論證其觀點的可接受性,拓展其理論的想象力,不遺餘力地從全球經驗來力推其研究視野的拓展,將其理論的經驗邊界不斷拓寬,從而擺脫理論建構的“地方性知識”的困擾。
馬克思,韋伯的努力是值得敬佩的,也是難能可貴的。因為在經驗資料高度碎片化,尤其是不同語言之間經驗資料的閱讀等難題的限制,以及異域的經驗資料獲取難度較大時,這種努力就更顯得彌足珍貴,這不但需要理論傢俱有極強的社會學想象力,而且也需要有極強的經驗資訊駕馭能力。故而,如果研究者沒有極強的學術獻身精神,以及敏銳的理論洞察力,要實現這些都是非常困難的。
而大資料時代的到來,拓展社會科學的新版圖,為全球社會學研究帶來了光明的前景。具體而言,大資料時代的到來從以下幾個方面推動了全球比較社會學研究。
一是網際網路作為全球資訊的匯聚平臺出現,來自於全球的資料資訊獲取具有了可能性,這為研究人類命運共同體的風險與挑戰提供了永無止境的海量資訊。一統天下的網際網路,為世界各地的資訊交融,社會經濟文化交流提供了統一的平臺,網際網路在不斷匯聚世界各個角落的資訊,將原本老死不相往來的世界整合成為一個統一的平臺,來自世界各種語言的資訊在此匯聚,層出不窮的資料產生。在當前,每半年產生的網際網路資料資訊,等於過去一切時代人類所產生的資訊的總和。這對於理解世界各個地方提供了資料來源。全球社會的生活世界高度整合進入網際網路之後,觀察世界各地的社會運作邏輯,以及比較世界不同角落人群的心理、行為傾向就具有了可行性。
筆者藉助於GDELT資料庫,刻畫2015-2018年間世界上2610多個省的反移民指數。該圖清晰地反映,反移民浪潮主要發生在北美和西歐,即西方發達國家陣營,而且,在西歐,反移民指數的空間分佈在西歐與中歐之間畫下了一道清晰的分界線,這條分界線大致是“丘吉爾”說說的從波羅的海到黑海之間的長長的“鐵幕”,也就是東西方世界對抗的分界線。
以GDELT資料庫為例,該資料庫從2015年開始系統運作,匯聚來自世界所有角落、具有實時性的網路媒介資訊,這些資訊包括入口網站、網路新聞、廣告、廣播、部落格、網路論壇等,大致包含了全球30多萬個類似的媒介來源,以每15分鐘更新一次資料,並且將世界上65種語言中的資訊進行匯聚,既透過將各種語言翻譯成英文進行處理的方式開展自然語言處理,也以自然語言處理的方式直接對不同語言的原始資訊進行自然語言處理。自然語言處理主要包括機率主題模型、情感計算、實體分析等方面,並將這些自然語言處理的資料結果變成研究者可以直接計算的“半結構化資料”。
那麼,研究者可以用這些具有全球性的資料庫做什麼呢?根據研究者的不同興趣,可以從事完全不同的研究。筆者主要從全球比較社會學的角度,談談利用此資料庫的價值。
比如說,從研究人類社會的構成來看,該資料庫為對社會生活中最為主要的現象都做了分類,這些分類體系包括;
(1) 有關人的分類的,包括語言、種族、階層、職業、宗教、所使用的貨幣等等,僅僅從這個角度看,該資料庫已經對於社會科學研究中所需要的最為主要的分類已經做了處理,而且隨著技術的進一步拓展,還可以進一步拓展分類體系。
(2) 有關人類行為模式以及社會互動模式的,這些人類行為與互動模式的種類包含了社會生活中最為主要的型別,包括個體性的反社會行為、親社會行為,而關於互動模式的,既包括合作,衝突,以及群體性行為等。有關人類行為模式和社會互動模式的型別高達300多種。
(3) 有關人類社會認知、社會情緒等社會心態的,在GDELT資料的GCAM資料庫下,總計有18種情感詞庫,用於從不同的角度測量人類的情緒與認知狀態。這對於研究原本難以量化的情感計算領域,提供極佳機遇。
如果從全球比較的角度來看,藉助於GDELT的資料庫對世界各民族、各種語言的資訊都有所涵蓋,那麼該資料對於我們研究人類生態系統,以及人類社會系統如何執行,就具有了可行性。
二是層出不窮的來自於世界各地的資料庫被整合,或者原本無法被數字化(data)的資訊(information)被資料化。這些來自於各種語言、各個民族的資料,也為研究者進行全球層面的比較提供了契機。與網際網路資訊在空間上的超強廣度不同的是,這些資訊可以在時間上具有極強的跨度。
Google Books就是這樣的資料庫。谷歌圖書最初將歐美一些頂級大學的圖書館的館藏圖書進行掃描,逐步將其書籍來源進行擴充,至今已經掃描了世界上9種語言中的3000多萬冊圖書,這一程序還在繼續。人類要了解我們過去的歷史以及過去社會的運作邏輯,主要依賴於過去的文字記載。谷歌圖書目前的書籍來源在時間上可以擴充套件到1500年。藉助於這些海量的圖書資訊,及其有助於我們理解過去500年來人類社會運作的方方面面,而且,可以對主要文明和國家的歷史進行比較。
當然,該資料庫目前還沒有完全開發,目前主要用於做詞頻統計。可以設想,隨著該資料庫所納入的書籍資訊不斷擴充,比如說從現在的3000萬冊(大致佔古登堡印刷術以來人類出版書籍的10%左右),增加到2億冊左右(即占人類出版書籍的2/3),同時在文字資訊的自然語言處理方面,也像GDELT資料庫那樣,從多個維度對資料資訊進行提取,可以設想,該資料的威力對於研究全球史的意義與價值。可以毫不誇張地說,這一定會在史學研究領域帶來一場紮紮實實的研究方式革命。
藉助於Google Books,筆者曾經繪製了1800-1900這100年間世界貿易格局的變遷,以圓圈的大小反映各個城市在貿易格局中的重要性,以城市之間連線的粗細反映貿易互動的頻繁程度。左圖是1800-1810年(19世紀頭10年)的貿易格局,右圖是1890-1900年,即19世紀最後10年的貿易格局。19世紀初,最重要的貿易重鎮還是在亞歐大陸的中心城市之間,倫敦、羅馬、耶路撒冷構成了這個貿易體系的三個最為核心的節點,三者之間的共現頻率遠超其他城市;而到了19世界末,最重要的貿易節點已經變成了大西洋兩岸的城市,城市之間的雙邊貿易的集中程度降低了,貿易的總量在極大程度的增加的同時,卻分散到了更多的城市之間,而不是像19世紀初期那樣高度集中在少數幾個關鍵節點城市。
除了GDELT,Google Books等天文量級的文字資料資訊之外,來自於Facebook,Twitter,Wikipedia,Reddit等社交媒體資料、網路論壇資料、網路百科資料,無不可以從全球的層面幫助研究者從資料中獲取洞見,獲得對“人類生態系統”,或者說“人類命運共同體”的認知。
在大資料資訊已在全球層面整合、在星球層面覆蓋、在各種語言中以指數級增長的背景下,如何從全球的層面提出有意義的問題,從冷冰冰的資料海洋中提取出服務於國家建設的洞見,在當今時代顯得尤為關鍵。
很顯然,當前世界意義的資料資訊整合主要是由美國主導的,具體而言,是由谷歌、微軟等這樣的世界級企業主導的,這些大資料資訊對於他們認識全球社會如何運作,並服務於其企業的資本運作是“如虎添翼”,同時也服務於其國家利益。而中國學界在這方面的反應目前還頗為遲鈍。在“資訊就是情報,情報蘊含價值”的時代,中國學術界應該重新“開眼看世界”,這種“開眼看世界”不是像現在所流行的所謂的“國際視野”,而是說,將這種具有全球意義的大資料及其分析技術納入到我們的研究程序中,提升全球層面的資訊駕馭能力,問題發現能力以及理論建構能力,擺脫地方性知識的困擾,提升中國社會科學的學術話語權。