-
1 # 高效率大機率小成本
-
2 # 時間我付
大資料就是建立在網路上的,是對網際網路應用多元化的推廣。大資料是這幾年發展的非常迅速,很多地方都建立了對應的大資料產業園,其中以貴陽的最為出名。它現在還是處於發展時期,離發展到正常態還有一定的距離,將來我們可以看到它是集工業、農業、服務業、生態等各種於一體的大融合。
-
3 # 小強撩科技
摘要:資料新聞作為大資料發展下的產物越來越受到媒體業的重視。作為研究事物之間關聯性的社會網路分析法與資料新聞講求透過將資料視覺化來表達事件之間、人物之間關係的想法相契合。本文對社會網路分析法及其在資料新聞領域的應用進行介紹,並以2016年8月新浪微博熱門主題及“王寶強離婚事件”主要人物作為案例進行社會網路分析,以期更多的資料新聞工作者對這一社會科學研究方法進行了解並應用。
前言
近些年“大資料”(Big Data)的興起深刻改變著人們的思維方式與生活習慣,同時也為新聞報道在深度與專業性上謀求突破提供了可能,在新聞傳播學領域“資料新聞學”(Data Journalism)應運而生。2010年第一屆國際資料新聞圓桌會議在荷蘭阿姆斯特丹舉行,本次會議將“資料新聞學”定義為一種流程,包括透過反覆抓取,篩選和重組來深度挖掘資料,聚焦專門資訊以過濾資料,視覺化地呈現資料併合成新聞故事。資料新聞呈現的目的,除了對事件本身的一般性描述之外,還要能透過對資料及其關係的挖掘,對新聞事件進行判斷,甚至起到預測的作用。
全世界第一條資料新聞出現於1981年的英國《衛報》,報道是關於學生入學與上學花費。受條件的限制,在資料量與技術手段上和現今的資料新聞有很大差異,但是其報道的理念相似。在國外的主流媒體中,《衛報》、《紐約時報》、《華盛頓郵報》等都有自己的資料新聞業務,且起步較早;中國相關領域在近幾年的發展中也有較大進步,財新網的“數字說”和網易的“數讀”是其中的代表,但行業整體上呈現視覺化效果簡單、互動性差等特徵,沒有將“使用者思維”置於本位。
社會網路分析作為一種研究事物之間關聯的社會科學研究方法,與資料新聞中透過資料的挖掘來表達事件與事件、人物與人物之間關聯的思路相契合,而相關工具的出現也為該方法的運用提供了便捷。雖然社會網路分析法在科研領域運用廣泛,但在國內業界資料新聞報道中並不多見,故本文旨在對該方法在資料新聞領域的應用進行介紹,以期更多該領域從業者對這一研究方法進行了解及應用。
1、社會網路分析法
>>>> 1.1社會網路分析簡介
社會網路分析最早是由一群社會計量學家所創立,與統計學家的觀念不同,他們認為社會不只是散在個體的簡單集合,而既應該包含個體也應該包含個體間所擁有的各種社會、經濟或文化關係,弗里曼對社會網路分析法的總結,他將該方法的特徵歸納為四點:即“結構性思維”、“系統的經驗資料”、“圖形”以及“數學和計算模型”,反映在視覺化中,節點代表個體,連線代表關係。隨著計算機技術的發展,一批社會網路分析工具被開發出來,比較有代表性的有Ucinet、Pajek和Gephi。
社會網路分析雖然是一種社會科學研究方法,但它的應用範圍非常廣泛,包括輿情、傳播、國際政治與關係、市場營銷,不勝列舉;涉及的學科門類眾多,涵蓋社會學、人類學、數學、經濟學、政治學、新聞傳播學、統計學等。由於橫跨多個領域和學科,為了便於學術交流,該研究方法有了自己的組織“社會網路分析國際網路”(INSNA)與刊物《社會網路》。
>>>> 1.2社會網路分析與資料新聞
資料新聞的主要表達形式有資料視覺化、新聞圖解、資料地圖等,其中資料視覺化的使用最多。資料視覺化有狹義和廣義的區別,在這裡的資料視覺化是指將枯燥乏味的數字資訊轉化為更有利於讀者接受的圖示。目前主流的資料視覺化表達形式諸如柱狀圖、餅狀圖、折線圖等,已經造成了受眾的審美疲勞,因此資料新聞工作者必須要嘗試創新,創作出更符合讀者體驗的作品。
社會網路分析是用來研究不同事物間關係的研究方法,並最終以視覺化的形式向受眾呈現,透過節點的大小、節點間的連線與距離等來反映不同事物的狀態與關係,在一張圖上可包含的資訊眾多。事物間的關係可以介於人與人之間、國家與國家之間,也可以指事件與事件之間,範圍很寬泛;它們之間的關係設定,可以是客觀上可直接獲取的關係,如微博關注關係、轉發評論關係、文章引用關係等,也可以是帶有人為主觀判斷的關係。
社會網路分析可以從三個層面進行觀察,分別為宏觀上的整體結構、中觀上的子群網路以及微觀上的個體角色,並可依靠一些社會網路分析指標對相應的研究物件進行計算。整體結構是對社會網路的一個大致瞭解,可以知道整個網路的規模大小,節點關係間的疏密程度,常用的指標有密度、直徑、測地線等。並且還可以從縱向上對網路的動態演化以及橫向上對同一型別的不同網路進行比較;子群網路通常是指凝聚子群,這是一群因為相同或相斥甚至對立從而產生互動的群體,這類群體與其他比較起來,更有關注的價值。在視覺化中凝聚子群的體現一方面要依靠派系、K-核與模等凝聚子群的指標將其與其他節點進行單獨提取或區分,另一方面也需要合理的佈局;個體角色的觀察重點是對在整體網路中扮演重要作用的個體,這些節點可能在互動關係上最多,資訊交流中佔據重要位置,也有可能是與它產生互動的鄰點“質量”普遍偏高,這些節點可以透過點度中心度、中介中心度、接近中心度等中心性指標進行計算得出,並在視覺化中透過節點的不同大小來呈現。
此外,社會網路分析還可以與其他的視覺化技術進行結合。如圖1,Max Galka將社會網路與互動地圖相結合來反映國與國之間的共同防禦條約簽署關係。透過顏色的分佈來區分不同大洲之間國與國的地理位置,用線條來構建國與國之間的條約簽署關係,節點的大小則是根據各國的人口來設定。
圖1 世界各國共同防禦條約簽署關係
圖2 與美國簽署共同防禦條約的國家分佈
2、案例分析
本文使用Gephi對一組事件關係和人物關係進行視覺化製作。Gephi是一款開源的免費跨平臺基於JVM的複雜網路分析軟體,雖然在學術界Ucinet、Pajek的使用更為普遍,但Gephi在視覺化效果上做的更為出色,更利於資料新聞的製作,並且還支援多款外掛。
>>>> 2.1事件與事件關係
本文以2016年8月知微事件博物館(http://ef.zhiweidata.com)釋出的事件微博影響力為篩選依據,選取排名前35的主題,在節點資料表格中將主題從事件名稱、事件型別、開始時間以及事件影響力這五個方面進行劃分(見圖3)。事件型別從時政、科技、商業、社會、體育、娛樂、災害這七個方面進行分類,由於前35名中沒有時政類,因此在本文中只有六種型別,再在邊資料表格裡將相同型別的事件彼此之間構建聯絡;事件影響力則是根據主題的微博轉發評論量綜合建模計算得出。
圖3 節點資料
在Gephi檔案裡,對相同型別事件之行“模組化”聚類,並在顏色上區分,再根據微博影響力對節點大小進行設定,最後使用合適的佈局對圖進行生成(見圖4)。從圖4裡可以清晰地看出,整個八月體育型別尤其是奧運題材成為主要話題門類,“王寶強離婚”、“‘洪荒之力’傅園慧表情包走紅”以及“游泳運動員霍頓稱孫楊為‘用藥的騙子’”成為當月最熱議題。與柱狀圖等圖示相比,圖4更為直觀,所包含的資訊量更大,不僅將不同分類的事件包含在一張圖裡,而且還可以根據節點看出事件的影響力大小。
圖4 八月熱門事件社會網路圖
事件與事件的關係設定可以有很多種,本文只是根據事件分類來進行關係的構建,還可以將體育大類再根據運動專案細分等,分類需要與具體的事件結合起來進行思考。
>>>> 2.2人物與人物關係
本文以2016年八月微博最熱門事件之一“王寶強離婚”為例,對該事件中的四個主要人物王寶強、馬蓉、宋喆以及楊慧的微博關注進行抓取,並將關注關係匯入(見圖5),Source為關注者,Target為被關注者。
圖5 部分關注關係資料
下面的操作和事件關係相同,進行“塊模型”的聚類和上色,最後使用合適的佈局並調整文字距離。可檢視如圖6所示,在該圖中,透過佈局將四人單獨關注、兩兩關注、三三關注、以及四人共同關注分模組顯示,以期從關注關係中挖掘出更多的潛在資訊。
圖6 四人微博關注關係社會網路圖
將社會網路圖區域性放大進行觀察,聚焦於馬蓉和宋喆的共同關注(見圖7),有兩類微博值得注意,可以體現二人的一些共同關注點:其一是奢侈品類,諸如“Armain阿瑪尼”、“HERMES”、“Versace範思哲官方微博”這些國際一線奢侈品牌微博;其二是“裝修都要開腦洞”、“創意傢俱裝修設計”這兩個裝潢類的微博。而在該事件爆發不久之後,就有媒體爆出“馬蓉宋喆共同購房”的訊息,並配以照片加以佐證。
圖7 馬蓉宋喆共同關注
而根據媒體整理的“聲援王寶強”的明星裡,陳思誠、佟麗婭、黃曉明和李晨等人最早發聲,並公開支援王寶強,這份名單與社會網路圖中王寶強夫婦和楊慧三人的共同關注(見圖8)相吻合。以上這些資料及其視覺化分析,雖然不能直接證明,但也可以間接、客觀地反映四人的朋友圈及關注點。
圖8 王寶強夫婦和楊慧的共同關注
結語
本文對社會網路分析法及其在資料新聞領域的應用進行了介紹,並以2016年8月新浪微博熱門主題及“王寶強離婚事件”主要人物做了兩組事件之間與人物之間的案例分析。相較於主觀性的文字表述,社會網路分析法對於不同事物關係的梳理更加客觀更具有說服力;與其他圖示相比,所包含的資訊量更大,呈現的關係更加簡單明瞭,符合使用者的閱讀行為與閱讀習慣。並且該方法還可以透過一系列的指標從不同層次、不同維度對資料進行深層次挖掘,獲得一些潛在資訊。
隨著國內資料新聞的不斷髮展,越來越多的社會科學研究方法將被引入,這也對中國的資料新聞工作者提出更高的要求,除了敏銳的新聞嗅覺以外,還要具備一定的程式設計基礎,能夠熟練運用視覺化工具,並掌握一些常用的社會科學研究方法。上述能力的具備既要求新聞單位引入更加多元學科背景的工作者,更需要這些相關人員在各自分工的基礎上加強彼此之間的交流、溝通與融合。
回覆列表
大資料是網路發展到一定階段的產物,透過網路高效採集到的資料,經過快速分析處理可以獲得有用的確定性的資訊,有助於在生產生活中作出更理性更最佳化的決策,其直接結果會體現在商業運營的經濟性上。
所以,一旦大資料在經濟上的作用獲得了體現,就會反過來對產生資料的網路提出更多的效能要求,會對涉及網路發展的方方面面產生影響和推動。雖然期間會有反覆和波動,但趨勢是確定的,具體如何發生作用和起作用的路徑是不確定的!