首頁>資訊>

1 引 言

中國電影產業發展迅速,網路大資料對電影的影響也不斷加大。豆瓣平臺更加方便快捷的傳播方式,更趨近於現代生活的節奏,逐漸成為影評文化的主流。豆瓣電影提供最新的電影介紹及評論包括上映影片的影訊查詢及購票服務。你可以記錄想看、在看和看過的電影電視劇,順便打分、寫影評,極大地方便了人們的生活。豆瓣電影是這樣介紹自己的:“國內最權威電影評分和精彩影評,千萬影迷的真實觀影感受,為你的觀影做決策。”而它也確實做到了這一點。然而,前些日子,朋友圈又因一事沸騰了。《中國電影報》12月27日釋出題為“豆瓣電影評分,面臨信用危機”的文章,隨後人民日報客戶端轉發了該文,並將標題改為“豆瓣、貓眼電影評分面臨信用危機,惡評傷害電影產業”。在這個網際網路將滲透到整個電影產業鏈中的時代,網路資料對電影的影響不斷加大。2010年國內電影票房首次超過百億,中國電影跨入百億時代。2015年中國電影票房突破了440億元,電影市場的大步跨進使世界為之注目。國產電影中高評價高票房電影比比皆是,但面對偌大的市場,中國電影的發展方向仍不明確,部分影片好評率與票房關係不成正比。在這種情況下,對國產電影進行資料分析指出其發展方向就顯得尤為重要。

3豆瓣電影資料

主要分析一豆瓣電影TOP250(https://movie.douban.com/top250)的相關電影,使用Python獲取,技術分析流程分為以下三個步驟:網路資料獲取、資料讀入和資料清洗、資料視覺化分析。經過網站爬蟲,我們整理出來了7個欄位,欄位含義為評分、評分人數、導演、編劇、主演、型別、製片國家/地區、語言、上映日期、片長、劇情簡介、熱門影評、豆瓣成員常用標籤。

3.1 上映年代分析

圖1 豆瓣電影TOP250各年代電影數量

好評電影多集中在1990年之後。在1990年之前以及1990年之後兩部分中,好評電影數量波動不大。電影藝術會隨著時代的變化而變化,如今的觀影者會更加接受現代的電影藝術。在豆瓣電影Top250中,時間跨度從1931年至2017年,其中電影多集中在1990年之後,電影入圍數量最多的年份是1994年、2004年以及2010年,佔比14.4%。1994年被稱為電影年,在那一年誕生了許多電影佳作,如常年居豆瓣評分最高影片的《肖申克的救贖》,當年的奧斯卡最佳影片《阿甘正傳》,以及《這個殺手不太冷》同樣上映於1994年。不只是國外電影,1994年也是國產電影的巔峰時期,中國有5部電影在當時入圍豆瓣電影Top250。《紅玫瑰與白玫瑰》《飲食男女》《重慶森林》等影片同樣上映於1994年。進入21世紀之後,好評電影數量較多。好評電影出現最多的年代處於2000-2009年之間。

3.2 製片國家/地區分佈分析

圖2豆瓣電影排名前20的國家電影數量

好評電影的製作國家由美國領銜,佔比近50%。從圖上可以看出美國大片上榜數量較多,其次是日本、英國、中國。中國與國外的電影上榜率還是有差距的。美國的電影產業較為成熟,引領著這個時代的電影藝術潮流。

圖3豆瓣電影排名前20的國家電影數量

國內的片長普遍比國外短,國外片長集中在100-150分,均值125分,國內集中在100-120分,均值110分。國外評分普遍比國內高,但集中程度相似。

3.3導演/主演分析

圖4豆瓣電影排名前10的導演電影數量

在好評電影中,有多位導演的不止一部影片上榜,其中上榜電影數最多的兩位導演是:克里斯托弗·諾蘭和宮崎駿。在其後也有多位中國籍導演。導演對於一部影片的影響巨大,可以說好的導演能決定一部電影的成功與否。電影的主題、創作風格和視聽語言,相對應的電影中演員的表演和後期製作中也可以看出導演的地位和價值。

圖5豆瓣電影排名前10的主演電影數量

演員是電影創作過程中的另外一個重要角色,獲得導演認可的演員在影片中扮演角色。張國榮、梁朝偉、周星馳等香港演員主演的電影上榜次數多,其他基本上是國外影星,說明國內影星還有待提高,也說明演員在影片中的表演也是決定影片是否受歡迎的重要因素,明星引起的“粉絲效應”也是不容忽視的,影片獲得高票房或高評分,演員起了重要作用。

3.4 影片型別分佈分析

圖6豆瓣電影排名前20的國家電影數量 圖7標籤分佈

在好評電影中,劇情型別電影一騎絕塵,有高達186部電影帶有“劇情”標籤。其後,愛情、喜劇、冒險等型別也有多部電影。電影型別決定了電影的基調和主旨,是決定電影內容的重要因素之一。隨著電影產業的不斷髮展,電影型別也越來越多樣。2010 年之後,中國電影市場主要由愛情片、喜劇片及動作片三大型別組成,但是警匪、諜戰、歌舞及傳記等型別片的市場反響也非常好,電影市場形成了以武俠、動作、愛情、喜劇、劇情為主打,以警匪、戰爭、歷史為中等梯度,以魔幻、傳記、歌舞等為新興品種的穩定性結構。在眾多高分電影中喜劇電影占比19%,犯罪片、懸疑電影分別佔17%、15%,與喜劇電影共同作為佔比最高的前三種電影型別,觀眾對於喜劇片、犯罪片以及懸疑片的關注程度要略高於其他型別的電影。觀眾愛看劇情,喜劇和愛情片,而這些也恰恰評分高,說明在未來國產電影的發展過程中,在新的電影產業格局的影響下電影型別將越來越豐富,傳統喜劇片、愛情片等型別影片將攜手懸疑、犯罪等新興型別共同走上銀幕。一部電影的型別也將難以用一種或兩種型別概括,多型別同時存在的電影將越來越多,其結構和手法將會更加成熟,單部影片型別多樣化將成為電影型別發展的必然趨勢。

3.5評分/評分人數分析

圖8評分分佈

結合圖8看,可以看到我們採集到的電影資料評分主要集中在8.0-10.0之間,向兩極呈現階梯狀遞減,在此按照評分劃分區間:8.25-8.55為口碑極差,8.55-8.85為口碑較差,8.85-9.15為口碑尚可,9.15-9.45為口碑較好,9.45-9.75為口碑極佳。

圖9評分比例

再將評分資料細化到每年進行觀察,可以發現,30年內電影數量與年度電影均分呈反相關,年度均分整體呈現下降趨勢,2016年電影均分最低,電影數量最多,進一步做出每個年份下不同評級等級的電影資料佔比,可以發現,近年來,評分在[2.0,6.0)的電影資料佔比有著明顯提升,評分在[6.0,7.0)的資料佔比不變,評分在[7.0,10.0)的資料佔比減少,可能原因有:1.倖存者偏差,1990-2000年的劣質作品少有人關注,資料儲存困難,豆瓣資料庫僅採集到了相對而言較為優質的作品。2.近年來有較多的低質量影視作品,拉低了均分。

圖10豆瓣電影排名和評分人數

評分人數越多,往往排名越高。圖中顏色越深表示評分越低。我們發現排名靠後的評分人數少,評分低。排名靠前的評分人數多,評分越靠前。豆瓣電影可以說是中國最大的電影分享與評論社群,匯聚了數以千萬熱愛電影的人,2012年月度覆蓋使用者超過一億。觀眾可以在這個平臺上對電影進行打分,對電影做出相關評價。如今豆瓣評分的高低儼然已經成為衡量一部電影是否“可看”的重要因素,無論是在網路購票或是在網路平臺上搜索電影,其評分結果都會顯示在顯眼的位置,許多觀眾會根據評分結果選擇是否點選瞭解或觀看這部影片,點選率與評分結果成正比關係。

4 豆瓣文字資料

本文中,豆瓣文字資料分兩類,1類是劇情簡介、影片型別(標籤),1類是熱門影評。每一個電影都會有這樣的文字資料,當我們獲取到電影介紹的網址時,就比如說《肖申克的救贖》(https://movie.douban.com/subject/1292052/),劇情簡介如下圖;

圖11

相應的原始碼:<span class="short"><span class="all hidden">一場謀殺案使銀行家安迪(蒂姆•羅賓斯TimRobbins飾)蒙冤入獄,謀殺妻子及其情人的指控將囚禁他終生。在肖申克監獄的首次現身就讓監獄“大哥”瑞德(摩根•弗里曼MorganFreeman飾)對他另眼相看。瑞德幫助他搞到一把石錘和一幅女明星海報,兩人漸成患難之交。很快,安迪在監獄裡大顯其才,擔當監獄圖書管理員,並利用自己的金融知識幫助監獄官避稅,引起了典獄長的注意,被招致麾下幫助典獄長洗黑錢。偶然一次,他得知一名新入獄的小偷能夠作證幫他洗脫謀殺罪。燃起一絲希望的安迪找到了典獄長,希望他能幫自己翻案。陰險偽善的獄長假裝答應安迪,背後卻派人殺死小偷,讓他唯一能合法出獄的希望泯滅。沮喪的安迪並沒有絕望,在一個電閃雷鳴的風雨夜,一場暗藏幾十年的越獄計劃讓他自我救贖,重獲自由!老朋友瑞德在他的鼓舞和幫助下,也勇敢地奔向自由。

<br>本片獲得1995年奧斯卡10項提名,以及金球獎、土星獎等多項提名</span>

熱門影評在標籤link-report,如下圖:

圖12

當我們用for迴圈使用requests+bs4爬取如上資訊。

圖13

4.1對熱門影評的探索分析

表1

排名

電影

導演

型別

國家

標籤

1

肖申克的救贖

弗蘭克·德拉邦特

劇情,犯罪

美國

經典,勵志,信念,自由,人性,人生,美國,希望

2

霸王別姬

陳凱歌

劇情,愛情,同性

中國

經典,人性,文藝,愛情,人生,文革,劇情,同志

3

阿甘正傳

羅伯特·澤米吉斯

劇情,愛情

美國

勵志,經典,人生,成長,美國,信念,劇情,人性

1)肖申克的救贖

圖14

該電影主要講述了銀行家安迪被冤枉殺了他的妻子和其情人,身陷囹圄,一名小偷因盜竊入獄,知道安迪妻子和她情人的死亡真相,獄長不願幫他翻案。安迪知道真相後,決定透過自己的救贖去獲得自由,最後成功逃出監獄。影片中涵蓋全片的主題是“希望”,全片透過監獄這一強制剝奪自由、高度強調紀律的特殊背景來展現作為個體的人對“時間流逝、環境改造”的恐懼。影片的結局有《基督山伯爵》式的復仇宣洩。《肖申克的救贖》是一部不可多得的優秀勵志型影片。我個人把它作為保留影片的原因就是因為它的深遠主題。它給人一種無形的力量,它讓我知道人的一生中所應該擁有的最寶貴的東西。從而珍惜你現在還擁有它的機會。

2)霸王別姬

圖15

主演:張國榮(霸王,被稱為‘哥哥’)、程蝶衣(虞姬),導演:陳凱歌。這是一部讓觀眾震撼感動的經典華語歷史電影,講述的是霸王項羽和虞姬的感情故事。

3)阿甘正傳

圖16

阿甘和珍妮是青梅竹馬的好朋友,阿甘喜歡珍妮。兩個人在成年後走向不同的道路,阿甘天生智商低,做事耿直專一,畢業後服兵役去了,珍妮叛逆喜歡冒險,到處流浪。經過生活中各種磨難,阿甘保持著本心,一直深愛著珍妮,並且傻人有傻福,事業一直在走上坡。珍妮在生活中陷入迷茫,失去方向,曾想過自殺。阿甘一直沒有放棄珍妮,珍妮最終想明白了,放棄放蕩的生活,回到阿甘的身邊。

4.2常用標籤分析

圖17

下表是PMI最高的前15組標籤:

表2

1

默片

卓別林

6.965784285

2

清新

美食

6.965784285

3

情感

旅行

6.965784285

4

英雄

諾蘭

5.965784285

5

回憶

國產

5.965784285

6

種族

非洲

5.965784285

7

自然

清新/美食

5.965784285

8

大片

紐西蘭

5.795859283

9

張國榮

梁朝偉

5.64385619

10

生活

清新/美食

5.64385619

11

信念

鋼琴

5.380821784

12

文革

姜文

5.380821784

13

災難

大片

5.380821784

14

溫暖

環保

5.380821784

15

推理

法律

5.380821784

本節用KMeans進行聚類,k-中心點(k-medoids)聚類不將所在類物件的平均值作為中心點。中心點物件是資料集中的一個實際物件,而k-均值聚類中的類中心物件是透過求所在類各物件均值而獲得的虛擬物件。對中小資料集有效,不宜用於大型資料集的聚類。構建詞袋模型後生成文件詞矩陣cv_fit,對它進行聚類;然後對聚類結果畫散點圖,如下圖所示。

圖18

4.3分類模型與預測電影類別

k-最近鄰分類演算法(kNN)是一種“由鄰居來確定類別”的分類演算法,該演算法屬於一種基於例項匹配的演算法。本節將用分類或有監督機器學習方法(Knn演算法)來分類文件,預測《送你一朵小紅花》的所屬類別,預測出它屬於劇情,準確率0.7572,召回率100%。

過程:

1.對訓練資料進行文字規範化處理(jieba分詞)

2.使用CountVectorizer類構建詞袋模型,從資料(豆瓣Top250的劇情簡介)中提取特徵或屬性,對於每個資料點,我們將擁有特徵集(劇情簡介的文件詞矩陣DTM)和對應的型別(電影是否屬於‘劇情’的邏輯值(1,0))。

3.演算法從訓練資料中學習每個分類的不同模式。學習完成後,我們得到一個訓練好的模型KNN。

學習步驟:計算距離:給定測試物件,計算它與訓練集中的每個物件的距離。尋找鄰居:圈定距離最近的k個訓練物件,作為測試物件的近鄰。決定類別:根據這k個近鄰歸屬的主要類別,對測試物件分類。簡單投票方法:少數服從多數,近鄰中那個類別的點最多就分為該類。

3. 未來將測試資料樣本的特徵(《送你一朵小紅花》的劇情簡介)送入模型KNN,模型就可以預測它是否屬於‘劇情’。

4. 製作混淆矩陣,評價分類模型。過程:訓練,從訓練集中統計兩類機率∶各類標記的文件數量和各詞項在各類中出現的頻次。分類∶計算類標記的先驗機率和類條件機率。

概念公式:

召回率(Recall) =系統檢索到的相關檔案 / 系統所有相關的檔案總數

準確率(Precision) =系統檢索到的相關檔案 / 系統所有檢索到的檔案總數

F1=2PR/(P+R)

KNN演算法預測的混淆矩陣圖示表示如下:

圖19

準確率=184/(184+59)=75.72%

召回率=184/(184+0)=100%

5 結 論

本文透過探究豆瓣電影Top250各項指標,對其榜單內的資料進行分析,得到以下結論。

電影藝術是隨著時代而轉變的,大部分觀影者更加接受於此時相近年代的電影,21世紀第一個十年內的電影是好評最多的時期。電影製作方可以選擇10年前到20年前區間內的影片重製推出,用口碑吸引觀影者。觀影者也可以選擇這期間的電影在休息時觀看。電影藝術會隨著時代的變化而變化,如今的觀影者會更加接受現代的電影藝術。 2、導演是一部影片好壞的關鍵因素之一,一個好的導演可以成就一部電影。電影製作方在選擇導演時可以選擇榜上作品多的導演。觀影者可以選擇克里斯托弗·諾蘭和宮崎駿兩位導演的影片觀看。導演對於一部影片的影響巨大,可以說好的導演能決定一部電影的成功與否。 3、好的電影一般出自好的電影氛圍,製作國家可以對影片造成影響。好評電影中,美國電影占到近一半。電影製作方或可借鑑學習美國電影的流行趨勢,觀影者可以選擇美國電影來觀看。電影的主題、創作風格和視聽語言,相對應的電影中演員的表演和後期製作中也可以看出導演的地位和價值。 4、電影型別是觀影者選擇是否觀看此影片的重要因素之一。“劇情”、“愛情”、“喜劇”是受眾主流,電影製作方可以將其作為口碑的保守選擇,觀影者可以選擇這些型別觀看。一部電影的型別也將難以用一種或兩種型別概括,多型別同時存在的電影將越來越多,其結構和手法將會更加成熟,單部影片型別多樣化將成為電影型別發展的必然趨勢。

9
最新評論
  • 購得日本70萬平方公尺小島的中國女子是誰?
  • 陳情令:魏嬰從來撩人不自知,其實綿綿也是深愛魏無羨的