首頁>技術>

以下文章源於蘿蔔大雜燴

資料簡單處理

資料資料紐約時報,由於正常情況下我們無法訪問該網站,所以資料的提取過程就不展示了,總之我們得到了一份如下資料,由於某些空值和重複值,我們進行簡單的處理紐約時報資料

import pandas as pddf = pd.read_csv('trump.csv')df.drop_duplicates(inplace=True)df.fillna('unkown',inplace=True)df['date']=pd.to_datetime(df['date'])df['year'] = df['date'].dt.year

我們最終得到的資料如下

資料分析

被攻擊最多

首先我們看下,是誰被川神攻擊的最多

from pyecharts.charts import Bar,Map,Line,Page,Scatterfrom pyecharts import options as optsfrom pyecharts.globals import SymbolType,ThemeTypefrom pyecharts.charts import Gridresult = df['target'].value_counts()[:10].sort_values()x_data = result.index.tolist()y_data = result.values.tolist()b = (Bar()     .add_xaxis(x_data)     .add_yaxis('',y_data)     .set_global_opts(title_opts = opts.TitleOpts(title='被侮辱次數前十'))     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position='right'))     .reversal_axis())grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))grid.render_notebook()

可以看到,the-media是被攻擊最多的,當然了,這有可能是媒體的統稱,畢竟川神的攻擊,可都是無差異攻擊啊

而高居第二的就是民主dang,嗯,攻擊zhengdi是提升自己的最好方式!

當然榜單裡也少不了Joe Biden呀,絕對的“生死”對頭

媒體情況

作為被diss最多的第三方,我們來看看media的情況不同年份,川神diss的情況

result = df[df['target'] == 'the-media']result1 = result.groupby('year').year.count()x_data = result1.index.tolist()y_data = result1.values.tolist()b = (    Bar(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))    .add_xaxis(xaxis_data=x_data)    .add_yaxis(        '',        y_data,        label_opts=opts.LabelOpts(is_show=True),    )    .set_global_opts(title_opts = opts.TitleOpts(title='侮辱the-media推特數量的變化')))b.render_notebook()

可以看到2019年和2020年是川神瘋狂diss the media的時候,真的是懟天懟地啊尤其是2019年,竟然有361次,這是每天懟一次也不為過啊

再來看看懟媒體的時候,都用了某種侮辱

from wordcloud import WordCloud,STOPWORDSimport matplotlib.pyplot as pltfrom imageio import imread# result = df[df['target'] == 'the-media']media_text = " ".join(df[df.target=="the-media"].insult)mask = imread('1.jpg')wordcloud = WordCloud(background_color = 'white',mask=mask,width=1200,height=1200).generate(media_text)plt.figure(figsize=(16,8))plt.imshow(wordcloud)plt.axis("off")plt.show()

再來看看懟Joe Biden的情況

每年侮辱推特數量

接下來是每年侮辱性推特的釋出數量

result1 = df.groupby('year').year.count()x_data = result1.index.tolist()y_data = result1.values.tolist()b = (    Bar(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))    .add_xaxis(xaxis_data=x_data)    .add_yaxis(        '',        y_data,        label_opts=opts.LabelOpts(is_show=True),    )    .set_global_opts(title_opts = opts.TitleOpts(title='侮辱推特數量的變化')))b.render_notebook()

真的是勤奮啊,一年發了上千的欺詐性推特,尤其是近兩年時間,都發了兩千多推特,真的是推特治國呀!

每天發推特數量

發推特數量日期前前十

數量最多的一天,發了45條,真是瘋狂啊,這是把推特當成筆記來用了嗎?

再來看下發推特數量前三中,分別都是diss某種

2020-10-12

Joe Biden絕對是被針對的第一人,一天罵了14次,哈哈哈

2020-10-07

2020-09-02

此處,求Joe Biden的心理陰影面積

最後我們再看幾個詞雲,看看川神的癖好

diss目標詞雲

diss用語詞雲

diss Joe Biden用語詞雲

11
最新評論
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • 教你解決無法安裝 Python 第三方庫的問題