首頁>技術>

我們都試圖在認識別人,了解他人,從而更好的完成社會化大分工。但是可能往往忽略了客觀的認識自己.

我也經常在思索自己是個怎麼樣的人?

研究主題:用資料刻畫人物

那既然要用資料說話,那我們就鎖定下資料來源.

研究方法:

使用自然語言處理NLP,獲取自己的跟貼習慣和跟貼時間分佈, 從而了解自己喜好和休閒時間分佈

涉及技術:

Python, 資料爬蟲,,matplotlib, NLP中文分析,BDP視覺化等.

1. 獲取資料

我的某易APP截圖

據某易統計,我閱讀歷史總量為 15409篇文章

注:原本打算使用某易閱讀歷史作為資料來源,但是由於偷懶沒找到閱讀歷史記錄的某易介面,所以只好使用跟貼資料來在分析和研究,

1.1 某易新聞客戶端跟貼介面

介面地址:

https://comment.api.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/users/0/myComments?offset=0&limit=10&_=1523443919597&callback=jsonp2

欄位說明:

offset為資料起始點

limit 為返回資料量

a2869674571f77b5a0867c3d71db5856 為使用者唯一ID ,某易Mapping ID

介面返回:

介面資料如下圖:

Python爬蟲實現方法再次不具體展開.

2. 自然語言處理NLP

引用到的庫:

jieba / jieba-fast -中文分詞

Counter計數器

wordcloud -詞雲庫

matplotlib等

安裝庫檔案

安裝詞雲庫

那我們開始:分析邏輯如下:

python讀取文字獲取評論資料jieba分詞,去掉停詞和無關字元(地址,頭像,標點符號等)Counter統計詞頻matlotlib,wordcloud輸出詞雲 時間分佈合併與分類合併

3. 分析結論

3.2 頻道關注度

根據頻道分佈可以判斷出,興趣點為: 科技 > 社會 > 財經

頻道佔比

3.3 興趣詞雲

興趣詞詞雲

我們可以根據詞性分類,劃分出不同的詞類

公司關注度:谷歌 > 百度 > 騰訊 > 蘋果 > 聯想 > 京東 >微軟 > 某頭 > 大疆 > 滴滴

手機品牌關注度:蘋果 > 華為 > 魅族 > 小米

時政關注度: 中國 > 日本 > 美國 > 國內 > 國外 > 泰國

黑科技關注度:比特幣 > 人工智慧 > 區塊鏈 > 樣本(機器學習) > 無人機

羞羞關注度 : 美女 > 妹子 > 杜蕾斯 > 男女

人物關注度: 馬化騰 > 孫正義 > 張繼科

外匯關注度: 美金 > 日元 >泰銖

小結: 我還是一位關注時政財經,愛好學習科技的不宅男青年!

時間成本:

1. 某易新聞APP介面查詢 - 3分鐘

2. Python爬蟲資料編寫和爬取資料 - 10分鐘

3. Python文字分析 - 26分鐘

4. BDP視覺化 - 35分鐘(有個坑,和Tableua詞雲不同的地方是詞頻規則,又加工了下資料)

5. 文章編寫: 30 分鐘.(反覆修改了幾次, 還會在修改)

附錄:

1. BDP分享連結:https://me.bdp.cn/api/su/TP3X6FYN

最新評論
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • 小狐狸的Vue成長日記01-導讀