我們都試圖在認識別人,了解他人,從而更好的完成社會化大分工。但是可能往往忽略了客觀的認識自己.
我也經常在思索自己是個怎麼樣的人?
研究主題:用資料刻畫人物
那既然要用資料說話,那我們就鎖定下資料來源.
研究方法:使用自然語言處理NLP,獲取自己的跟貼習慣和跟貼時間分佈, 從而了解自己喜好和休閒時間分佈
涉及技術:
Python, 資料爬蟲,,matplotlib, NLP中文分析,BDP視覺化等.
1. 獲取資料
我的某易APP截圖
據某易統計,我閱讀歷史總量為 15409篇文章
注:原本打算使用某易閱讀歷史作為資料來源,但是由於偷懶沒找到閱讀歷史記錄的某易介面,所以只好使用跟貼資料來在分析和研究,
1.1 某易新聞客戶端跟貼介面
介面地址:
https://comment.api.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/users/0/myComments?offset=0&limit=10&_=1523443919597&callback=jsonp2
欄位說明:
offset為資料起始點
limit 為返回資料量
a2869674571f77b5a0867c3d71db5856 為使用者唯一ID ,某易Mapping ID
介面返回:
介面資料如下圖:
Python爬蟲實現方法再次不具體展開.
2. 自然語言處理NLP
引用到的庫:
jieba / jieba-fast -中文分詞
Counter計數器
wordcloud -詞雲庫
matplotlib等
安裝庫檔案
安裝詞雲庫
那我們開始:分析邏輯如下:
python讀取文字獲取評論資料jieba分詞,去掉停詞和無關字元(地址,頭像,標點符號等)Counter統計詞頻matlotlib,wordcloud輸出詞雲 時間分佈合併與分類合併3. 分析結論
3.2 頻道關注度
根據頻道分佈可以判斷出,興趣點為: 科技 > 社會 > 財經
頻道佔比
3.3 興趣詞雲
興趣詞詞雲
我們可以根據詞性分類,劃分出不同的詞類
公司關注度:谷歌 > 百度 > 騰訊 > 蘋果 > 聯想 > 京東 >微軟 > 某頭 > 大疆 > 滴滴
手機品牌關注度:蘋果 > 華為 > 魅族 > 小米
時政關注度: 中國 > 日本 > 美國 > 國內 > 國外 > 泰國
黑科技關注度:比特幣 > 人工智慧 > 區塊鏈 > 樣本(機器學習) > 無人機
羞羞關注度 : 美女 > 妹子 > 杜蕾斯 > 男女
人物關注度: 馬化騰 > 孫正義 > 張繼科
外匯關注度: 美金 > 日元 >泰銖
小結: 我還是一位關注時政財經,愛好學習科技的不宅男青年!
時間成本:1. 某易新聞APP介面查詢 - 3分鐘
2. Python爬蟲資料編寫和爬取資料 - 10分鐘
3. Python文字分析 - 26分鐘
4. BDP視覺化 - 35分鐘(有個坑,和Tableua詞雲不同的地方是詞頻規則,又加工了下資料)
5. 文章編寫: 30 分鐘.(反覆修改了幾次, 還會在修改)
附錄:
1. BDP分享連結:https://me.bdp.cn/api/su/TP3X6FYN