產品資料建模-Python資料探勘和視覺化分析

首頁>技術>python訓練營2020-05-03 15:43

產品資料建模-Python資料探勘和視覺化分析

我們都試圖在認識別人，了解他人，從而更好的完成社會化大分工。但是可能往往忽略了客觀的認識自己.

我也經常在思索自己是個怎麼樣的人？

研究主題：用資料刻畫人物

那既然要用資料說話，那我們就鎖定下資料來源.

研究方法：

使用自然語言處理NLP，獲取自己的跟貼習慣和跟貼時間分佈, 從而了解自己喜好和休閒時間分佈

涉及技術：

Python, 資料爬蟲，,matplotlib, NLP中文分析，BDP視覺化等.

1. 獲取資料

我的某易APP截圖

據某易統計，我閱讀歷史總量為 15409篇文章

注：原本打算使用某易閱讀歷史作為資料來源，但是由於偷懶沒找到閱讀歷史記錄的某易介面，所以只好使用跟貼資料來在分析和研究,

1.1 某易新聞客戶端跟貼介面

介面地址：

https://comment.api.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/users/0/myComments?offset=0&limit=10&_=1523443919597&callback=jsonp2

欄位說明：

offset為資料起始點

limit 為返回資料量

a2869674571f77b5a0867c3d71db5856 為使用者唯一ID ,某易Mapping ID

介面返回：

介面資料如下圖：

Python爬蟲實現方法再次不具體展開.

2. 自然語言處理NLP

引用到的庫：

jieba / jieba-fast -中文分詞

Counter計數器

wordcloud -詞雲庫

matplotlib等

安裝庫檔案

安裝詞雲庫

那我們開始：分析邏輯如下：

python讀取文字獲取評論資料jieba分詞，去掉停詞和無關字元(地址，頭像，標點符號等)Counter統計詞頻matlotlib，wordcloud輸出詞雲時間分佈合併與分類合併

3. 分析結論

3.2 頻道關注度

根據頻道分佈可以判斷出，興趣點為: 科技 > 社會 > 財經

頻道佔比

3.3 興趣詞雲

興趣詞詞雲

我們可以根據詞性分類，劃分出不同的詞類

公司關注度：谷歌 > 百度 > 騰訊 > 蘋果 > 聯想 > 京東 >微軟 > 某頭 > 大疆 > 滴滴

手機品牌關注度：蘋果 > 華為 > 魅族 > 小米

時政關注度：中國 > 日本 > 美國 > 國內 > 國外 > 泰國

黑科技關注度：比特幣 > 人工智慧 > 區塊鏈 > 樣本(機器學習) > 無人機

羞羞關注度：美女 > 妹子 > 杜蕾斯 > 男女

人物關注度：馬化騰 > 孫正義 > 張繼科

外匯關注度：美金 > 日元 >泰銖

小結：我還是一位關注時政財經，愛好學習科技的不宅男青年！

時間成本：

1. 某易新聞APP介面查詢 - 3分鐘

2. Python爬蟲資料編寫和爬取資料 - 10分鐘

3. Python文字分析 - 26分鐘

4. BDP視覺化 - 35分鐘(有個坑，和Tableua詞雲不同的地方是詞頻規則，又加工了下資料)

5. 文章編寫: 30 分鐘.(反覆修改了幾次, 還會在修改)

附錄：

1. BDP分享連結：https://me.bdp.cn/api/su/TP3X6FYN

101

Python

視覺化技術

∨ 小狐狸的Vue成長日記01-導讀

劇多