筆記本如何做網頁分析？

首頁>Club>2021-04-15 10:15

筆記本如何做網頁分析？

回覆列表

1 # 邪符御

首先，如果要用程式抓取網頁自動儲存到本地，就要會用socket程式設計，或者學習使用libcurl庫，這些都比學html語言有用的多，不做網頁抓取的時候，這些知識依然非常有用。而且，不同的網頁，內容不同，規律可能也不同。比如你給的那個例子網址，我右鍵查看了原始碼，裡面就根本沒有所謂的<td>、<tr>標籤，即它的表格不是透過這些標籤來實現的。所以，讓你去看這些標籤，就是南轅北轍了。
網頁分析，說到底還是字串處理和分析。所以，你如果真的想學，不如好好學一下正則表示式和字串處理相關的函式，以及函式庫，比如tidy庫等。正則表示式是用來匹配一類字串的，方便找規律，也方便處理，你稍微學習一點點就知道有多麼的強大，多麼的有用了。而且，正則表示式跟語言無關，什麼語言都能用得到，學這個不虧的。

標準C庫中沒有正則表示式相關的函式，一般來說C中使用兩種正則表示式庫，一為POSIX C正則庫，二為perl正則庫PCRE。相比較而言PCRE要強大些，POSIX C正則庫就足夠使用。

其次，進行網頁分析的時候，對演算法也要有一定的瞭解：

（1）基於網路拓撲的分析演算法：基於網頁之間的連結，透過已知的網頁或資料，來對與其有直接或間接連結關係的物件（可以是網頁或網站等）作出評價的演算法。又分為網頁粒度、網站粒度和網頁塊粒度這三種。
（2）基於網頁內容的網頁分析演算法：基於網頁內容的分析演算法指的是利用網頁內容（文字、資料等資源）特徵進行的網頁評價。網頁的內容從原來的以超文字為主，發展到後來動態頁面（或稱為hidden web）資料為主，後者的資料量約為直接可見頁面資料（PIW，publiclyIndexable Web）的400~500倍。

∧ 中秋節和大豐收的關聯？

∨ 玩物也不喪志？創造盛世的太平天子怎麼被稱為蟋蟀皇帝？

熱門排行

劇多

筆記本如何做網頁分析？