回覆列表
  • 1 # 邪符御

    首先,如果要用程式抓取網頁自動儲存到本地,就要會用socket程式設計,或者學習使用libcurl庫,這些都比學html語言有用的多,不做網頁抓取的時候,這些知識依然非常有用。而且,不同的網頁,內容不同,規律可能也不同。比如你給的那個例子網址,我右鍵查看了原始碼,裡面就根本沒有所謂的<td>、<tr>標籤,即它的表格不是透過這些標籤來實現的。所以,讓你去看這些標籤,就是南轅北轍了。

    網頁分析,說到底還是字串處理和分析。所以,你如果真的想學,不如好好學一下正則表示式和字串處理相關的函式,以及函式庫,比如tidy庫等。正則表示式是用來匹配一類字串的,方便找規律,也方便處理,你稍微學習一點點就知道有多麼的強大,多麼的有用了。而且,正則表示式跟語言無關,什麼語言都能用得到,學這個不虧的。

    標準C庫中沒有正則表示式相關的函式,一般來說C中使用兩種正則表示式庫,一為POSIX C正則庫,二為perl正則庫PCRE。相比較而言PCRE要強大些,POSIX C正則庫就足夠使用。

    其次,進行網頁分析的時候,對演算法也要有一定的瞭解:

    (1)基於網路拓撲的分析演算法:基於網頁之間的連結,透過已知的網頁或資料,來對與其有直接或間接連結關係的物件(可以是網頁或網站等)作出評價的演算法。又分為網頁粒度、網站粒度和網頁塊粒度這三種。

    (2)基於網頁內容的網頁分析演算法:基於網頁內容的分析演算法指的是利用網頁內容(文字、資料等資源)特徵進行的網頁評價。網頁的內容從原來的以超文字為主,發展到後來動態頁面(或稱為hidden web)資料為主,後者的資料量約為直接可見頁面資料(PIW,publiclyIndexable Web)的400~500倍。

  • 中秋節和大豐收的關聯?
  • 玩物也不喪志?創造盛世的太平天子怎麼被稱為蟋蟀皇帝?