網頁正文提取演算法

在 Styletrip 專案內,我們會抓所有景點資料的相關部落格,然後利用部落格的內容做近一步的分析,所以我們需要有能力把抓到的部落格網頁取出正文內容出來。

擷取選取區域_004
紅色框起來的地方就是網頁正文

網頁正文,就是我們平常所看部落格文章最主要的內容區塊,而網頁正文提取的演算法有基於不同的方法來做提取,各方法的準確度都不同,也會因為網頁結構不同而有不一樣的結果。

這邊我是採用 VIPS: Vision based Page Segmentation Algorithm, 這個演算法是基於視覺結構來做判斷,也就是可以想成網頁正文通常都是那個網頁裡面看起來最大的區域。

這邊提供最核心、主要的實做方式:

Demo

擷取選取區域_00432343

 

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

Blog at WordPress.com.

Up ↑