Blog Post Extraction using Text-to-Tag Ratio and Maximum Scoring Subsequence

(1)

Blog Post Extraction using Text-to-Tag Ratio and Maximum Scoring Subsequence

陳陳吳志銘柏志文斌

985202018 995202017 995202021

國立中央大學

資訊工程學系

國立中央大學

資訊工程學系

國立中央大學

資訊工程學系

[email protected] [email protected] w

[email protected] w

摘要

近年來

，部落格為主的相關研究蓬勃發展

，例如

：意見

檢索

、情緒分析

。因此

，

部落格主文擷取即是所需的前處理程序。由於

部來網落格網頁自於不同站，

呈，現的樣式風格多變無法簡單地

透。過正規表示式擷取主要文章

再 HTML 者，

網頁中包含許多和主

(2)

題不相關的資訊

，例如

：廣告

、導覽列

… 等

，使得擷取部落格主文是一項相當複

雜的工作。因此，我們先計算網頁中每一行的

Text-to-Tag Ratio ， Maximum 再利用

Scoring Subsequence

演 F- 算法擷取部落格主文，實驗結果顯示

Measure 可 89% 。達到此系統可應用於

PDA

、手機

… 等螢幕較小

的裝置，以及自然語言處理、文件自動摘要...

等其他研

究領域，並提供後續相關研究之參考與應用。

關 Content Extraction 、鍵字：

Blog Post Extraction 、

1. 緒 論

部 Web 2.0 落格是

的主要網路服務之一

，隨著

(3)

部落格蓬勃發展

，不僅只有純文字格式

，

還可結合照片、音樂、影像等多元模式呈現，

部落格的走向、定位、性格，不同於一般

BBS

、討論區

，其所記錄的生活札記

、小道

消息

，到政治議

題、專業知識，完全取決於作者的自我論點，

並可與讀者討論和互動。

近幾年

，部落格的相

關研究受到越來越多的關注，例如：意見檢索

(opinion retrieval) 、 (sentiment 情緒分析

analysis) 、 (spam blog post 垃圾文章偵測

detection) 等

，並且也有針對部落格文章摘要與

(4)

留言評論的相關應用和

論文發表。由於上述提及的研究議題，皆需從

大量不同的部落格網頁中抓取作者撰寫的文章進行分析

，

因此擷取部落格主文便成為一項重要的工作。

部

落格網頁不同於一般網頁

，文章內容可能是圖文並茂

，有時使用者會因個人喜好加

入影

(5)

音資訊

，亦

或只有簡短的句子和少量的詞彙。除此之外，

不同網站的

部落格網頁擺放主文的位置不固定，並且文章附

近經常包含許多各式各

樣的雜訊，例如：廣告、導覽列、選單列表...

等

。正因如此

，如何擷取部落格

主文

，困難複雜且相當是一項

具挑戰性的工作。有

使用正規表示式擷取網頁中的主要文章是最直接的方法

，但需針對特定網站撰寫

(6)

特定規則

，然而部落格網頁風格多元

，單一規則無法適用於多個不同網頁

。除此之外

，

部落格網頁的版面架構其更動頻率相當高

，可能會造成原本的擷取

程式產生錯誤，需經常更新維護或重新撰寫，

是一個

效率

低較的法。落且信任度差方

目

前大多

數於擷取網頁基內容的演算法，是

DOM tree

的

架割，著利用構將網頁分成許多區塊接

HTML 標籤

(7)

語法的特性或

是器機

學的法擷取主要文章，。然習方而建構

DOM tree

並運用此架構所花費的時間複雜度相當高

，無法快速的處理大量網頁

。另外

，機器學習的方法需要標記訓練資料

，若

以人工標記則相當的耗時耗力。因此，我們將

Weninger 等人提

出的 Text-to-Tag Ratio

計算方法做更進一

步的修改，使其能適用於部落格網頁，並結合 Maximum Scoring Subsequence 演

算

法擷取部落格網頁的主要文章。實驗結果顯示

F-Measure 可達到

89% ，是一個有

效

率的法。方

(8)

此

篇告報

架

構如，相關研究，下第二節介紹

第

三節描

述擷

取法部落格主文的方；第四節介紹

Adaptive Text-to-Tag Ratio 演 Naïve 算法及

Bayes 分

類型述模； K-means 第五節描

分

群和 Maximum Scoring Subsequence

演算法

第六節為實驗的環境建置

；第七節為實

驗結果

；

最後結介紹未總這篇論文及來研究。

2. 相關研究

本

章網頁內容擷取節介 (Content 紹

Extraction) 的技術。相關研究與

一般說來

，許多之

前的研究會將網頁分割成許多區塊

，接著計算區塊的重要程度

，進而擷取網頁主

要內文，並且實驗資

料

集大多針對新聞網頁。

Cai 等人提

出 Vision-based Page

Segment (VIPS)[1]演算法，不同於傳統基於

(9)

DOM tree 架

構的切割方式

，利用特定的視覺線索規則將網頁切割成許多區塊

，但需要設定參數

並能

精才出確標記主文可擷取網頁的主要文章。

Cao 等 [2] 人

設計一個兩階段的方

法擷取部落格網頁的文章和評論。首先，基於 DOM

樹的架構

，計算

每一個節點之有效內容機率，並透過網頁中的 CSS

語法獲得每一個節點所呈現的視覺

(10)

寬度

，藉此找出主要文章的範圍

。接著尋找最

小資訊量的位置作為文章和留言的區分點。

Pasternack 與 Roth 透 Naïve Bayes 過

分

類，計算器每一個 HTML

標籤

、詞彙與標點符號

包含於主要內文的機

率此機率值轉換成，並將 -

0.5 至 0.5 之

間，後利用的分數最 Maximum

Scoring Subsequence 演

算法

，求得唯一且最長的子序列

，進而擷取網頁中的主要文章

。實驗資料集主

要新聞網頁，且需是針對

事標訓練資。先記料

Weninger 等人提

出

藉由計算 HTML

檔中每 Text-to-Tag Ratio 案一行的

並

轉成型接換二維模，著透過 K-means

分群

(11)

演算法擷取主要文章

。實驗資料集也是針對新聞網頁

，優

點於不需記料在標訓練資，且實驗結果顯示

F-Measure平可達 93.9%。均到

3. 部落格主文擷取

當搜尋部落格時，使用者以關鍵字

搜尋引擎即傳回其索

引資料庫中相關部落格網頁的連結

，此時需要針對部落格網頁進行主文的擷取以

提更供後續相關研究

進

一步的分析。

首先

，需先判斷搜尋引擎呈現的相關連結是否為

(12)

部落格網頁

。接著

，擷取部落格作者撰寫的

主要文章。

最多的濾除。後，將餘標籤及雜訊

3.1. 辨

識部落格網頁

如何辨識是

否為部落格網頁可當作是一個分類問題，2009 年

張楊萍華嘉惠教授和的論文當中，參考 Cao

等 Elgersma 和 Rijke 人以及

為了

區非而出特徵，利用分部落格與部落格提的

LibSVM 建

立部落格分類器，實驗結果顯示部落格與非

F-measure 可達

90.7%

，因此

我們假設此分類器存在的狀況下

，後續的實驗資料集是從各式

各蒐集而樣的來的部落格網頁。部落格網站

3.2. 擷取主要文章

我嘗試們將

部落格網

頁別分以HTML

原始碼

當中

的每一行和每一個 token

這式兩種方

做切

割，token 可能為一個

HTML 標、籤

詞

彙或是標符號點。

接

著，計算每一行的 Text-to-Tag Ratio

和 Naïve Bayes 計 token 利用算每一個

包含於主要文章的機

率別，再分實作 K-

means 分

群與 Maximum Scoring

Subsequence 演

(13)

算法擷取部落格網頁的主要

文章，

流程如圖一 Text- 所示。實驗結果顯示，

to-Tag Ratio 和 Maximum Scoring

Subsequence 演最佳的算法是

組合， F-

Measure可 89% 。達到

圖1. 系 流統

程圖

4. Computational Method

Weninger 等人提

出的 Text-to-Tag

Ratio 計算方法可以有效

率的擷取新聞網頁中的主要內容

。然而

，部落格網頁不同於新聞網頁

，文章內容可能是

(14)

圖文並茂

，有時使用者會因個人喜好加入影音資訊

，亦或只有簡短的句子和少量的詞彙

。我們將此方法實

作於擷取部落格網頁的主要文章，其結果顯示

F-Measure 只有

80%

。因此

，我們根據部落格網頁的特性與架構做適當的修改

，使

(15)

其能廣泛適

用各各於擷取式樣部落格網頁的主要文章。

4.1. Adaptive Text-to-Tag Ratio

簡單來

說， Text-to-Tag Ratio

即 HTML 是計算

標籤個數與非標籤的字元長度之比例

。在部落格網頁

中，主要文章的呈現

方各各只考慮法式樣，若

HTML 標籤個數與

非標籤的字元長度之比例

，會遺失

許多重要的資訊，例如：圖片、影音、表格...

等非文

字和特殊格式的內容，並間接影響到上下文的 Text-to-Tag Ratio 。

我根 HTML 們據

標籤語法特性做

適當的修改，<p>、 <br> 、 <blockquote>

此類型的標籤經常

(16)

現於部落格網頁的

主要文章，因此我們

將視其為內容相關的標籤

(Content Tag)

，在計算的過程中給予較高的權重

。

另，針對類型的資訊，我們在外圖片和影音

計 Text-to-Tag Ratio 時算

考慮其呈現寬度和周遭

非標籤的字元長度

。關於網頁中表格類型的內容

，我們藉由

計算表格中的非標籤的字元長度當作每一行的 Text-to-Tag Ratio 。Adaptive Text-to-Tag

Ratio 演 2 所算法如圖示。

(17)

圖2. Algorithm for computing Adaptive Text-to- Tag Ratio

我們以一個

典

型的部落格網頁作為計算

Adaptive Text-to-Tag Ratio 的

範所示。圖四例，三為此網頁每一行的如圖

Adaptive Text-to-Tag

Ratio ，長條圖表示。以

圖3. 部落格網頁

0 100 200 300 400 500 600 700

Line Number

TTR Array

圖4. AdaptiveText-to-Tag Ratio line by line from the blog page example

4.2. 模

糊處理化

對 Adaptive Text-to-Tag Ratio 做

模糊化 Input: D ← Blog page

Output: T ← Text-to-Tag Ratio

Define α ← text length threshold β ← image width threshold γ ← video width threshold for all i ← 1 to |D| do

x ← nonTagChars (Di) y ← tags (Di)

if (y > 0)

if Content Tag exists then if (y – Content Tag) > 0 then Ti ← x / (y – Content Tag) else

if (x > 0) then Ti ← x else Ti ← max (Ti-1, Ti-2) else Ti ← x / y

if image width > α then

if x > β then Ti ← image width + x / y else Ti ← (image width + x) / y if video width > γ then Ti ← video width if Table Tag exists then Ti ← table length else

if (x > 0) then Ti ← x else Ti ← 0

end for

(18)

處理

，可避免在擷取主要文章時遺失和文章內容有關的資訊

，例如

：

標段換落題、日期、落行、較短的句子或段 ..

等公。

式

如下： ^Tⁱ^'⁼

∑

k=i−r

i+r TTRArray_k

2r +1 ，

將

每一行的 Adaptive Text-to-Tag Ratio

與前後相

鄰的兩個值

相，即是模糊化後的結果。加計算其平均值

圖五為經過模糊化處理的結果

，和圖三相

比更明顯的表現出，主要文章的可能位置。

0 50 100 150 200 250 300

Line Number

TTR Array

圖 5. Smoothed Adaptive Text-to-Tag Ratio line by line of the blog page example

4.3. Naïve Bayes Classifier

我採們

用 Pasternack 與 Roth

提

出兩種特徵建的立 Naïve Bayes

訓模練

型，即 trigram 和 most-recent-

unclosed-tag ，預用以

測每一個 token

率。

(19)

假一個 U = (u1, u2,..., un) 設序列

表 n 個 token ，示有

則表代第 i 個 token 的

trigram 特徵為<ui, ui+1, ui+2> 。most-recent-

unclosed-tag 特的計堆疊 (stack) 徵算是利用

形式的資料結構

，將起始標籤放入堆疊

，如果比對

到相對應的結束標籤則將此起始標籤輸出，第i 個 token 的 most-recent-unclosed-tag 特

徵即是

目堆疊頂端的若試料前位標籤。測資中的於

trigram 特徵未出現於訓練資料，則將此token

率值為設

P(t|in )=P(t|out)=0. 5

。

5. Extraction Method 5.1. Algorithm

本 Maximum Scoring 節將介紹

Subsequence 的

運方的。假設一個序列作式及目 S = (s1,

s2,..., sn) ， si 其中

為實數

，可當作

是一個分數。此演算法之目的即是找出在序列 S

當

中，分數加總最大的一個連續子序列，令其為

T = (sa, sa+1,..., sb) ， 1 ≤ a ≤ b ≤ 其中

n 。六演算法如圖

所示

，

時間為複雜度 O

(n) 。

(20)

圖6. Algorithm for finding the maximum scoring subsequence

5.2. Applying Maximum Scoring Subsequence

我將們

模糊化後的每一行 Text-to-Tag

Ratio 相加計

算平均其值

，

再藉減去此由平均值將每一行的

Text-to-Tag Ratio

轉成一數換個分

，

進而透過 Maximum Scoring

Subsequence

此。演算法擷取部落格網頁的主要文章

另，我採外們也

用 Pasternack與 Roth

提

出方由由的法，藉將每 token 經 Naïve 一個

Bayes 預

測率值，以減去包含於主要文章的機

0.5 的

方轉換成一個分數透過式，進而

Maximum Scoring Subsequence

此。演算法擷取部落格網頁的主要文章

5.3. Applying K-means Clustering

我採們

用出方 Weninger 等的法，人提

先

將糊化後的每一行模 Text-to-Tag

Ratio ，轉換成二維模型的資料。公式如下：

G_i=

∑

j=0 ω T_{i+ j}^'

ω −T_i^' 。Ti’ 表示模糊化後的

Text-to-Tag Ratio ， ω 於設實驗中

為

3 。計算

出來的值代表每一行 Text-to-Tag

Ratio 增

加減少的最或趨勢。後，將 Gi

取

絕值對，即 ^G=|G_i^'|

作第二的資料為維度

。

另，每 token 經外一個

由 Naïve Bayes

預測包含於主要文章的機率

，

也依照上述方法轉換成二維模型的資料，此時

Ti’ 為 token 每一個

率值。

我 K-means 們利用

演算 Given: S = (s1, s2,...,sn)

Output: maxSS start = 0

sum = 0 maxSS = (-∞) for i = 1 to n do sum = sum + si

if sum > value (maxSS) then maxSS = (sstart, sstart+1,...,si) if sum < 0 then

start = i + 1 sum = 0 end for

(21)

法對二維資料做分群

，將中心最接近原點的群視為非

主要文章，剩下的群皆視為包含於主要文章，K

於設實驗中

為 3 。

6. Experimental Setup 6.1. Data Set

我 Blogspot 、 Technorati 和們從

Yahoo 這三個部落格網站

，蒐集十

個主題的部落格網頁，前五個主題抓取限定在 Blogspot.com

的訓練資部落格網頁作為

料，並針對

Blogspot.com 部 Wrapper 落格網站撰寫

自動標記答案

；後五個主題則抓取上述三個部落格網站的

網頁做為測試資料，並從每一個主題隨機挑選 25

篇網頁

(22)

，

以方人工的

式記所示。標答案，如表一和表二

表1. 訓資練

料

Topic #pag e applebee 261

batman 582 beige book 512 iphone 522 obama 539

表2. 測

試料資

Topic #page #select page

bmw 351 25

phone fake 450 25 red sox 358 25

science

friday 433 25 south park 426 25

6.2. Preprocessing

以 HTML 原始碼

當中的

每一行

切

割部落格網頁之前，我們先利用

HTML Tidy 修

正 HTML

檔中的標籤錯誤並自動格式案

化刪除，再

JavaScript 、 CSS 語

法和開發人員撰寫的程式碼

註解

，也將空白行移除

，

並讓不常使用或是自行定義的標籤名稱轉換成

<UNKNOWN> ，

接找 “ 著到 comment”

這個字在網頁中最後出現的位置

，將其後面的內容刪

除。上述之前處理程序，其用意皆是避免計算 Text-to-Tag Ratio

(23)

時受到雜訊干

擾

而致生導實驗結果產誤差。

至

於以 token

的方式切割部落格網頁

，其前處理程序同上，只需再經過Stemming 的

步變還成驟將詞型及時態化原原型，提升

Naïve Bayes

訓練模型的效率，本篇論文於實作上採用Porter

Stemming 演算法。

6.3. Performance Metrics

我 Precision 、 Recall 和 F- 們以

Measure

三計算方種

式來評量

實公：驗的結果。式如下

P=|W_P∩W_L|

|W_P| , R=|W_P∩W_L|

|W_L| , F₁=2 PR P+R

WP 表集示擷取結果的字

， WL

表標示

記。答案的字集

7. Results 7.1. Baseline

我們分

別

將 Weninger

等人提

出二

維型模 Text-to-Tag Ratio 搭 K- 配

means 分

群演算 Pasternack 與 Roth 法，和

提

出以Naïve Bayes 搭 Maximum Scoring 配

Subsequence演算法實作於部落格網頁，由於

K-means 分

群演

算法為非監督式

，不需要準備訓練資料

，因此實驗

資料集為訓練資料加上隨機挑選的測試資料，

結三果如表

所示

。

表 3. Baseline

Method Precision Recall F-Measure 2DTR

+ K- means

81.49% 84.79% 80.42%

Naïve Bayes + MSS

90.46% 86.83% 87.26%

我將Weninger 等們可以發現人提

出

的

方法 F-Measure 只 80% 有

左

右，並不適用於部落格網頁。原因在於，計算

Text-to-Tag Ratio 時只慮 HTML 單純考