Main Text Extraction from Web Documents

(1)

VYSOK ´

E U ˇ

CEN´I TECHNICK ´

E V BRN ˇ

E

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA ˇ

CN´ICH TECHNOLOGI´I

´

USTAV INFORMA ˇ

CN´ICH SYST ´

EM ˚

U

FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS

EXTRAKCE HLAVN´IHO TEXTU Z WEBOV ´

YCH

DOKUMENT ˚

U

BAKAL ´

A ˇ

RSK ´

A PR ´

ACE

BACHELOR’S THESIS

AUTOR PR ´

ACE

DANIEL MR ´

OZEK

AUTHOR

(2)

VYSOK ´

E U ˇ

CEN´I TECHNICK ´

E V BRN ˇ

E

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA ˇ

CN´ICH TECHNOLOGI´I

´

USTAV INFORMA ˇ

CN´ICH SYST ´

EM ˚

U

FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS

EXTRAKCE HLAVN´IHO TEXTU Z WEBOV ´

YCH

DOKUMENT ˚

U

MAIN TEXT EXTRACTION FROM WEB DOCUMENTS

BAKAL ´

A ˇ

RSK ´

A PR ´

ACE

BACHELOR’S THESIS

AUTOR PR ´

ACE

DANIEL MR ´

OZEK

AUTHOR

VEDOUC´I PR ´

ACE

Ing. VLADIM´IR BART´IK, Ph.D.,

SUPERVISOR

(3)

Abstrakt

Tato práce se zabývá extrakc´ı hlavn´ıho textu z webových dokument˚u ve formátu HTML. Jsou zde popsány jiˇz pouˇzité metody a jejich rozdˇelen´ı. Praktická ˇcást se pak zabývá návrhem algoritmu pro detekci hlavn´ıho textu v HTML stránkách zaloˇzeném na analýze pˇredevˇs´ım textových rys˚u stránky v kombinaci s vlastnostmi zaloˇzených na pozici v doku-mentu. Výsledná klasifikace je ˇreˇsena pomoc´ı v´ıcevrstvé perceptonové s´ıtˇe. Je zde rovnˇeˇz popsána implementace navrhnutého algoritmu, postup pˇri testován´ı a prezentace zjiˇstˇených výsledk˚u.

Abstract

This thesis deals with the main text extraction from the web documents in HTML format. It describes some methods that are already used and their separation. The goal of the practical part is to propose an algorithm for main text detection in HTML pages using primarily text features in combination with position features. Block classification is solved by multilayer perceptron. It also describes implementation of the proposed algorithm, the testing procedure and presentation of the obtained results.

Kl´ıˇ

cov´

a slova

extrakce, dolován´ı, hlavn´ı obsah, textové rysy, HTML, MLP, umˇelá neuronová s´ıt’

Keywords

extraction, mining, main text, text features, HTML, MLP, artificial neural network

Citace

Daniel Mr´ozek: Extrakce hlavn´ıho textu z webov´ych

(4)

Extrakce hlavn´ıho textu z webov´

ych

dokument˚

u

Prohl´

aˇ

sen´ı

Prohlaˇsuji, ˇze jsem tuto bakal´aˇrskou pr´aci vypracoval samostatnˇe pod veden´ım pana . . .

. . . . Daniel Mr´ozek 31. ˇcervence 2014

Podˇ

ekov´

an´ı

Dˇekuji vedouc´ımu práce Ing. Vladim´ırovi Bart´ıkovi, Ph.D. za trpˇelivost a vstˇr´ıcnost. Dˇekuji také svým bl´ızkým a pˇrátel˚um za podporu.

c

Daniel Mr´ozek, 2014.

Tato práce vznikla jako ˇskoln´ı d´ılo na Vysokém uˇcen´ı technickém v Brnˇe, Fakultˇe in-formaˇcn´ıch technologi´ı. Práce je chránˇena autorským zákonem a jej´ı uˇzit´ı bez udˇelen´ı oprávnˇen´ı autorem je nezákonné, s výjimkou zákonem definovaných pˇr´ıpad˚u.

(5)

Obsah

1 Uvod´ 3

2 Existuj´ıc´ı n´astroje, pˇr´ıstupy a neuronov´e s´ıtˇe 4

2.1 Dolov´an´ı textu . . . 4

2.2 Rozdˇelen´ı metod . . . 4

2.3 Metody zaloˇzen´e na vizu´aln´ıch vlastnostech dokumentu . . . 5

2.4 Metody pracuj´ıc´ı na ´urovn´ı DOM . . . 7

2.5 Umˇel´a neuronov´a s´ıt’ . . . 10

3 N´avrh algoritmu 12 3.1 Pˇredzpracov´an´ı dokumentu . . . 12

3.2 Anal´yza dokumentu . . . 13

3.3 Klasifikace blok˚u . . . 14

3.4 Následná analýza . . . 15

3.5 Rozhran´ı programu . . . 16

4 Implementace 17 4.1 Znaˇckovac´ı jazyky pro tvorbu webov´ych dokument˚u . . . 17

4.2 Programovac´ı jazyk Ruby . . . 17

4.3 Pouˇzit´e gemy . . . 18

4.4 Kostra programu . . . 19

4.5 Z´akladn´ı modul . . . 19

4.6 Konfigurace a HTTP klient . . . 20

4.7 Vstup programu . . . 20

4.8 Pˇredzpracov´an´ı dokumentu . . . 21

4.9 Kolekce blok˚u . . . 21

4.10 Z´akladn´ı blok . . . 21

4.11 Vlastnosti bloku . . . 22

4.12 Implementace anal´yzy dokumentu . . . 22

4.13 Následná analýza . . . 24

4.14 Hlavn´ı tˇr´ıda . . . 24

4.15 Pˇr´ıkazov´y ˇr´adek. . . 25

4.16 Webov´e rozhran´ı . . . 25

5 Testov´an´ı a vyhodnocen´ı 26 5.1 Tr´enovac´ı mnoˇzina . . . 26

5.2 Experimenty s nastaven´ım neuronov´e s´ıtˇe . . . 26

(6)

5.4 Porovn´an´ı s existuj´ıc´ımi algoritmy . . . 31

6 Z´avˇer 36

(7)

Kapitola 1

´

Uvod

Na internetu se nacház´ı nepˇreberné mnoˇzstv´ı informac´ı, vˇetˇsinou ve formˇe HTML stránek. Ty vˇsak neobsahuj´ı pouze uˇziteˇcný obsah, ale rovnˇeˇz r˚uzné navigaˇcn´ı prvky, odkazy, re-klamy apod. Pro efektivn´ı analýzu takovýchto dokument˚u je potˇreba znát hlavn´ı obsah.

ˇ

Clovˇek jej od neuˇziteˇcných informac´ı jednoduˇse rozliˇs´ı, poˇc´ıtaˇc ne. Proto je potˇreba m´ıt k dispozici nástroj, program, který je schopen plnˇe samostatnˇe rozliˇsit co je hlavn´ı obsah a co je generický obsah. Z´ıskán´ı pouze hlavn´ıho obsahu má pak nesporné výhody pˇri analýze dokument˚u, hledán´ı duplicit a pˇrináˇs´ı menˇs´ı datovou nároˇcnost.

C´ılem této práce je navrhnout program pro extrakci hlavn´ıho textu z webových doku-ment˚u a implementovat jej. Souˇcasná ˇreˇsen´ı nejsou ˇcasto plnˇe vyhovuj´ıc´ı, zejména z d˚uvodu jejich zamˇeˇren´ı na konkrétn´ı obor nebo jazyk. Proto se v této práci budeme snaˇzit navrh-nout program, který bude univerzáln´ı a nebude jazykovˇe ani oborovˇe specifický. Program bude vyuˇz´ıvat pˇr´ıstupy z jiˇz známých ˇreˇsen´ı a vzájemnˇe je kombinovat, d´ıky ˇcemuˇz by mˇel dosahovat podobných, v ideáln´ım pˇr´ıpadˇe lepˇs´ıch výsledk˚u a nemˇel by být v d˚usledku zamˇeˇren pouze na jednu oblast. Program m˚uˇze být pak pouˇzit jako souˇcást vˇetˇs´ıch systému pˇredevˇs´ım v oblasti dolován´ı dat a analýzy dokument˚u.

Práce je rozdˇelena následuj´ıc´ım zp˚usobem. V kapitole2budou probrány r˚uzné postupy vyuˇz´ıvané pˇri detekci hlavn´ıho obsahu, pˇriˇcemˇz bude kladen d˚uraz na metody zaloˇzené na DOM (objektový model dokumentu). Rovnˇeˇz zde bude uvedena nezbytná teorie pro pochopen´ı následné implementace. Kapitola3obsahuje návrh systému pro extrakci hlavn´ıho obsahu a porovnává jej s dalˇs´ımi, jiˇz implementovanými systémy. V4. kapitole bude popsána jiˇz samotná implementace systému v jazyce Ruby. Kapitola 5 popisuje pr˚ubˇeh testován´ı a porovnán´ı s nˇekterými jiˇz existuj´ıc´ımi ˇreˇsen´ımi. V 6. kapitole, tedy závˇeru, se nalézá ohlédnut´ı za výsledky a jsou popsány dalˇs´ı moˇznosti rozˇs´ıˇren´ı.

(8)

Kapitola 2

Existuj´ıc´ı n´

astroje, pˇ

r´ıstupy

a neuronov´

e s´ıtˇ

e

Tato kapitola pojednává o studi´ıch souvisej´ıc´ıch s touto prac´ı. Zahrnuje rovnˇeˇz rozdˇelen´ı metod na základˇe toho na jaké úrovn´ı pˇristupuj´ı k dokumentu.

2.1 Dolov´

an´ı textu

Extrakce hlavn´ıho textu spadá do oblasti tak zvaného dolován´ı textu.

Dolován´ı textu lze definovat jako intenzivn´ı proces s vyuˇzit´ım znalost´ı kdy uˇzivatel interaguje s kolekc´ı dokument˚u za pouˇzit´ı sady nástroj˚u pro analýzu. Analogicky k dolován´ı dat, pˇri dolován´ı textu se snaˇz´ıme z´ıskat uˇziteˇcné informace z datových zdroj˚u pomoc´ı zkoumán´ı a identifikace známých vzor˚u v nestrukturovaných datech.[5]

2.2 Rozdˇ

elen´ı metod

Metody pro rozpoznáván´ı hlavn´ıho textu lze rozdˇelit nˇekolika zp˚usoby. Kohlschütter et al. [6] dˇel´ı metody na ty, které analyzuj´ı dokument na základˇe vizuáln´ıch vlastnost´ı doku-mentu a metody, které provádˇej´ı analýzu na úrovni DOM.

Dále je moˇzno rozdˇelit metody podle toho, jakým zp˚usobem funguje daný algoritmus, a to bud’ algoritmy funguj´ıc´ı na principu heuristik bez strojového uˇcen´ı a algoritmy, které vyuˇz´ıvaj´ı strojové uˇcen´ı.

2.2.1 Principy bez strojov´eho uˇcen´ı

Tyto algoritmy pracuj´ı na základˇe vˇetˇsinou jednoduché heuristiky, popˇr´ıpadˇe nˇekolika heu-ristik. Pro správnou funkci nevyˇzaduj´ı ˇzádné vstupn´ı znalosti ani trénovac´ı mnoˇzinu. Z valné vˇetˇsiny je výsledek zpracován´ı pomoc´ı heuristiky porovnán v˚uˇci urˇcitému prahu a na základˇe výsledku je rozhodnuto o tom, do které mnoˇziny daný blok náleˇz´ı.

Aˇckoliv tyto metody patˇr´ı k jednoduˇsˇs´ım metodám, pˇri správném nastaven´ı a po ˇrádném otestován´ı m˚uˇzou dosahovat velmi dobrých výsledk˚u. D´ıky jednoduchosti je lze ˇradit vˇetˇ si-nou také mezi velmi efektivn´ıˇreˇsen´ı a ˇcasovˇe nenároˇcné. Jejich hlavn´ı nevýhodou je zamˇeˇren´ı na urˇcitou oblast, nepˇresné výsledky v pˇr´ıpadˇe nestandardn´ıch dokument˚u a sloˇzité, ˇcasto nemoˇzné zmˇeny v pˇr´ıpadˇe, ˇze se chceme zamˇeˇrit na jinou oblast. Metody, patˇr´ıc´ı do této skupiny budou popsány n´ıˇze.

(9)

2.2.2 Principy vyuˇz´ıvaj´ıc´ı strojov´e uˇcen´ı

Metody spadaj´ıc´ı do této kategorie vyˇzaduj´ı urˇcité vstupn´ı znalosti resp. trénovac´ı mnoˇzinu pro správnou funkcionalitu. Na rozd´ıl od metod z pˇredchoz´ı kapitoly, které nevyˇzaduj´ı pˇred pouˇzit´ım ˇzádné dalˇs´ı nastaven´ı ani testován´ı, u tˇechto metod je to nezbytné.

Pro hlavn´ı analýzu je v tomto pˇr´ıpadˇe vyuˇzito r˚uzných klasifikátor˚u. Takovýmto klasi-fikátorem m˚uˇze být Bayesovský klasifikátor, neuronová s´ıt’ a dalˇs´ı. Pˇred pouˇzit´ım mus´ı být klasifikátor správnˇe nastaven, ˇcehoˇz je doc´ıleno d˚ukladným testován´ım a experimentován´ım s jednotlivými nastaven´ımi. Tento postup je ˇcasto velmi zdlouhavý a nároˇcný na zdroje, coˇz tyto metody ˇrad´ı k metodám sloˇzitˇejˇs´ım. Aby mohly být provedeny experimenty, je potˇreba m´ıt k dispozici relevantn´ı a dostateˇcnˇe obsáhlou mnoˇzinu vstupn´ıch resp. trénovac´ıch dat.

Výhodou tˇechto algoritm˚u je, ˇze pouhou zmˇenou nastaven´ı klasifikátoru, popˇr. zmˇenou trénovac´ı mnoˇziny, m˚uˇzeme pokrýt jinou oblast. Tyto metody si ˇcasto dokáˇz´ı velmi dobˇre poradit i s nestandardn´ımi a ˇspatnˇe strukturovanými dokumenty. Hlavn´ı nevýhodou je jejich sloˇzitost a nutnost z´ıskan´ı trénovac´ı mnoˇziny dat a následné trénován´ı klasifikátoru.

Na obrázku n´ıˇze (2.1) je zobrazen princip fungován´ı metod zaloˇzených na strojovém uˇcen´ı. Pˇreruˇsované ˇcáry charakterizuj´ı ˇcást, kdy je provádˇeno strojové uˇcen´ı, plné ˇcáry pak zobrazuj´ı pr˚ubˇeh, kdy je klasifikátor pouˇz´ıván jiˇz v praxi pro analýzu dokumentu.

Obr´azek 2.1: Metody se strojov´ym uˇcen´ım

2.3 Metody zaloˇ

zen´

e na vizu´

aln´ıch vlastnostech dokumentu

Metody zaloˇzené na vizuáln´ıch vlastnostech dokumentu vˇetˇsinou dˇel´ı dokument do menˇs´ıch logických celk˚u na základˇe r˚uzných mezer a oddˇelovaˇc˚u a jednotlivé celky poté analyzuj´ı.

Výhodou tˇechto metod je, ˇze pˇri pouˇzit´ı relativnˇe jednoduchého algoritmu je moˇzno z´ıskat kvalitn´ı a dostateˇcnˇe pˇresné výsledky. Hlavn´ı nevýhoda spoˇc´ıvá v mnoˇzstv´ı infor-mac´ı, které je potˇreba znát. Kromˇe HTML mus´ı být k dispozici rovnˇeˇz informace definuj´ıc´ı vzhled stránek, napˇr´ıklad CSS (kaskádové styly). Tyto informace znaˇcnˇe navyˇsuj´ı objem dat nutný k analýze. Aby stránka mohla být analyzována na základˇe vzhledu, je vˇetˇsinou nutné dokument, vˇcetnˇe pˇripojených styl˚u, interpretovat. Tato operace je ˇcasto dosti výpoˇcetnˇe nároˇcná a pomalá.

Nejpalˇcivˇejˇs´ım problémem u algoritm˚u tohoto typu je, jak danou stránku pohodlnˇe a v rámci moˇznost´ı efektivnˇe renderovat. K tomuto úˇcelu existuj´ı r˚uzné nástroje. Jedn´ım z nich je napˇr´ıklad CSSBox1 vyv´ıjený na Fakultˇe informaˇcn´ıch technologi´ı VUT v Brnˇe2. Program je napsán v jazyce Java a poskytuje pˇrehledné a jednoduché aplikaˇcn´ı rozhran´ı

1_{http://cssbox.sourceforge.net/} 2

(10)

pro vykreslován´ı a práci s webovými dokumenty. Existuj´ı i dalˇs´ı nástroje, napˇr. Selenium3

a dalˇs´ı.

2.3.1 Metody bez strojov´eho uˇcen´ı

Cai et al. [3] rozdˇeluje webový dokument na jakési základn´ı objekty. Jeden nebo v´ıce ob-jekt˚u pak tvoˇr´ı logické celky - bloky. Uzly v modelu zaloˇzeném na vizuáln´ıch vlastnos-tech nemusej´ı nutnˇe odpov´ıdat uzl˚um v objektovém modelu dokumentu. To je zp˚usobeno t´ım, ˇze sémantika dokumentu nen´ı popsána pouze pomoc´ı jazyka HTML, ale rovnˇeˇz po-moc´ı kaskádových styl˚u. Cai et al. [3] popisuje webový dokument jako blok, skládaj´ıc´ı se z koneˇcné mnoˇziny nepˇrekrývaj´ıc´ıch se podˇr´ızených blok˚u, které maj´ı opˇet vlastnosti rodiˇcovského bloku. Tyto bloky jsou oddˇeleny koneˇcnou mnoˇzinou jak vertikáln´ıch tak ho-rizontáln´ıch oddˇelovaˇc˚u. Kaˇzdý blok má nav´ıc informaci o vztaz´ıch mezi kaˇzdými dvˇema bloky, ze kterých se skládá. Kaˇzdému oddˇelovaˇci je rovnˇeˇz pˇriˇrazena váha. Algoritmus zkoumá oddˇelovaˇce od nejmenˇs´ı váhy po nejvˇetˇs´ı a bloky mezi tˇemito oddˇelovaˇci spojuje a tvoˇr´ı bloky nové. Takto pokraˇcuje dokud nenaraz´ı na oddˇelovaˇc s nejvyˇsˇs´ı váhou. Pˇri vy-tvoˇren´ı nového bloku je kontrolována správná zrnitost. Pokud blok neodpov´ıdá poˇzadavk˚um, vrac´ı se algoritmus o krok zpˇet aby vytvoˇril vnitˇrn´ı obsah bloku. Výstupem algoritmu je dokument rozdˇelený podle jeho vizuáln´ıch vlastnost´ı na jednotlivé bloky.

Burget [2] ve své práci popisuje algoritmus, který pracuje ve 4 kroc´ıch. Nejprve vykresl´ı dokument, který je poté rozdˇelen do blok˚u. V této kl´ıˇcové fázi jsou urˇceny logické seg-menty, které mohou být uvaˇzovány jako samostatné. Následnˇe je urˇceno fináln´ı poˇrad´ı jed-notlivých celk˚u a je generován jednoduchý HTML kód. Pro vykreslen´ı stránky je vyuˇz´ıván jiˇz zmiˇnovaný nástroj CSSBox [?]. Výstupem prvn´ı fáze je strom blok˚u, kdy je blokem rozumˇen obdéln´ıkový útvar, který nen´ı skrytý. Ve fáz´ı segmentace jsou nalézány logické celky. Samotný proces sestává ze 3 fáz´ı. Detekce jednotvárných oblast´ı, kdy oblast tvoˇr´ı soused´ıc´ı bloky s konzistentn´ım stylem. Dalˇs´ı fázi je detekce nadpis˚u na základˇe vlast-nosti fontu. Posledn´ı fázi tohoto kroku je detekce logických celk˚u, které se skládaj´ı z v´ıce blok˚u. Jako výchoz´ı bod se vyuˇz´ıvaj´ı detekované nadpisy. Výsledkem tohoto kroku je strom vizuáln´ıch oblast´ı a informac´ı o nich. Na rozd´ıl od HTML kódu je tato reprezentace mnohem bliˇzˇs´ı lidskému vn´ıman´ı dokumentu. V kroku následuj´ıc´ım se algoritmus snaˇz´ı pˇresunout d˚uleˇzité oblasti k zaˇcátk˚u dokumentu. Poˇrad´ı zbývaj´ıc´ıch ˇcásti se snaˇz´ı zachovat, aby nebyla naruˇsena konzistence obsahu. Na konec je vytvoˇren jednoduchý HTML kód skládaj´ıc´ı se v podstatˇe pouze z element˚u <div> pro kaˇzdý logický celek a pro textové bloky, kterým je rovnˇeˇz pˇriˇrazen odpov´ıdaj´ıc´ı styl. Experimentáln´ı výsledky ukazuj´ı, ˇze algoritmus funguje spolehlivˇe pro vˇetˇsinu testovaných stránek.

2.3.2 Metody se strojov´ym uˇcen´ım

Kunc a Burget [7] ve svém pˇr´ıspˇevku popisuj´ı zp˚usob klasifikace dokument˚u na základˇe jejich vizuáln´ıch rys˚u. V prvn´ım kroku provád´ı rekonstrukci výsledné podoby dokumentu. Tento krok vyˇzaduje kompletn´ı renderován´ı stránky, které m˚uˇze být dosti nároˇcné. Poté jsou pro kaˇzdou oblast ze z´ıskané hierarchické struktury urˇceny jejich významné vizuáln´ı rysy a na základˇe tˇech jsou oblasti spojovány do vˇetˇs´ıch celk˚u. Nakonec jsou pro kaˇzdý celek vypoˇc´ıtány r˚uzné vizuáln´ı atributy a na základˇe tˇech je provedena analýza. Zmiˇnovanými vlastnostmi jsou pr˚umˇerná velikost p´ısma, pˇrevaˇzuj´ıc´ı váha p´ısma, pˇrevaˇzuj´ıc´ı styl p´ısma (sklonˇené nebo normáln´ı), poˇcet oblast´ı v okol´ı, poˇcet znak˚u textu, poˇcet ˇc´ıslic, malých

3

(11)

a velkých p´ısmen abecedy a mezer v textu, svˇetelnost textu a pozad´ı, a nakonec kontrast. Na základˇe vypoˇctených atribut˚u je pak moˇzné detekovat napˇr´ıklad text ˇclánku, protoˇze jak je v práci popsáno, tento text je vˇetˇsinou vˇetˇs´ı neˇz je pr˚umˇerná velikost textu v dokumentu a obsahuje delˇs´ı, souvislý text. Pro klasifikaci byl vyuˇzit volnˇe dostupný nástroj Weka. i kdyˇz tato práce nesouvis´ı pˇr´ımo s extrakc´ı hlavn´ıho textu z dokumentu, lze vˇetˇsinu poznatk˚u a popisovaný postup vyuˇz´ıt i pˇri ˇreˇsen´ı tohoto problému.

Obrázek 2.2: Postup pˇri detekci hlavn´ıho obsahu na základˇe vizuáln´ıch vlastnost´ı

2.4 Metody pracuj´ıc´ı na ´

urovn´ı DOM

Tyto metody vyˇzaduj´ı pro analýzu pouze zdrojový kód dokumentu ve formátu HTML nebo XML resp. jejich objektový model dokumentu. Dalˇs´ı informace o stránce, jako jsou kaskádové styly nebo soubory se skripty, nejsou vyˇzadovány. Dokument je na základˇe r˚uzných vlastnost´ı textu, struktury a dalˇs´ıch ukazatel˚u analyzován a na základˇe tˇechto ukazatel˚u je detekován hlavn´ı obsah. Existuje v´ıce zp˚usob˚u jak tyto metody vyuˇz´ıt v praxi a jak je implementovat.

Pˇred nˇekolika lety, byla extrakce textu pomˇernˇe jednoduchá. Webové dokumenty ne-byly pˇr´ıliˇs komplexn´ı a struktura stránky byla tvoˇrena vˇetˇsinou pomoc´ı tabulky. Napˇr´ıklad McKeown et al. [8] popisuje zp˚usob jakým z´ıskávaj´ı hlavn´ı obsah pár slovy. Pokud vybraná buˇnka tabulky obsahuje po odstranˇen´ı znaˇcek a odkaz˚u v´ıce znak˚u neˇz je nastavený práh, je toto povaˇzováno za hlavn´ı obsah.

V dneˇsn´ı dobˇe je vˇsak situace jiná. Struktura HTML je sloˇzitˇejˇs´ı, tabulkové rozvrˇzen´ı je zˇr´ıdkakdy pouˇz´ıváno a neˇzádouc´ı prvky, jako je napˇr´ıklad reklama, se ˇcasto vyskytuj´ı i mezi textem.

(12)

2.4.1 Metody bez strojov´eho uˇcen´ı

Kohlschütter et al. [6] pˇredstavuje postup pro detekci generického obsahu, tud´ıˇz rozdˇelen´ı dokumentu na generický obsah a hlavn´ı text, zaloˇzený na základn´ıch vlastnostech textu. Nejprve je dokument rozdˇelen do atomických blok˚u a poté jsou pro kaˇzdý blok zjiˇstˇeny jeho vlastnosti. Bˇehem dˇelen´ı dokumentu na atomické bloky, je obsah nˇekterých znaˇcek pˇr´ımo odstraˇnován, jelikoˇz je dopˇredu jasné, ˇze tyto znaˇcky neobsahuj´ı hlavn´ı obsah. Jediné znaˇcky, které jsou v bloc´ıch ponechány jsou odkazy. Poté jsou bloky analyzovány pˇredevˇs´ım podle dvou vlastnost´ı, poˇctu slov a hustoty odkaz˚u. Výsledky ukazuj´ı, ˇze i pomoc´ı takto jednoduchého ˇreˇsen´ı lze dosahovat velmi pˇresných výsledk˚u. Algoritmus implementovaný na základˇe této studie nese název boilerpipe. V základn´ım extraktoru je pro analýzu vyuˇzit rozhodovac´ı strom, zaloˇzený ve výsledku pouze na hustotˇe odkaz˚u a poˇctu slov, jak pro aktuáln´ı blok, tak pro pˇredchoz´ı a následuj´ıc´ı. i pˇresto, ˇze pˇri implementaci bylo vyuˇzito nástroje Weka, ˇrad´ım tento algoritmus mezi metody bez strojového uˇcen´ı, jelikoˇz ve finále je pouˇzit hotový rozhodovac´ı strom. Nástroj Weka byl pouˇzit pouze pro zjiˇstˇen´ı ideáln´ıch prah˚u.

Vieira et al. [13] popisuje postup liˇs´ıc´ı se od pˇredchoz´ıch. Detekci a odstraˇnován´ı ge-nerického obsahu provád´ı na základˇe znalosti v´ıce podobných stránek. i kdyˇz se na prvn´ı pohled m˚uˇze zdát, ˇze toto ˇreˇsen´ı je neefektivn´ı, kv˚uli nutnosti stahován´ı v´ıce stránek, nen´ı tomu tak. Alespoˇn ne v pˇr´ıpadˇe, kdy je analyzováno v´ıce dokument˚u z jedné domény. V tomto pˇr´ıpadˇe je nevýhoda nutnosti v´ıce stránek eliminována, jelikoˇz bychom je museli tak ˇ

ci onak z´ıskat. z výsledku je vidˇet, ˇze tato metoda dosahuje velmi uspokojivých výsledk˚u a je aplikovatelná na témˇeˇr jakýkoliv dokument, nezávisle na oboru. Nutnost´ı je vˇsak m´ıt alespoˇn dva dokumenty se stejnou nebo alespoˇn podobnou strukturou.

Pomikálek a jeho jusText [10] vyuˇz´ıvá jednoduché heuristiky pro detekci. Vycház´ı z pˇredpoklad˚u, ˇze krátké bloky obsahuj´ıc´ı odkaz jsou témˇeˇr vˇzdy generickým obsahem a totéˇz tvrd´ı o bloc´ıch obsahuj´ıc´ıch velké mnoˇzstv´ı odkaz˚u. Dále tvrd´ı, ˇze dlouhé bloky obsahuj´ıc´ı gramatický text jsou vˇetˇsinou hlavn´ım obsahem, a naopak jiné dlouhé bloky jsou témˇeˇr vˇzdy generickým obsahem. Nakonec jeˇstˇe zavád´ı tvrzen´ı, které ˇr´ıká, ˇze bloky obsahuj´ıc´ı hlavn´ı text vˇetˇsinou tvoˇr´ı shluky, coˇz znamená, ˇze blok s generickým obsahem je ˇcasto obklopen jinými bloky s generickým obsahem a analogicky pro hlavn´ı obsah. Jeho algoritmus se skládá ze 3 hlavn´ıch ˇcásti. Postupnˇe jsou to preprocessing, bezkontextová analýza a kontextová analýza. V prvn´ı ˇcásti zbavuje dokument zbyteˇcných znaˇcek. Bˇehem bezkontextové analýzy rozdˇeluje jednotlivé bloky do následuj´ıc´ıch tˇr´ıd:

• ˇspatn´e - generick´y obsah

• dobr´e - hlavn´ı obsah

• krátké - nelze rozhodnout, pˇr´ıliˇs krátký blok

• témˇeˇr dobré - na pomez´ı mezi dobrými a krátkymi

Toto rozdˇelen´ı je provádˇeno pomoc´ı vyhodnocen´ı tˇr´ı vlastnost´ı, a to hustoty odkaz˚u, poˇctu stopslov a poˇctu slov v bloku. V posledn´ı fázi je za pomoc´ı kontextové analýzy rozhodnuto zda jednotlivé krátké a témˇeˇr dobré bloky jsou dobré popˇr. ˇspatné. Témˇeˇr dobré bloky soused´ıc´ı s alespoˇn jedné strany s dobrým blokem, je vyhodnocen taktéˇz jako dobrý. Krátké bloky soused´ıc´ı z obou stran s dobrými nebo témˇeˇr dobrými jsou oznaˇceny jako dobré, zbývaj´ıc´ı jako ˇspatné. Je d˚uleˇzité uvést, ˇze jako soused´ıc´ı bloky v této analýze ignoruj´ı bloky krátké. Zároveˇn pokud se posloupnost krátkých nebo témˇeˇr dobrých blok˚u objevuje na zaˇcátku nebo na konci dokumentu, jsou tyto bloky ihned oznaˇceny jako ˇspatné.

(13)

Evert [4] popisuje sv˚uj algoritmus pod jménem NCleaner. NCleaner má dvˇe základn´ı ´

urovnˇe zpracován´ı. Prvn´ı fáze má za úkol pˇripravit dokument na dalˇs´ı analýzu. Jsou bˇehem n´ı pomoc´ı regulárn´ıch výraz˚u odstraˇnovány neˇzádouc´ı znaˇcky vˇcetnˇe jejich obsahu (obrázky, komentáˇre a skripty), poté je dokument zkonvertován na ˇcistˇe textový. Dále jsou odmazány lehce detekovatelné prvky generického obsahu, napˇr. ty, které obsahuj´ı mnoho znak˚u |. Druhou fáz´ı je samotné jádro algoritmu, sestávaj´ıc´ı z dvou samostatných znakových n-gram [14] jazykových model˚u, jeden pro ”správný”a druhý pro ”ˇspatný”text. Tyto modely jsou pouˇzity na kaˇzdou ˇcást dokumentu a pokud model pro ˇspatný text vypoˇc´ıtá vˇetˇs´ı pravdˇepodobnost, je tato ˇcást povaˇzována za generický obsah a tud´ıˇz odstranˇena.

Z existuj´ıc´ıch n´astroj˚u jeˇstˇe zm´ın´ım Readability4_{. Tento n´}_{astroj byl ze zaˇ}_c´_atk˚_{u pouze}

jednoduchým algoritmem naprogramovaným v Javascriptu, postupnˇe byl vˇsak pˇretvoˇren na kompletn´ı platformu pro extrakci hlavn´ıho textu ˇclánku a usnadnˇen´ı ˇcten´ı. K extrakci vyuˇz´ıvá jednoduchých heuristik, kdy ohodnocuje bloky pozitivnˇe ˇci negativnˇe na základˇe r˚uzných textových vlastnost´ı a vlastnost´ı na úrovn´ı znaˇcek ˇci jejich atribut˚u. Výsledné skóre jednotlivých blok˚u jsou porovnány v˚uˇci urˇcitému prahu a na základˇe výsledku je rozhodnuto zda blok vyhovuje hlavn´ımu textu ˇci ne.

2.4.2 Metody se strojov´ym uˇcen´ım

Pasternack et al. [9] popisuje metodu zamˇeˇrenou na dokumenty se ˇclánky, která je schopna se vypoˇrádat i s dokumenty, které nejsou tvoˇrené pomoc´ı tabulek. Problém rozdˇeluje do dvou ˇcásti. Detekce zda stránka obsahuje ˇclánek a zjiˇstˇen´ı kde pˇresnˇe ˇclánek zaˇc´ıná a kde konˇc´ı. V ˇcásti druhé navrhuje odstranit ze ˇclánku reklamy a jiné neˇzádouc´ı prvky. Pro tento ´

ukon popisuje jednoduchou heuristiku, kter´a nejdˇr´ıve odstran´ı obsah uvnitˇr vˇsech znaˇcek

Schäfer [11] ve své práci popisuje algoritmus vyuˇz´ıvaj´ıc´ı MLP (Multilayer Perceptrons) coˇz je v´ıcevrstvá umˇelá neuronová s´ıt’. Pro klasifikaci vyuˇz´ıvá mnoho r˚uzných vlastnost´ı. Vlastnosti spojené se znaˇckami jako jsou napˇr. pomˇer znaˇcek v bloku a typ obaluj´ıc´ı znaˇcky (<article>,<div>apod.). Vlastnosti souvisej´ıc´ı s odkazy (poˇcet emailových adres v bloku), délka textu a jeho pozice v rámci dokumentu. Dále vyuˇz´ıvá vlastnosti na úrovn´ı jednot-livých znak˚u. Hodnot´ı pomˇer interpunkˇcn´ıch znamének, velkých p´ısmen, ˇc´ısel, znak˚u abe-cedy a koneˇcnˇe výskyt copyright znaku. Posledn´ı dvˇe vlastnosti, které vyuˇz´ıvá ke klasifi-kaci, jsou lingvistické (pr˚umˇerná délka vˇety, jejich poˇcet a posledn´ı znak vˇety) a vlastnosti týkaj´ıc´ı se celého dokumentu (typ dokumentu - doctypea proporce znaˇcek). Vˇsechny tyto vlastnosti jsou vyjádˇreny jako normalizované skóre v rozmez´ı od−1 resp. 0 po 1. Toto je

(14)

rozmez´ı hodnot nutné pro vstup MLP. Jako trénovac´ı algoritmus byl v tomto pˇr´ıpadˇe pouˇzit algoritmus RPROP. Trénovac´ı mnoˇzina sestávala z jednotlivých blok˚u, kdy ˇspatné bloky byly oznaˇceny hodnotou −0,1 a správné hodnotou 1. Experimentáln´ı výsledky ukazuj´ı, ˇze algoritmus funguje velmi dobˇre.

Spousta et al. [12] prezentuje ve své práci pˇr´ıstup zaloˇzený na CRF (Conditional ran-dom field). Je to statistická metoda ˇcasto vyuˇz´ıvaná pˇri rozpoznávan´ı vzor˚u a strojovém uˇcen´ı, a výstupem je strukturovaná predikce. Samotný proces extrakce sestává z nˇekolika krok˚u. Nejdˇr´ıve jsou dokumenty filtrovány na základˇe jednoduchého ngram klasifikátoru, a nevyhovuj´ıc´ı jsou zahozeny. Poté prob´ıhá standardizace dokument˚u a výstupem jsou validn´ı dokumenty, které jsou následnˇe vyˇciˇstˇeny od nepotˇrebných znaˇcek (skripty, styly, objekty atd.). Následnˇe prob´ıhá identifikace textových blok˚u, pro které jsou v následuj´ıc´ım kroku z´ıskány jejich vlastnosti. Pˇredposledn´ım krokem je uˇcen´ı klasifikátoru s uˇcitelem, kdy trénovac´ı mnoˇzina obsahuje bloky manuálnˇe oznaˇcené jako hlaviˇcka, text a ostatn´ı. Po nauˇcen´ı klasifikátoru je jiˇz moˇzno extrahovat hlavn´ı text, kdy jsou v dokumentu ponechány pouze bloky oznaˇcené jako hlaviˇcka nebo text a ostatn´ı jsou zahozeny. Vlastnostmi, na kterých je klasifikace zaloˇzena, jsou vlastnosti zaloˇzené na znaˇckách (typ bloku), vlastnosti zaloˇzené na obsahu (absolutn´ı a relativn´ı poˇcty slov, znak˚u, duplikát˚u apod.) a vlastnosti zaloˇzené na celém dokumentu (pozice, poˇcet slov, vˇet apod.).

2.5 Umˇ

el´

a neuronov´

a s´ıt’

Umˇelá neuronová s´ıt’ je systém, zaloˇzený na fungován´ı biologických neuronových s´ıt´ı. [1] S´ıt’ tvoˇr´ı vzájemnˇe propojené neurony tak, ˇze výstup neuronu je vstupem neuron˚u jiných. Kaˇzdá s´ıt’ mus´ı obsahovat vstupn´ı vrstvu, výstupn´ı a libovolný poˇcet vrstev skrytých.

Pomoc´ı neuronových s´ıt´ı lze ˇreˇsit mnoho r˚uzných problém˚u, zejména pak ty, které by byly ˇreˇsitelné velmi obt´ıˇznˇe pomoc´ı klasického lineárn´ıho programu, popˇr´ıpadˇe by nebyly ˇreˇsitelné v˚ubec. Mezi takovéto problémy patˇr´ı napˇr´ıklad rozpoznávan´ı obrazu nebo ˇreˇci. Dalˇs´ı výhodou je, ˇze v pˇr´ıpadˇe selhán´ı neuronu, s´ıt’ m˚uˇze bez problému pokraˇcovat d´ıky jej´ı paraleln´ı povaze. Umˇelá neuronová s´ıt’ je pomˇernˇe jednoduˇse implementovatelná a m˚uˇze být vyuˇzita ve vˇetˇsinˇe aplikac´ı. Mezi hlavn´ı nevýhody patˇr´ı nutnost neuronovou s´ıt’ nauˇcit. Jednak je tˇreba m´ıt k dispozici vhodnou a pomˇernˇe velkou mnoˇzinu trénovac´ıch dat a jednak je uˇcen´ı výpoˇcetnˇe nároˇcné.

Existuj´ı dva základn´ı modely pro uˇcen´ı umˇelé neuronové s´ıtˇe: uˇcen´ı s uˇcitelem a uˇcen´ı bez uˇcitele. V prvn´ım pˇr´ıpadˇe je s´ıti pˇredloˇzen vstup i poˇzadovaný výstup. S´ıt’ vˇzdy vy-hodnot´ı vstup a sv˚uj výstup porovná s poˇzadovaným. Pokud se výstup liˇs´ı, je provedena korekce vah popˇr. prah˚u neuron˚u a proces je opakován, dokud nedosáhneme námi stanovené minimáln´ı chyby. V pˇr´ıpadˇe uˇcen´ı bez uˇcitele nen´ı pˇredem znám výstup. Rozdˇelen´ı vzor˚u do skupin je ˇcistˇe v reˇzii neuronové s´ıtˇe.

Kaˇzdý jednotlivý neuron v s´ıti obsahuje aktivaˇcn´ı funkci. Tyto funkce mohou být binárn´ı nebo spojité, v závislosti na povaze neuronové s´ıtˇe. Aktivaˇcn´ı funkce urˇcuj´ı zda neuron bude na základˇe vstupu aktivován nebo z˚ustane v pasivn´ım módu. Nastaven´ı správných aktivaˇcn´ıch funkc´ı je stˇeˇzejn´ı pro z´ıskán´ı pˇresných výsledk˚u.

2.5.1 V´ıcevrstvá dopˇredná neuronová s´ıt’

V´ıcevrstvé dopˇredné s´ıtˇe odstraˇnuj´ı oproti jednovrstvým dopˇredným neuronovým s´ıt´ım (perceptron˚um) nˇekterá omezen´ı. Pro uˇcen´ı takovýchto s´ıti se vˇetˇsinou pouˇz´ıvá metoda

(15)

zpˇetného ˇs´ıˇren´ı (backpropagation) a jej´ı variace nebo také algoritmus Rprop (resilient bac-kpropagation). U obou tˇechto algoritm˚u se jedná o uˇcen´ı s uˇcitelem. Metoda zpˇetného ˇs´ıˇren´ı funguje ve tˇrech fáz´ıch, ˇs´ıˇren´ı signálu smˇerem dopˇredu, zpˇetné ˇs´ıˇren´ı chyby a v posledn´ı fázi jsou aktualizovány váhy neuron˚u.

V´ıcevrstvý perceptron je moˇzné pouˇz´ıt v mnoha oblastech a dosahuje velmi dobrých výsledk˚u, v pˇr´ıpadˇe, ˇze je pouˇzita kvalitn´ı mnoˇzina trénovac´ıch dat. z pˇredchoz´ıho tedy vyplývá, ˇze je vhodné jej pouˇz´ıt i pˇri extrakci hlavn´ıho textu z webových dokument˚u.

(16)

Kapitola 3

N´

avrh algoritmu

V této práci se zabývám extrakci hlavn´ıho textu z webových dokument˚u zaloˇzené na tex-tových rysech. Pro tento pˇr´ıstup jsem se rozhodl pˇredevˇs´ım proto, ˇze algoritmy zaloˇzené na této metodˇe dosahuj´ı velmi dobrých výsledk˚u pˇri zachován´ı efektivity i pˇri malé nároˇcnosti na výpoˇcetn´ı výkon. Na následuj´ıc´ıch ˇrádc´ıch bude postupnˇe popsán návrh tohoto algo-ritmu, od pˇredzpracován´ı p˚uvodn´ıho dokumentu, pˇres následnou analýzu aˇz po samotnou extrakci hlavn´ıho textu a vizualizaci výsledk˚u. Jádro programu, tedy samotná analýza, bude vyuˇz´ıvat umˇelou v´ıcevrstvou neuronovou s´ıt’. Na obrázku 3.1je zobrazen návrh programu a rozdˇelen´ı na jednotlivé ˇcásti a vstupy resp. výstupy jednotlivých ˇcást´ı.

Obrázek 3.1: Návrh programu - jednotlivé ˇcásti

3.1 Pˇ

redzpracov´

an´ı dokumentu

Aby mohl být webový dokument potaˇzmo HTML stránka dále analyzován a mohlo doj´ıt k extrakci hlavn´ıho textu, je tˇreba jej nejdˇr´ıve dostat do podoby, se kterou bude moci algoritmus dále pracovat. Pro tento úˇcel bude slouˇzit jakýsi preprocesor, jehoˇz vstupem bude webový dokument ve formátu HTML a výstupem bude posloupnost objekt˚u, které budeme nazývat základn´ımi bloky.

(17)

V prvn´ı fázi preprocesor dostane na vstupu HTML stránku, kterou pomoc´ı nˇekterého z dostupných syntaktických analyzátor˚u jazyka HTML pˇrevede na DOM. Poté z doku-mentu odstran´ı znaˇcky, o kterých v´ıme, ˇze urˇcitˇe nemohou obsahovat hlavn´ı obsah. Nejdˇr´ıve bude tedy odstranˇena celá znaˇcka <head>, pˇriˇcemˇz budou uloˇzené nˇekteré uˇziteˇcné infor-mace, které tato znaˇcka m˚uˇze obsahovat. Takovouto informaci m˚uˇze obsahovat napˇr´ıklad

<title>, kterou m˚uˇzeme vyuˇz´ıt pˇri následné analýze. Následnˇe se odstran´ı znaˇcky jako jsou<script>, <style>, <object> a dalˇs´ı s podobným sémantickým významem.

Posledn´ım úkonem v této ˇcásti je jiˇz pomˇernˇe zredukovaný DOM pˇrevést do vnitˇrn´ı reprezentace, tedy posloupnosti základn´ıch blok˚u, ve stejném poˇrad´ı, jako se nalézaj´ı v DOM. Bˇehem tohoto pˇrevodu budou jeˇstˇe z DOM odstranˇeny veˇskeré ˇrádkové znaˇcky (napˇr.

<span>,<strong>) a budou nahrazeny pouze jejich obsahem. Urˇcité znaˇcky, jako napˇr´ıklad odkazy, budou poˇc´ıtány a pˇriˇrazovány jako vlastnosti základn´ıch blok˚u a pozdˇeji vyuˇzity pro analýzu. Základn´ım blokem tedy budou ve výsledku blokové znaˇcky obsahuj´ıc´ı text. Základn´ım blokem je vˇzdy blokový HTML element, který neobsahuje ˇzádné dalˇs´ı blokové elementy. Výjimku tvoˇr´ı elementy, které obsahuj´ı jak samotný text, tak blokové znaˇcky. V tomto pˇr´ıpadˇe bude text obalen do nové znaˇcky, stejné jako obaluj´ıc´ı, a bude z nˇej vytvoˇren základn´ı blok v závislosti, kde se text nacház´ı. Blokové elementy neobsahuj´ıc´ı text budou automaticky ignorovány. Taktéˇz budou ignorovány elementy obsahuj´ıc´ı pouze b´ılé znaky, a posloupnosti v´ıce neˇz jednoho b´ılého znaku budou nahrazeny b´ılým znakem jedn´ım.

3.2 Anal´

yza dokumentu

Táto ˇcást algoritmu bude m´ıt za úkol analýzu jednotlivých blok˚u a pozdˇeji na základˇe této analýzy detekovat a extrahovat hlavn´ı obsah dokumentu. Pˇri detekci jsem se rozhodl vyuˇz´ıt mnoho r˚uzných vlastnost´ı zaloˇzených jak na textových rysech, tak i na základˇe vlastnost´ı samotných blok˚u, jako je napˇr´ıklad jejich pozice v posloupnosti a vlastnosti pˇredchoz´ıho a následuj´ıc´ıho bloku.

3.2.1 Textov´e rysy

Stˇeˇzejn´ı roli pˇri rozhodován´ı, zda blok obsahuje ˇci neobsahuje hlavn´ı text, jsou textové rysy. V této fázi analýzy budeme zkoumat nˇekteré z nich pro kaˇzdý základn´ı blok samostatnˇe. Vypoˇc´ıtány budou parametry jako pr˚umˇerná délka slov, pr˚umˇerná délka vˇety, poˇcty vˇet v bloku, poˇcet slov, poˇcet p´ısmen, poˇcet slov zaˇc´ınaj´ıc´ıch velkým p´ısmenem a poˇcet slov vysázených pouze verzálkami.

Vˇsechny hodnoty mus´ı být pˇred vstupem do klasifikátoru, tedy neuronové s´ıtˇe norma-lizovány a upraveny tak, aby byly v intervalu<0,1>. Vˇsechny poˇcty jsou upraveny podle vzorce vstup = _pocet1 . Tedy pod´ıl poˇctu dané vlastnosti v bloku v˚uˇci maximáln´ımu nale-zenému poˇctu v dokumentu. U pr˚umˇerných délek bude situace podobná a bude se poˇc´ıtat analogicky.

3.2.2 Speci´aln´ı znaky

Jako dalˇs´ı ukazatel pˇri klasifikaci bude poˇcet výskytu r˚uzných speciáln´ıch znak˚u a slov v bloku. Speciáln´ı znaky budou v programu implicitnˇe nastaveny. Napˇr´ıklad blok obsahuj´ıc´ı znak’ c’nen´ı vˇetˇsinou hlavn´ım obsahem ale patiˇckou. Navigaˇcn´ı prvky stránky zase ˇcasto obsahuj´ı znak ’|’. Tyto znaky a ˇrada jiných budou v této fázi spoˇc´ıtány a poˇcty uloˇzeny jako atributy blok˚u.

(18)

Vstupem do neuronové s´ıtˇe je pak pouze pˇr´ıznak tedy hodnota 0 resp. 1 coˇz odpov´ıdá významu obsahuje resp. neobsahuje daný speciáln´ı znak.

3.2.3 Hustotn´ı rysy

V této fázi jsou jiˇz známy základn´ı ukazatelé a poˇcty a z nich budou vypoˇc´ıtány dalˇs´ı. Jednou z d˚uleˇzitých vlastnost´ı je hustota odkaz˚u v˚uˇci poˇctu slov popˇr´ıpadˇe hustota vˇet obsahuj´ıc´ıch odkaz oproti vˇetám bez odkazu. Dalˇs´ı ukazatele zaloˇzené na hustotˇe, které bu-dou poˇc´ıtány je pomˇer slov vysázených verzálkami oproti slov˚um obsahuj´ıc´ı malé p´ısmena, hustota speciáln´ıch znak˚u, hustota slov obsahuj´ıc´ı v´ıce znak˚u neˇzli je pr˚umˇerná délka slov v bloku. Koneˇcnˇe bude vypoˇc´ıtána i hustota nˇekterých znaˇcek v bloku v˚uˇci textu.

Jelikoˇz hustota je poˇc´ıtána podle vzorcevstup= pocet vyskytu vlastnosti_{celkovy pocet} , tedy pod´ıl poˇctu poˇc´ıtané vlastnosti (napˇr. odkaz˚u) v˚uˇci celkovému poˇctu (napˇr. slov), nen´ı nutno hodnoty dále upravovat, protoˇze výsledkem je vˇzdy hodnota z poˇzadovaného intervalu. V pˇr´ıpadˇe, ˇ

ze se ve jmenovateli objev´ı 0, je v´ysledkem 1.

3.2.4 Vnoˇrené ˇrádkové elementy

Pˇri analýze budeme brát ohled také na to, jaké ˇrádkové elementy základn´ı blok obsahoval. Napˇr´ıklad pozitivn´ım zp˚usobem budeme hodnotit bloky se znaˇckami jako jsou <cite>,

<code>a dalˇs´ı.

Hodnoty pro vstup do klasifikátoru jsou v tomto pˇr´ıpadˇe normalizovány stejnˇe jako poˇcty u textových rys˚u.

3.2.5 Pozice v dokumentu

Pˇri zkoumán´ı webových dokument˚u jsem zjistil, ˇze ve vˇetˇsinˇe pˇr´ıpad˚u jsou webové do-kumenty strukturované podobným zp˚usobem. Na zaˇcátku se nalézá hlaviˇcka následována hlavn´ım obsahem a r˚uznými dalˇs´ımi bloky a na konci se nalézá patiˇcka. Proto budou základn´ı bloky na okraj´ıch posloupnosti hodnoceny negativnˇe, kdeˇzto naopak bloky bl´ıˇze stˇredu pozitivnˇe.

Na vstup neuronové s´ıtˇe je v tomto pˇr´ıpadˇe pˇrivedena relativn´ı pozice v dokumentu, která je vypoˇc´ıtána podle vzorce pozicerelativni = _{celkovy pocet bloku}index bloku

3.2.6 Atributy znaˇcek

Pˇri d˚ukladnˇejˇs´ım pohledu na HTML stránky nalézaj´ıc´ı se na internetu jsem zjistil, ˇze ˇcasto lze ˇcásti stránky rozpoznat na základˇe hodnot atribut˚u znaˇcek. Napˇr´ıklad velice obl´ıbeným pravidlem je oznaˇcovat hlaviˇcku, obsah a patiˇcku pomoc´ı atribut˚u id nebo class s hod-notami header,content,footer. Tyto a dalˇs´ı ukazatele zaloˇzené na podobném principu budou v navrhovaném algoritmu vyuˇzity.

V tomto pˇr´ıpadˇe jsou opˇet na vstup klasifik´atoru pˇrivedeno pouze pˇr´ıznaky, tedy hod-noty 0 nebo 1, zda blok nebo nˇekter´y z jeho rodiˇc˚u obsahuje pozitivnˇe hodnocenou tˇr´ıdu.

3.3 Klasifikace blok˚

u

V pˇredchoz´ıch odstavc´ıch byla popsána vˇetˇsina vlastnost´ı, na základˇe kterých budeme provádˇet v této ˇcásti klasifikaci jednotlivých blok˚u.

(19)

Pro samotnou klasifikaci jednotlivých blok˚u bude vyuˇzita umˇelá dopˇredná v´ıcevrstvá neuronová s´ıt’. S´ıt’ bude m´ıt vstupn´ı vrstvu, výstupn´ı vrstvu s jedn´ım neuronem a tˇri skryté vrstvy. Na vstup budou pˇrivedeny hodnoty vlastnost´ı vypoˇc´ıtaných v pˇredchoz´ıch kroc´ıch, nejdˇr´ıve vˇsak budou tyto hodnoty normalizovány. Na vstupu budou rovnˇeˇz vlast-nosti pˇredchoz´ıho a následuj´ıc´ıho bloku. Poˇcet neuron˚u v jednotlivých skrytých vrstvách nelze dopˇredu urˇcit, a proto budou správné poˇcty urˇceny na základˇe d˚ukladného testován´ı. Rovnˇeˇz aktivaˇcn´ı funkce neuron˚u ve vrstvách a strmost tˇechto funkc´ı bude tˇreba urˇcit aˇz pˇri implementaci. Jako nejlepˇs´ı uˇc´ıc´ı algoritmus se jev´ı v tomto pˇr´ıpadˇe metoda pruˇzného zpˇetného ˇs´ıˇren´ı chyby (resilient backpropagation, Rprop). Budou vˇsak odzkouˇseny i alter-nativn´ı uˇc´ıc´ı algoritmy.

Kritickou úlohou bude správné nastaven´ı hraniˇcn´ıch hodnot. Výstupem neuronové s´ıtˇe bude ˇc´ıslo v rozmez´ı<−1,1>a je tˇreba nastavit práh, kdy se má s blokem zacházet jako s blokem obsahuj´ıc´ım hlavn´ı text, blokem obsahuj´ıc´ım ˇsablonu a kdy bude blok povaˇzován za témˇeˇr správný. Tyto prahy budou v programu nastaveny implicitnˇe, pravdˇepodobnˇe ale poskytnu moˇznost je explicitnˇe pˇrenastavit.

3.4 N´

asledn´

a anal´

yza

Tato ˇcást programu bude m´ıt za úkol ˇcásteˇcnˇe eliminovat chybovost neuronové s´ıtˇe. Jelikoˇz se webové dokumenty vˇetˇsinou dosti liˇs´ı, m˚uˇze doj´ıt pˇri klasifikaci i k znaˇcné chybovosti. Vˇetˇsinou se jedná o ˇspatné vyhodnocen´ı hlavn´ıho nadpisu, blok z dlouhým textem v patiˇcce m˚uˇze být oznaˇcen jako hlavn´ı text popˇr. krátký text v rámci hlavn´ıho obsahu m˚uˇze být oznaˇcen za nevyhovuj´ıc´ı. Vˇetˇsinu tˇechto nedostatk˚u se budu snaˇzit v této fázi eliminovat pomoc´ı r˚uzných heuristik. Tuto ˇcást bude moˇzno explicitnˇe zakázat.

3.4.1 Spoleˇcn´e nadˇrazen´e znaˇcky

Pˇri klasifikaci bude rovnˇeˇz brán ohled na nadˇrazené elementy. Dá se totiˇz pˇredpokládat, ˇze hlavn´ı obsah bude oddˇelen od generického obsahu, tzn. bude obalen stejnou znaˇckou. Tato znaˇcka vˇsak m˚uˇze být nˇekolik úrovn´ı nad základn´ım blokem. Proto bude nutné porovnávat u základn´ıch blok˚u cesty k nadˇrazeným element˚um a tyto porovnávat. Kaˇzdý základn´ı blok bude m´ıt ve výsledku uloˇzenou informaci o tom, se kterými jinými bloky má spoleˇcné nadˇrazené elementy. Zjistil jsem, ˇze tento ukazatel ve znaˇcné m´ıˇre pˇrisp´ıvá k zpˇresnˇen´ı klasifikace u tˇeˇzko rozhodnutelných blok˚u.

3.4.2 Vlastnosti sousedn´ıch blok˚u

Za pˇredpokladu, ˇze hlavn´ı obsah tvoˇr´ı souvislý text, lze u tˇeˇzko rozhodnutelných blok˚u hodnotit i vlastnosti jejich soused˚u, a to následovným zp˚usobem. Blok je povaˇzován za hlavn´ı obsah pokud se v jeho bl´ızkém okol´ı nalézaj´ı z obou stran bloky s hlavn´ım obsahem nebo se blok nalézá bl´ızko zaˇcátku a následuj´ıc´ı blok je hlavn´ım obsah nebo analogicky pro blok nalézaj´ıc´ı se ke konci dokumentu. V opaˇcném pˇr´ıpadˇe je blok povaˇzován sp´ıˇse za generický obsah. Zároveˇn bude zacházeno ponˇekud rozd´ılným zp˚usobem s r˚uznými typy blok˚u. Napˇr´ıklad pro nadpis budou pravidla jiná neˇz je tomu napˇr´ıklad u poloˇzky seznamu.

3.4.3 Detekce zaˇc´atku hlavn´ıho obsahu

D˚uleˇzitý ukazatel, který m˚uˇze znaˇcnˇe pˇrispˇet ke znaˇcnému zvýˇsen´ı pˇresnosti algoritmu, je detekce, kde hlavn´ı obsah zaˇc´ıná. K tomu nám m˚uˇze pomoci obsah elementu <title> v

(20)

<head>, protoˇze bývá dobrým zvykem, ˇze tato znaˇcka obsahuje alespoˇn jako podˇretˇezec nadpis hlavn´ıho obsahu. Pokud pˇredpokládáme, ˇze nadpis je obsaˇzen ve znaˇcce<h1> popˇr.

<h2>, pak lze pomˇernˇe jednoduchým postupem nalézt zaˇcátek hlavn´ıho textu. V pˇr´ıpadˇe, ˇ

ze takov´yto nadpis byl nalezen, budou bloky nad nadpisem oznaˇceny za generick´y obsah.

3.5 Rozhran´ı programu

Program bude vytvoˇren jako knihovna, s rozhran´ım pro pˇr´ıkazový ˇrádek a bude rovnˇeˇz obsahovat jednoduché webové rozhran´ı.

3.5.1 V´ystup programu

Výstupem programu bude kolekce jednotlivých základn´ıch blok˚u. Pomoc´ı metod, které bude m´ıt blok implementován, bude moˇzno pˇristoupit k vypoˇc´ıtaným vlastnostem, zjistit zda je blok hlavn´ım obsahem ˇci generickým obsahem atd.

3.5.2 Knihovna

Aby byla zaruˇcena univerzálnost, jednoduchá instalace a moˇzná integrace do jiných systému, bude program distribuován jako knihovna. Knihovnu bude pak moˇzno pouˇz´ıt v jakémkoliv systému napsaném ve stejném jazyce a dále pracovat s výstupem.

3.5.3 Webov´e rozhran´ı a vizualizace v´ysledk˚u

Webové rozhran´ı bude jednoduché a uˇzivatelsky pˇr´ıvˇetivé. Bude obsahovat pouze základn´ı funkˇcnost, zadán´ı URL stránky, ze které se má extrahovat text, výpis vˇsech blok˚u, výpis blok˚u pouze z hlavn´ım obsahem a moˇznost zakázat ˇci povolit následnou analýzu. Ke kaˇzdému bloku bude kromˇe textu zobrazeno jeho výsledné hodnocen´ı a typ elementu.

3.5.4 Pˇr´ıkazov´y ˇr´adek

Program bude moˇzno spustit rovnˇeˇz pˇr´ımo z pˇr´ıkazové ˇrádky, kdy na základˇe URL popˇr. cesty k souboru bude extrahován hlavn´ı text z dokumentu a následnˇe zapsán do zadaného sou-boru nebo na standardn´ı výstup.

(21)

Kapitola 4

Implementace

V této kapitole popisuji samotnou implementaci systému. V samotném úvodu kapitoly jsou shrnuty ve zkratce technologie pouˇz´ıvané pro tvorbu webových dokument˚u, implementaˇcn´ı jazyk a pouˇzité gemy (knihovny).

4.1 Znaˇ

ckovac´ı jazyky pro tvorbu webov´

ych dokument˚

u

Pro tvorbu webových dokument˚u se ve vˇetˇsinˇe pˇr´ıpad˚u vyuˇz´ıvá znaˇckovac´ıho jazyka HTML (HyperText Markup Language). V souˇcasné dobˇe pˇrevaˇzuj´ı dokumenty vytvoˇrené za pomoc´ı HTML ve verzi 4.011 nebo v HTML52. Vytváˇren´ı standard˚u pro HTML má na starosti konsorcium W3C3. i kdyˇz je HTML5 v souˇcasnosti stále ve stádiu návrhu a schválen by mˇel být aˇz pˇr´ıˇst´ım rokem, je jiˇz naprosto bˇeˇznˇe vyuˇz´ıván. Oproti pˇredchoz´ım verz´ım jiˇz nen´ı závislý na SGML (Standard Generalized Markup Language), pˇridává nové znaˇcky a nˇekteré zastaralé odstraˇnuje.

Pro vytváˇren´ı webových dokument˚u lze kromˇe jazyka HTML vyuˇz´ıt také XML (Ex-tensible Markup Language), coˇz je obecný znaˇckovac´ı jazyk a vycház´ı z jazyka SGML. Stejnˇe jako HTML je standardizován a spravován konsorciem W3C4.

Jelikoˇz se zdrojovým kódem ve znaˇckovac´ıch jazyc´ıch nen´ı moˇzné pracovat pˇr´ımo, je tˇreba je nejdˇr´ıve interpretovat a t´ım z´ıskat reprezentaci dokumentu v DOM (Document Object Model, objektový model dokumentu). Dokument v této struktuˇre nám pak umoˇzˇnuje jeho modifikaci, ˇcten´ı a prohledáván´ı.

4.2 Programovac´ı jazyk Ruby

Ruby je interpretovaný skriptovac´ı programovac´ı jazyk. D´ıky své jednoduché syntaxi je pomˇernˇe snadný k nauˇcen´ı, pˇresto vˇsak dostateˇcnˇe výkonný, aby dokázal konkurovat známˇ ej-ˇs´ım jazyk˚um jako je Python a Perl [16].

Ruby5 _{je plnˇ}_{e objektov´}_{ym jazykem, coˇ}_{z znamen´}_{a, ˇ}_{ze vˇ}_{se je objekt. Existuje nˇ}_ekolik

r˚uzných interpret˚u Ruby, liˇs´ıc´ıch se zejména v jazyce, ve kterém jsou implementovány a zda obsahuj´ı nebo neobsahuj´ı GIL (Global Interpreter Lock, globáln´ı zámek interpretu).

1 http://www.w3.org/TR/REC-html40/ 2 http://www.w3.org/TR/html5/ 3_{http://www.w3.org/} 4 http://www.w3.org/ 5_{https://www.ruby-lang.org/}

(22)

GIL zaruˇcuje, ˇze souˇcasnˇe m˚uˇze vykonávat práci pouze jedno vlákno. P˚uvodn´ı, a dnes pravdˇepodobnˇe nejrozˇs´ıˇrenˇejˇs´ı interpret jazyka Ruby pod názvem MRI (Matz’s Ruby In-terpreter) GIL obsahuje.

Tento jazyk jsem zvolil pro implementaci systému v rámci této práce zejména pro poho-dlný a rychlý vývoj. Rovnˇeˇz komunita kolem tohoto jazyka je pomˇernˇe rozsáhlá a dostup-nost r˚uzných knihoven je obˇs´ırná. Zároveˇn v ruby podobný systém nen´ı zat´ım implemen-tován nebo nen´ı rozˇs´ıˇren. Ruby je stále aktivnˇe vyv´ıjeno a d´ıky velkému zájmu ze strany vývojáˇr˚u nic nenaznaˇcuje tomu, ˇze by v bl´ızké budoucnosti tomu mˇelo být jinak. Tyto d˚uvody pˇredurˇcuj´ı Ruby jako vhodný jazyk pro implementaci tohoto systému.

Knihovny jsou v Ruby distribuov´any pomoc´ı tzv. gem˚u. Instalace prob´ıh´a jednoduˇse po-moc´ı pˇr´ıkazugem install NAME, vˇse ostatn´ı, od staˇzen´ı aˇz po instalaci vˇcetnˇe dokumentaci jiˇz probˇehne automaticky.

Ruby je souˇcasnˇe ve verzi 2, nicménˇe stále hojnˇe vyuˇz´ıvaná je rovnˇeˇz verze 1.9.3, popˇr. starˇs´ı 1.9.2. Já se zamˇeˇr´ım primárnˇe na vývoj pro verzi >= 2.0.0, nebudu vˇsak pouˇz´ıvat konstrukce moˇzné pouze v této verzi, tud´ıˇz program by nemˇel m´ıt problém i s niˇzˇs´ı verz´ı Ruby.

Ruby jako takové neposkytuje jmenné prostory, lze je vˇsak nahradit modulem, který neimplementuje ˇzádnou funkcionalitu, pouze obaluje dané tˇr´ıdy nebo moduly. Toto se v praxi hojnˇe vyuˇz´ıvá a bude rovnˇeˇz pouˇzito v této práci. Výhodou tohoto ˇreˇsen´ı je eliminace konflikt˚u mezi názvy tˇr´ıd pˇri pouˇzit´ı gemu v systému.

4.3 Pouˇ

zit´

e gemy

N´ıˇze pop´ıˇsu stˇeˇzejn´ı gemy pˇri vývoji programu. Podp˚urné gemy zde neuvád´ım, jelikoˇz se jedná vˇetˇsinou pouze o r˚uzná vylepˇsen´ı nebo závislosti gemu jiných.

4.3.1 Syntaktick´y analyz´ator Nokogiri

Nokogiri6 je nejpouˇz´ıvanˇejˇs´ım syntaktickým analyzátorem pro XML a HTML v Ruby. Ob-sahuje pˇrehledné rozhran´ı, pˇr´ıstup k element˚um pomoc´ı r˚uzných zápisu jako je XPath nebo CSS notace, je flexibiln´ı a porad´ı si i s nevalidn´ımi ˇci poˇskozenými dokumenty. Umoˇzˇnuje veˇskerou manipulac´ı s DOM, ˇcten´ı, zápis nebo modifikaci jiˇz existuj´ıc´ıch element˚u.

4.3.2 Umˇel´a neuronov´a s´ıt’ RubyFann

RubyFann7 _{je gem, kter´}_{y umoˇ}_zˇ_{nuje pouˇ}_{z´ıt pˇ}_{r´ımo v Ruby volnˇ}_{e ˇ}_s´ıˇ_{renou knihovnu FANN}

(Fast Artificial Neural Network)8, implementovanou v jazyce C. Tato knihovna zvládá jak plnˇe propojené tak pouze ˇcásteˇcnˇe propojené neuronové s´ıtˇe. Knihovna dovoluje pomˇernˇe rozsáhlé a podrobné nastaven´ı. Pro uˇcen´ı lze vyuˇz´ıt ˇctyˇr r˚uzných variac´ı metody zpˇetného ˇs´ıˇren´ı chyby, mezi jinými podporuje i algoritmus RProp. Aktivaˇcn´ı funkci i jej´ı strmost lze jednoduˇse nastavit pro kaˇzdou vrstvu zvláˇst’, pro vˇsechny skryté vrstvy najednou a v pˇr´ıpadˇe potˇreby lze nastavit aktivaˇcn´ı funkci pro kaˇzdý neuron zvláˇst’. Pˇri uˇcen´ı je potˇreba zvolit maximáln´ı poˇcet epoch, po kolika epochách se má vypsat na výstup aktuáln´ı stav uˇcen´ı a poˇzadovanou chybu. Trénovac´ı data mohou být pˇredané pˇr´ımo funkci nebo je lze naˇc´ıst

6

http://nokogiri.org/

7_{http://ruby-fann.rubyforge.org/RubyFann.html} 8

(23)

z pˇripraveného souboru. Natrénovanou s´ıt’ lze jednoduˇse uloˇzit do souboru pro pozdˇejˇs´ı pouˇzit´ı, kdy je s´ıt’ naˇctena pˇr´ımo ze souboru a nen´ı tˇreba nového uˇcen´ı.

4.3.3 Dom´enovˇe specifick´y jazyk Sinatra

Sinatra9 je intern´ı doménovˇe specifický jazyk napsaný v Ruby, urˇcen pro tvoˇren´ı malých webových aplikac´ı v Ruby. Umoˇzˇnuje jednoduchým zp˚usobem definovat cesty URL, a defi-novat jejich chován´ı. Sinatra je navrˇzená tak, aby zápis cesty a chován´ı byl co nejjednoduˇsˇs´ı a nejkratˇs´ı, viz. Zdrojový kód4.1

# app . r b

r e q u i r e ” s i n a t r a ”

g e t ” / ” do

” Ahoj s v e t e ! ”

end

Zdrojov´y k´od 4.1: Pˇr´ıklad aplikace ”Ahoj svete”v Sinatˇre

4.3.4 Verzovac´ı syst´em Git

Git10 je jeden z nejznámˇejˇs´ıch a nejrozˇs´ıˇrenˇejˇs´ıch distribuovaných systému správy verz´ı. Pˇri vývoji jej pouˇz´ıvám pro udrˇzován´ı verz´ı kódu. Git byl p˚uvodnˇe vytvoˇren Linusem Torvaldsem a byl urˇcen pro vývoj jádra Linuxu. Pozdˇeji se vˇsak d´ıky své univerzálnosti a dobré pouˇzitelnosti masivnˇe rozˇs´ıˇril a dnes jej pouˇz´ıvá mnoho dalˇs´ıch velkých i malých projekt˚u. Jedná se o svobodný software.

4.4 Kostra programu

Pˇred samotnou implementac´ı programu jsem si vytvoˇril základn´ı kostru programu. Kostra obsahuje pouze nezbytné adresáˇre a soubory. Základem kaˇzdé modern´ı aplikace v Ruby je soubor Gemfile, ve kterém definujeme gemy, které bude aplikace vyuˇz´ıvat. Standardn´ı gemy, které obsahuje jazyk Ruby, nen´ı tˇreba uvádˇet, uvád´ı se pouze gemy tˇret´ıch stran. Definice pomocných úloh, které jsou spouˇstˇeny pˇr´ımo z pˇr´ıkazové ˇrádky jsou obsaˇzeny v souboru Rakefile. Jelikoˇz jsem jiˇz od zaˇcátku poˇc´ıtal se ˇs´ıˇren´ım programu v podobˇe gemu, veˇskerý kód potˇrebný k fungován´ı aplikace je um´ıstˇen v adresáˇrilib. Program jsem nazval Textractor, tud´ıˇz jsem vytvoˇril jeˇstˇe v adresáˇrilib soubortextractor.rb, který bude obsahovat potˇrebné pˇr´ıkazy pro pˇripojen´ı potˇrebných gem˚u a také základn´ı modul

Textractor, který je v tomto kontextu pouˇzit jako jmenný prostor, protoˇze klasické jmenné prostory v Ruby neexistuj´ı. Po vytvoˇren´ı kostry jsem udˇelal inicializaˇcn´ı commit do Gitu. Commity jsem provádˇel dále vˇzdy, kdyˇz byla pˇridána nová funkˇcnost, popˇr. opravená chyba.

4.5 Z´

akladn´ı modul

Základn´ım modulem aplikace, jak uˇz bylo zm´ınˇeno výˇse je modul Textractor. Tento mo-dul obsahuje pouze konstanty, d´ıky kterým budu pozdˇeji rozliˇsovat zda se jedná o element

9

http://www.sinatrarb.com

10

(24)

blokový nebo ˇrádkový. Nˇekteré ve skuteˇcnosti blokové elementy jsem pˇreˇradil k ˇrádkovým a opaˇcnˇe, zejména kv˚uli tomu, ˇze se vˇetˇsinou ve skuteˇcnosti pouˇz´ıvaj´ı v jiném kontextu neˇz byly p˚uvodnˇe navrhnuty. Dále modul obsahuje tˇr´ıdy HTTPClient, Configuration,

Preprocessor,Analyser,PostAnalyser,Block,BlockFeatures,BlockCollectionaApp. Jak jednotlivé tˇr´ıdy mezi sebou interaguj´ı je moˇzné vidˇet na Obrázku 4.1.

Obr´azek 4.1: Diagram tˇr´ıd a vztah˚u mezi nimi

4.6 Konfigurace a HTTP klient

Tˇr´ıda Configuration implementuje naˇc´ıt´an´ı konfiguraˇcn´ıho souboru z adres´aˇre config

a poskytuje pˇr´ıstup k poloˇzkám konfigurace. Pˇresto, ˇze v jazyce Ruby neexistuj´ı statické tˇr´ıdy jak je známe tˇreba z C++, tato tˇr´ıda je takto myˇslena. Pro pˇr´ıstup ke konfiguraci obsahuje pouze tˇr´ıdn´ı metody, tud´ıˇz nen´ı potˇreba jej´ı instanciace. Naˇctený konfiguraˇcn´ı soubor je uloˇzen do tˇr´ıdn´ı promˇenné, je tedy naˇcten pouze jednou.

Pro staˇzen´ı dokumentu z internetu slouˇz´ı objekt tˇr´ıdy HTTPClient, kter´y obaluje roz-hran´ı gemu curb, coˇz je gem poskytuj´ıc´ı vazbu na knihovnulibcurl.

4.7 Vstup programu

Vstupem aplikace m˚uˇze být bud’ soubor nebo URL adresa webového dokumentu, který má být analyzován. Pokud je jako vstup uveden soubor pak je otevˇren pro ˇcten´ı a dále zpracováván, pokud je na vstupu URL, je stránka nejdˇr´ıve staˇzena s vyuˇzit´ım instance tˇr´ıdy

HTTPClient. V této chv´ıli jsou data pˇripravená k analýze a jsou pˇredána tˇr´ıdˇePreprocess

(25)

4.8 Pˇ

redzpracov´

an´ı dokumentu

Tento proces zastˇreˇsuje tˇr´ıda Preprocess, která na vstupu obdrˇz´ı webový dokument ve formátu HTML popˇr. XML. Výstupem je pak kolekce neboli pole základn´ıch blok˚u pˇ riprave-ných k dalˇs´ı analýze.

Tˇr´ıda má pouze dvˇe veˇrejné metody. Metodanewjako parametr vyˇzaduje webový doku-ment ve formˇe ˇretˇezce. Metoda druhá, perform, jiˇz spouˇst´ı samotné pˇredzpracován´ı a jej´ı návratovou hodnotou je poˇzadována kolekce blok˚u.

Pˇredzpracován´ı prob´ıhá následuj´ıc´ım zp˚usobem. Jiˇz pˇri vytvoˇren´ı instance je webový dokument zpracován pomoc´ıNokogiria je uloˇzen pouze objektový model dokumentu. Pˇri zavolán´ı metody perform je nejdˇr´ıve z´ıskán z dokumentu obsah elementu title pomoc´ı metodyget titlea jeho obsah je uloˇzen pro dalˇs´ı pouˇzit´ı. Následnˇe metodaremove head

z dokumentu odstran´ı celý elementheadresp. nahrad´ı promˇennou s dokumentem obsahem elementu body. Nyn´ı jsou odstranˇeny zbyteˇcné elementy, konkrétnˇe: komentáˇre, script,

noscript, object, video, style, canvas, iframe, svg, embed. Odstraˇnován´ı element˚u prob´ıhá pomoc´ı metody remove tags, které pomoc´ı parametru pˇredám název elementu, který je tˇreba odstranit. Následnˇe je na základˇe takto zredukovaného dokumentu vytvoˇrena kolekce blok˚u. Rozdˇelen´ı na bloky má plnˇe ve své reˇzii objekt tˇr´ıdyBlockCollection, jej´ıˇz chován´ı bude popsáno n´ıˇze. Poté jsou pomoc´ı metod remove blank blocks!

a remove whitespaces! z kolekce odstranˇeny prázdné bloky resp. bloky obsahuj´ıc´ı pouze b´ılé znaky a posloupnosti dvou a v´ıce b´ılých znak˚u v bloc´ıch jsou nahrazeny b´ılým znakem jedn´ım. Nakonec kaˇzdému bloku nastav´ım jeho pozici v rámci kolekce. T´ımto pˇredzpracován´ı konˇc´ı.

4.9 Kolekce blok˚

u

Kolekce blok˚u je instanc´ı tˇr´ıdy BlockCollection, kter´a dˇed´ı od tˇr´ıdy standardn´ı tˇr´ıdy

Array, a jej´ı chován´ı rozˇsiˇruje o dalˇs´ı metody a nˇekteré z metod redefinuje. Konstruktor vyˇzaduje na vstupu jeden povinný a jeden volitelný parametr, jmenovitˇe: pˇredzpracovaný objektový model dokumentu a název (title). V rámci instanciace tˇr´ıdy je prvn´ı z para-metr˚u zkonvertován na pole základn´ıch blok˚u ˇcili jednotlivé instance tˇr´ıdy Block.

Konvertován´ı provád´ı metodaconvert. Metoda rekurzivnˇe procház´ı DOMem. Pro kaˇzdý je pomoc´ı metody terminal node? zjiˇstˇeno, zda aktuáln´ı element obsahuje nˇejaké dalˇs´ı blokové elementy. V pˇr´ıpadˇe negativn´ıho vyhodnocen´ı metoda volá sama sebe a zanoˇruje se dále. V opaˇcném pˇr´ıpadˇe je na základˇe elementu vytvoˇren nový základn´ı blok, vloˇzen do kolekce a metoda se vynoˇruje zpˇet.

Objekt si nav´ıc pˇri vytvoˇren´ı uloˇz´ı pro dalˇs´ı pouˇzit´ı hodnotu parametrutitle.

4.10 Z´

akladn´ı blok

Nejrozsáhlejˇs´ı a stˇeˇzejn´ı tˇr´ıdou celého programu je Block. Kaˇzdá instance této tˇr´ıdy obsa-huje instanˇcn´ı promˇenné pro origináln´ı element z objektového modelu dokumentu, vyex-trahovaný a upravený text pro potˇreby programu, název rodiˇce, cestu k elementu v rámci dokumentu v XPath reprezentaci, atributyclassaid vˇsech element˚u nadˇrazených, odkaz na celou kolekci bloku aby mohl z´ıskat informace o svých sousedech, pozici v rámci kolekce. Kaˇzdý objekt obsahuje rovnˇeˇz podp˚urné promˇenné a metody pro dalˇs´ı zpracován´ı. Do instanˇcn´ı promˇenné nn score bude uloˇzen výsledek z klasifikace pomoc´ı neuronové

(26)

s´ıtˇe a promˇenná score bude m´ıt fináln´ı hodnotu po následné analýze. Pro vˇsechny výˇse zmiˇnované promˇenné jsou dostupné metody pro ˇcten´ı hodnot a pro nˇekteré rovnˇeˇz zapi-sovaˇce. Pro analýzu a následnou analýzu jsou rovnˇeˇz pˇripraveny metodygood?abad?a ana-logicky stejné metody s pˇredponou nn . Metody jako headline?, paragraph? apod. jsou urˇceny pro zjiˇst’ován´ı typu bloku. Metodafeaturesslouˇz´ı pro z´ıskan´ı vlastnost´ı bloku a jej´ı návratovou hodnotou je instance tˇr´ıdy BlockFeatures.

Metody features dataadata for neuralslouˇz´ı k z´ıskan´ı vstup˚u pro neuronovou s´ıt’. Prvn´ı jmenovaná vrac´ı normalizované vlastnosti aktuáln´ıho bloku, ˇcili vˇsechny hodnoty jsou v rozmez´ı<0,1>, kdeˇzto druhá metoda vrac´ı i hodnoty pro pˇredchoz´ı a následuj´ıc´ı blok. Výstupy tˇechto metod jsou uloˇzeny do instanˇcn´ıch promˇenných, aby pˇri dalˇs´ım voláni nemusely být poˇc´ıtány znovu.

4.11 Vlastnosti bloku

Pro z´ıskán´ı a kalkulaci vlastnost´ı bloku vyuˇz´ıvám tˇr´ıdu BlockFeatures. Samotná tˇr´ıda sestává z nˇekolika základn´ıch metod pro z´ıskan´ı slov, vˇet a odkaz˚u. Do tˇr´ıdy jsou vˇsak pˇripojeny jednotlivé moduly neboli mixiny, které implementuj´ı pomoc´ı zm´ınˇených základn´ıch metod dalˇs´ı propoˇcty. Moduly se postupnˇe jmenuj´ı následovnˇeCounts,Averages,Densities,

NestedElementsa SpecialChars. Dle mého názoru je jiˇz z jejich názvu jasné jejich urˇcen´ı a nen´ı potˇreba je dále popisovat.

Tato tˇr´ıda obsahuje nav´ıc instanˇcn´ı metodu good parent class?, která zkoumá tˇr´ıdy a identifikátory nadˇrazených element˚u, a v pˇr´ıpadˇe nalezen´ı vhodné hodnoty vrac´ıtrue

jinak false. Tato metoda je d˚uleˇzitá bˇehem následné analýzy, která bude teprve popsána.

4.12 Implementace anal´

yzy dokumentu

Postup pro hlavn´ı analýzu dokumentu je implementován ve tˇr´ıdˇe Analyser. Konstruktor akceptuje pouze jeden parametr block collection, ve kterém pˇredáme objektu kolekci blok˚u. Dalˇs´ı a posledn´ı veˇrejnou metodou je perform, podobnˇe jako u tˇr´ıdy Preprocess. Tato metoda pomoc´ı neuronové s´ıtˇe vyhodnot´ı kaˇzdý jeden blok a nastav´ı munn score.

Pˇred samotným vyhodnocen´ım se kontroluje zda neuronová s´ıt’ jiˇz byla inicializována. V kladném pˇr´ıpadˇe se pˇristupuje ihned ke klasifikaci, naopak pokud s´ıt’ jeˇstˇe neexistuje je volána metodatrain network, která má za úkol s´ıt’ vytvoˇrit a uloˇzit do tˇr´ıdn´ı promˇenné pro pozdˇejˇs´ı vyuˇzit´ı. Po vytvoˇren´ı s´ıtˇe je s´ıt’ uloˇzena do souboru, aby mohla být pˇr´ıˇstˇe naˇctena bez uˇcen´ı. Pokud vˇsak ˇzádná s´ıt’ zat´ım vytvoˇrena nebyla, je tˇreba vytvoˇrit zcela novou s´ıt’ a provést uˇcen´ı. S´ıt’ je vytvoˇrena i uˇcena prostˇrednictv´ım gemuRubyFann.

Vstupn´ı vrstva neuronové s´ıtˇe obsahuje 78 neuron˚u a výstupn´ı vrstva neuron pouze jeden. Na vstup jsou pˇrivedeny následuj´ıc´ı hodnoty:

• Poˇcet p´ısmen

• Poˇcet slov

• Poˇcet slov zaˇc´ınaj´ıc´ıch velk´ym p´ısmenem

• Poˇcet slov vysázených verzálkami

• Poˇcet vˇet

(27)

• Hustota mezer

• Poˇcet odkaz˚u

• Poˇcet svisl´ych ˇcar

• Poˇcet obr´azk˚u

• Poˇcet ”pozitivnˇe hodnocených”ˇrádkových element˚u (napˇr.cite)

• Zda obsahuje speci´aln´ı znak ’ c’

• Zda obsahuje znaky’<’ nebo’>’

• Pr˚umˇern´a d´elka slov

• Pr˚umˇern´a d´elka vˇet

• Hustota obr´azk˚u v˚uˇci textu

• Hustota svisl´ych ˇcar

• Hustota odkaz˚u

• Hustota slov vysázených verzálkami

• Hustota dlouh´ych slov

• Hustota kr´atk´ych slov

• Zda nˇekterý z nadˇrazených element˚u obsahuje ”pozitivnˇe hodnocenou”tˇr´ıdu ˇci iden-tifikátor

• Zda je to nadpis

• Zda je to element type <p>

• Zda je to prvek seznamu

• Relativn´ı pozice v dokumentu

Vˇsechny tyto hodnoty jsou nav´ıc pomoc´ı metodynormalize for neuralnormalizovány do intervalu<0,1>. Pro kaˇzdý element jsou tyto hodnoty pos´ılány tˇrikrát. Pro pˇredchoz´ı blok, aktuáln´ı blok a následuj´ıc´ı.

Aby s´ıt’ podávala korektn´ı výsledky a byla co nejpˇresnˇejˇs´ı, musel jsem nejdˇr´ıve naj´ıt vhodné nastaven´ı aktivaˇcn´ıch funkc´ı a jejich strmosti, vhodný uˇc´ıc´ı algoritmus, vhodný poˇcet skrytých vrstev a poˇcty neuron˚u v jednotlivých vrstvách. Mnou nalezeny optimáln´ı parametry s´ıtˇe jsou uvedeny v Tabulce4.1. Informace o tom, jak jsem naˇsel vhodné nasta-ven´ı budou uvedeny v nˇekteré z následuj´ıc´ıch kapitol.

Výstupem této analýzy je kolekce blok˚u, kdy kaˇzdý blok jiˇz obsahuje svoje hodnocen´ı na základˇe výstupn´ı hodnoty z neuronové s´ıtˇe. Tyto hodnoty jsou následnˇe porovnány v˚uˇci implicitnˇe nastaveným prah˚um a na základˇe výsledku jsou bloky rozdˇeleny do tˇr´ı tˇr´ıd: správné bloky, témˇeˇr správné a ˇspatné.

(28)

Vlastnost Typ/Hodnota

Poˇcet neuron˚u ve vstupn´ı vrstvˇe 78 Poˇcet skryt´ych vrstev 3 Poˇcet neuron˚u v 1. skryt´e vrstvˇe 39

Aktivaˇcn´ı funkce v 1. skryt´e vrstvˇe Sigmoid stepwise Strmost aktivaˇcn´ı funkce v 1. skryt´e vrstvˇe 0.65

Poˇcet neuron˚u v 2. skryt´e vrstvˇe 19

Aktivaˇcn´ı funkce v 2. skryt´e vrstvˇe Gaussian symmetric Strmost aktivaˇcn´ı funkce v 2. skryt´e vrstvˇe 0.75

Poˇcet neuron˚u v 3. skryt´e vrstvˇe 9

Aktivaˇcn´ı funkce v 3. skryt´e vrstvˇe Gaussian symmetric Strmost aktivaˇcn´ı funkce v 3. skryt´e vrstvˇe 0.75

Poˇcet neuron˚u ve v´ystupn´ı vrstvˇe 1

Aktivaˇcn´ı funkce ve v´ystupn´ı vrstvˇe Linear piece symmetric Strmost aktivaˇcn´ı funkce ve v´ystupn´ı vrstvˇe 0.8

Tabulka 4.1: Nastaven´ı neuronov´e s´ıtˇe

4.13 N´

asledn´

a anal´

yza

V této ˇcásti se snaˇz´ım eliminovat chybovost neuronové s´ıtˇe. Urˇcité bloky v rámci hlavn´ıho textu totiˇz m˚uˇzou m´ıt vlastnosti generického obsahu. Takovými bloky jsou zpravidla krátké bloky obsahuj´ıc´ı velké mnoˇzstv´ı odkaz˚u, nadpisy niˇzˇs´ı úrovnˇe apod.

Následná analýza je implementována ve tˇr´ıdˇe PostAnalyser a stejnˇe jako vˇetˇsina im-plementovaných tˇr´ıd obsahuje pouze dvˇe veˇrejné metody new aperform.

Prvn´ı algoritmus následné analýzy je implementován v metodˇemain text starta snaˇz´ı se nalézt zaˇcátek hlavn´ıho textu, ˇcili startovac´ı hlavn´ı nadpis na základˇe podobnosti s názvem stránky. Pokud je takový nadpis nalezen, algoritmus mu nastav´ı skóre 1.0 a vˇsechny ele-menty pˇred n´ım ve vzdálenosti alespoˇn tˇr´ı blok˚u jsou oznaˇceny jako ˇspatné, tedy je jim nastaveno skóre 0.

Dalˇs´ı metoda, common path, zkoumá spoleˇcné nadˇrazené elementy. Pokud alespoˇn tˇri bloky vyhodnoceny jako správné maj´ı nadˇrazený prvek se stejnou cestou, pak vˇsechny bloky v kolekci se stejnou vlastnost´ı jsou oznaˇceny jako správné.

Pˇredposledn´ı metodou je metodaalone blocks, kter´a proch´az´ı bloky odzadu a v pˇr´ıpadˇe, ˇ

ze nalezne blok, pˇred kterým nejdále 5 blok˚u se nenacház´ı ˇzádný správný blok, je oznaˇcen za ˇspatný. Tento algoritmus konˇc´ı ve chv´ıl´ı kdy nalezne správný blok, který nelze oznaˇcit na základˇe pˇredchoz´ıho tvrzen´ı za ˇspatný.

Ve finále je vyuˇzita metoda block neighbours, která zkoumá okol´ı aktuáln´ıho bloku a na základˇe okoln´ıch blok˚u rozhoduje o správnosti témˇeˇr správných blok˚u. Napˇr´ıklad nadpis je oznaˇcen za správný v pˇr´ıpadˇe, ˇze v okol´ı 3 blok˚u obˇema smˇery se nalézá správný nebo témˇeˇr správný blok, nebo pokud se maximálnˇe 3 bloky pod vyskytuje správný blok.

4.14 Hlavn´ı tˇ

r´ıda

Tˇr´ıdaApppropojuje vˇsechny výˇse uvedené tˇr´ıdy dohromady. Postupnˇe tvoˇr´ı instance kaˇzdé z nich a provád´ı extrakci od pˇredzpracován´ı aˇz po samotnou extrakci. Konstruktor vyˇzaduje

(29)

jako parametr cestu k souboru s dokumentem nebo adresu URL. Metody preprocess,

analyse a post analyse provád´ı jednotlivé úkony. Tyto metody jsou veˇrejné a vˇsechny vrac´ı kolekci blok˚u ve stavu odpov´ıdaj´ıc´ımu danému úkonu. Metoda perform provede vˇsechny operace najednou a vrac´ı jiˇz klasifikovanou kolekci blok˚u.

Pokud je program pˇripojen do jiného systému jako gem, lze extrakce doc´ılit napˇr´ıklad takto: Textractor::App.new(’/path/to/doc.html’).perform. Výstupem pak bude in-stance tˇr´ıdyBlockCollection, s vlastnostmi pole a pro kaˇzdý blok obsaˇzen v kolekci budou dostupné vˇsechny jeho vlastnosti, skóre atd.

4.15 Pˇ

r´ıkazov´

y ˇ

r´

adek

Rozhran´ı pro ovládan´ı z pˇr´ıkazové ˇrádky je implementováno v adresáˇri bin v souboru

textractorve tˇr´ıdˇeTextractorCLIpomoc´ı gemuThor. Pˇr´ıklady pouˇzit´ı lze naj´ıt ve Zdro-jov´em k´odu 4.2.

t e x t r a c t o r go ! URL OR FILE [−P b o o l ] # E x t r a k c e t e x t u z e s t r a n k y

t e x t r a c t o r h e l p [COMMAND] # Napoveda

t e x t r a c t o r s e r v e r # S p u s t i webove r o z h r a n i

Zdrojový kód 4.2: Pˇr´ıklady práce z programem v pˇr´ıkazové ˇrádce

Obr´azek 4.2: Webov´e rozhran´ı programu

4.16 Webov´

e rozhran´ı

V rámci programu jsem implementoval jednoduché webové rozhran´ı za pouˇzit´ı gemusinatra. Toto rozhran´ı je implementováno v rámci modulu Server. Ukázka webového rozhran´ı je na na Obrázku 4.2, kde m˚uˇzeme vidˇet výsledek zpracován´ı stránky. Jednotlivá zaˇskrtávac´ı tlaˇc´ıtka nám dovoluj´ı zapnout resp. vypnout následnou analýzu a zobrazit ˇc´ı skrýt nevyho-vuj´ıc´ı bloky. V tabulce jsou pak informace o jednotlivých bloc´ıch, kdy prvn´ı sloupec urˇcuje výsledné ohodnocen´ı bloku, v následuj´ıc´ım sloupci je informace o typu bloku a v posledn´ım je jiˇz samotný obsah bloku. V pˇr´ıpadˇe, ˇze zaˇskrtneme nezobrazován´ı nevyhovuj´ıc´ıch blok˚u,