Automatic Keyword Detection

(1)

VYSOK ´

E U ˇ

CEN´I TECHNICK ´

E V BRN ˇ

E

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA ˇ

CN´ICH TECHNOLOGI´I

´

USTAV PO ˇ

C´ITA ˇ

COV ´

E GRAFIKY A MULTIM ´

EDI´I

FACULTY OF INFORMATION TECHNOLOGY

DEPARTMENT OF COMPUTER GRAPHICS AND MULTIMEDIA

AUTOMATICK ´

A IDENTIFIKACE KL´I ˇ

COV ´

YCH SLOV

DIPLOMOV ´

A PR ´

ACE

MASTER’S THESIS

AUTOR PR ´

ACE

MARCELA MA ˇ

SL ´

A ˇ

NOV ´

A

AUTHOR

(2)

VYSOK ´

E U ˇ

CEN´I TECHNICK ´

E V BRN ˇ

E

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA ˇ

CN´ICH TECHNOLOGI´I

´

USTAV PO ˇ

C´ITA ˇ

COV ´

E GRAFIKY A MULTIM ´

EDI´I

FACULTY OF INFORMATION TECHNOLOGY

DEPARTMENT OF COMPUTER GRAPHICS AND MULTIMEDIA

AUTOMATICK ´

A IDENTIFIKACE KL´I ˇ

COV ´

YCH SLOV

THE AUTOMATIC IDENTIFICATION OF KEYWORDS

DIPLOMOV ´

A PR ´

ACE

MASTER’S THESIS

AUTOR PR ´

ACE

MARCELA MA ˇ

SL ´

A ˇ

NOV ´

A

AUTHOR

VEDOUC´I PR ´

ACE

doc. RNDr. PAVEL SMR ˇ

Z, Ph.D.

SUPERVISOR

(3)

Automatická identifikace klíčových slov

Automatic Keyword Detection

Vedoucí:

Smrž Pavel, doc. RNDr., Ph.D., UPGM FIT VUT

Zadání:

1. Seznamte se s metodami vyhledávání klíčových slov.

2. Navrhněte a implementujte systém pro automatickou vyhledávání se zaměření na víceslovné výrazy.

3. Vyhodnoťte vytvořený systém pomocí standardních metrik.

Část požadovaná pro obhajobu SP:

1. prototyp systému

Kategorie:

Umělá inteligence

Literatura:

●

podle dohody

(4)

Licenční smlouva

Licenční smlouva je uložena v archívu Fakulty informačních technologií Vysokého učení

technického v Brně.

(5)

Abstrakt

Tato práce si klade za c´ıl zpracovat poznatky o znaˇckován´ı kl´ıˇcových slov v textu a vyuˇz´ıt je v praxi pro automatické generován´ı rejstˇr´ık˚u. D˚uvodem pro automatizaci tvorby rejstˇr´ık˚u je jejich vysoká nároˇcnost a cena. Teoretická ˇcást práce se zabývá pˇredevˇs´ım metodami hledán´ı v´ıcenásobných výraz˚u, které jsou významné pro zpracovávaný text. Praktická ˇcást aplikuje vybrané metody na testovac´ı data a shrnuje výsledky experiment˚u.

Kl´ıˇcov´

a slova

rejstˇr´ık, kl´ıˇcová slova, v´ıcenásobné výrazy, morfologická analýza, znaˇckován´ı

Abstract

The main goal of this work is to survey the field of the automatic keywords tagging in a text and apply this background for automatically generating back-of-the-book indexes. Human made indexes are expensive and that’s why we are looking for (semi)-automatic methods indexes. The theoretical part of this thesis deals with collocations, which are an important part of generated indexes. The practical part of the work applies selected methods to testing data and summarize results of experiments.

Keywords

index, keywords, multi-words expresion, morphological analyse, tagging

Citace

Marcela Maˇsláˇnová: Automatická identifikace kl´ıˇcových slov, diplomová práce, Brno, FIT VUT v Brnˇe, 2007

(6)

Automatick´

a identifikace kl´ıˇcov´

ych slov

Prohl´

aˇsen´ı

Prohlaˇsuji, ˇze jsem tuto diplomovou práci vypracovala samostatnˇe pod veden´ım pana doc. Pavla Smrˇze. Uvedla jsem vˇsechny literárn´ı prameny a publikace, ze kterých jsem ˇ

cerpala.

. . . . Marcela Maˇsl´aˇnov´a

22. kvˇetna 2007

Podˇekov´

an´ı

Ráda bych podˇekovala panu doc. Smrˇzovi za veden´ı diplomové práce. Dále bych ráda podˇekovala za rady Tomáˇsi Janouˇskovi.

c

Marcela Maˇsl´aˇnov´a, 2007.

Tato práce vznikla jako ˇskoln´ı d´ılo na Vysokém uˇcen´ı technickém v Brnˇe, Fakultˇe in-formaˇcn´ıch technologi´ı. Práce je chránˇena autorským zákonem a jej´ı uˇzit´ı bez udˇelen´ı oprávnˇen´ı autorem je nezákonné, s výjimkou zákonem definovaných pˇr´ıpad˚u.

(7)

Obsah

1 Uvod´ 2

2 Vymezen´ı pojm˚u 4

2.1 Rejstˇr´ıky . . . 4

2.2 Typy v´ıceslovn´ych v´yraz˚u . . . 5

2.3 Pˇredzpracov´an´ı textu . . . 7

3 Základn´ı techniky vyhledáván´ı kandidát˚u na rejstˇr´ıková hesla 11 3.1 Jednoslovné výrazy . . . 11

3.2 V´ıceslovn´e v´yrazy . . . 11

3.3 Existuj´ıc´ı syst´emy pro generov´an´ı rejstˇr´ık˚u . . . 13

4 Urˇcov´an´ı relevantn´ıch slovn´ıch spojen´ı 16 4.1 Smˇerodatn´a odchylka . . . 16

4.2 T - test . . . 17

4.3 M´ıra vz´ajemn´e informace . . . 18

4.4 Pearson˚uv X2 test . . . 18

4.5 Pravdˇepodobnostn´ı pod´ıly . . . 19

4.6 Metody zaloˇzen´e na gramatice . . . 20

5 Testovac´ı data a vytvoˇren´y syst´em 21 5.1 Testovac´ı data . . . 21

5.2 Vytvoˇren´y syst´em . . . 22

5.3 Zpracov´an´ı n-gram˚u . . . 24

6 V´ysledky experiment˚u 28 6.1 Metodologie vyhodnocov´an´ı . . . 28

6.2 Vyhodnocen´ı provedené na základˇe ˇcetnosti výraz˚u . . . 29

6.3 Vyhodnocen´ı na z´akladˇe X2 . . . 33

6.4 Odstranˇen´ı redundantn´ıch v´yraz˚u . . . 34

6.5 Pˇr´ıpadov´a studie . . . 35

6.6 Zhodnocen´ı nalezen´ych v´ysledk˚u . . . 36

7 Z´avˇer 38

A Seznam pouˇz´ıvan´ych zkratek z projektu PDT 39

(8)

Kapitola 1

´

Uvod

Zpracován´ı textu se zaˇcalo ve vˇetˇs´ı m´ıˇre zkoumat v 60. letech minulého stolet´ı, kdy se výzkum v IT zamˇeˇril na umˇelou inteligenci, zpracován´ı ˇreˇci i textu. Od p˚uvodn´ı snahy vyuˇz´ıt nˇejaký racionáln´ı základ v pravidlech jazyk˚u se upustilo a zaˇcalo se v´ıce vyuˇz´ıvat mechanického zpracován´ı a statistických výsledk˚u, které dosahuj´ı mnohem lepˇs´ıch výsledk˚u. V souˇcasné dobˇe se automatické zpracován´ı textu vyuˇz´ıvá v mnoha aplikac´ıch. Vˇetˇsina textových editor˚u obsahuje alespoˇn nˇejakou jazykovou podporu, kontrolu pravopisu, dˇelen´ı slov na konc´ıch ˇrádk˚u, nab´ıdku synonym atd. Nˇekteré programy poskytuj´ı i podporu tvorby rejstˇr´ık˚u, která ovˇsem nen´ı pˇr´ıliˇs dokonalá. Obvykle dokáˇz´ı pouze oznaˇcená slova vypsat na konci textu s ˇc´ıslem pˇr´ısluˇsné strany, kde se výrazy vyskytuj´ı. I s programovou podporou pro vkládán´ı rejstˇr´ıku mus´ı ˇclovˇek obvykle sám vybrat slova a slovn´ı spojen´ı, která maj´ı být do rejstˇr´ıku zaˇrazena. Pro rozsáhlé texty to m˚uˇze být ˇcasovˇe nároˇcné, zvláˇst’ pokud rejstˇr´ık tvoˇr´ı nˇekdo jiný neˇz autor.

Na profesionáln´ı úrovni se tvorbou rejstˇr´ık˚u zabývaj´ı obvykle v nakladatelstv´ıch speci-alizovaných na literaturu populárnˇe-nauˇcnou, literaturu faktu nebo na uˇcebnice. Rejstˇr´ıky napomáhaj´ı orientaci v textu a urychluj´ı vyhledáván´ı zvoleného tématu.

ˇ

Casová nároˇcnost tvorby rejstˇr´ık˚u vede ke snaze vytvoˇrit nástroj, který by dokázal rejstˇr´ıky tvoˇrit automaticky anebo alespoˇn tvorbu rejstˇr´ıku urychlil. S rychle nar˚ustaj´ıc´ım mnoˇzstv´ım ˇclánk˚u nen´ı moˇzné je vˇsechny ruˇcnˇe procházet a vytváˇret pro kaˇzdý rejstˇr´ık. V textech se objevuj´ı stále nová jména, spoleˇcnosti ˇci výrobky, coˇz dˇelá problém program˚um pro automatickou tvorbu rejstˇr´ık˚u, která je zaloˇzena na slovn´ıc´ıch. M˚uˇze se stát, ˇze text je indexován pokaˇzdé jinou spoleˇcnost´ı pro jiné úˇcely a pojmy v rejstˇr´ıku se pro jeden text mohou diametrálnˇe liˇsit. Pak je lepˇs´ı i nedokonalý automatický rejstˇr´ık neˇz nˇekolik r˚uzných. Tyto problémy vedly ke vzniku LinkIT [11], který mˇel za úkol vyˇreˇsit indexován´ı univerzitn´ıch ˇclánk˚u.

Firmy zabývaj´ıc´ı se tvorbou rejstˇr´ık˚u pouˇz´ıvaj´ı profesionáln´ı programy, které nab´ızej´ı podporu tvorby rejstˇr´ık˚u. Podpora tvorby znamená pouze nab´ıdku moˇzných kl´ıˇcových slov, které by se v rejstˇr´ıku mohly vyskytnout, programy nedokáˇz´ı vytvoˇrit celý rejstˇr´ık auto-maticky. Nab´ıdku dokáˇz´ı vytváˇret obvykle podle nˇekterého z tˇechto kriteri´ı:

• ˇcetnost slov — uˇzivatel nastav´ı maximáln´ı poˇcet výskyt˚u slov. Napˇr. nastav´ı výbˇer slov, která se vyskytuj´ı 50 a ménˇe krát. T´ım omez´ı mnoˇzstv´ı výraz˚u, ze kterých se budou vyb´ırat výrazy do rejstˇr´ıku.

• seznam vˇsech vlastn´ıch jmen vyskytuj´ıc´ıch se v textu. • seznam oznaˇcených slov na základˇe ruˇcn´ıho výbˇeru.

(9)

• seznam na základˇe fráz´ı — napˇr. frázová slovesa, nˇekteré programy maj´ı slovn´ık v´ıceslovných kl´ıˇcových výraz˚u.

Vˇsechny metody kromˇe ruˇcn´ıho oznaˇcen´ı kl´ıˇcových slov jsou nespolehlivé, proto je zde moˇznost výbˇeru kl´ıˇcových slov ponechána na uˇzivateli.

Pokud uˇzivatel sám oznaˇcuje slova v anglickém textu, pak nen´ı takový problém s vy-hledán´ım slov v r˚uzných tvarech, protoˇze obvykle postaˇc´ı odtrhnout koncovky jako s a va-rianty s apostrofy. Pro ˇceˇstinu je nutné se zabývat koncovkami slov v´ıce, protoˇze jedno slovo se m˚uˇze v textu vyskytovat v mnoha tvarech napˇr. vystupˇnovaná pˇr´ıdavná jména, skloˇnovaná podstatná jména nebo ˇcasovaná slovesa. Problém v ˇceském textu nastává také tehdy pokud jsou v textu pouˇzity pojmy z ciz´ıch jazyk˚u nebo jsou pouˇz´ıvány pomˇernˇe nové, slovn´ıku neznámé, term´ıny.

Problematika tvorby rejstˇr´ık˚u bude podrobnˇeji popsána v podkapitole 2.1. Automatická tvorba rejstˇr´ık˚u je zaloˇzeno na vyhledáván´ı významných v´ıcenásobných výraz˚u a jedno-slovných kl´ıˇcových slov, jej´ıˇz základy jsou popsány v podkapitole 2.2. Vyhledáván´ı výraz˚u je zaloˇzeno pˇredevˇs´ım na ˇcetnosti výskytu slov v textu. Metody, kterými je moˇzné v´ıcenásobné výrazy z´ıskat, jsou detailnˇe popsány podkapitolou 4, hledán´ım jednoslovných výraz˚u se zabývá podkapitola 3.1. Tato kapitola se také zabývá problematikou relevance nalezených v´ıcenásobných výraz˚u. V kapitole 3.2 jsou rozebrány metody, kterými se tyto výrazy daj´ı vybrat. Testovac´ı data jsou uvedena v kapitole 5.1, kde je také popsán systém, kterým jsou detekovány kl´ıˇcová slova a generovány rejstˇr´ıky. Pˇredposledn´ı kapitola 6 se zabývá metodologi´ı hodnocen´ı a jednotlivými experimenty provádˇenými nad daty.

Tato práce si klade za c´ıl zjistit nakolik lze pomoc´ı metod zpracován´ı pˇrirozeného ja-zyka zautomatizovat tvorbu rejstˇr´ık˚u. Velký d˚uraz je zde kladen na praktickou pouˇzitelnost výstupu a ˇcasovou nároˇcnost. C´ılem práce je zjistit, jestli pouˇzité metody dokáˇz´ı urychlit tvorbu a zpracován´ı rejstˇr´ıku uˇzivateli. Experimenty se zamˇeˇrily na to, které techniky jsou nezbytnˇe nutné pro tvorbu rejstˇr´ık˚u napˇr. lemmatizace, urˇcen´ı slovn´ıch druh˚u aj.

Zkoumán´ı, zda nab´ızený rejstˇr´ık obsahuje relevantn´ı data, se bude ovˇeˇrovat na lite-ratuˇre s profesionálnˇe vytvoˇrenými rejstˇr´ıky. Vzhledem k tomu, ˇze literatury s kvalitnˇe vy-tvoˇrenými rejstˇr´ıky je málo, mus´ı se poˇc´ıtat s t´ım, ˇze kaˇzdý systém nab´ıdne ˇsirˇs´ı mnoˇzstv´ı dat, neˇz které je uvádˇeno v knihách. Protoˇze je kaˇzdý rejstˇr´ık vytvoˇren ponˇekud jinak a s normou [1] se zacház´ı sp´ıˇse jako s doporuˇcen´ım, je tˇreba poˇc´ıtat s problémy automatického hodnocen´ı. Dalˇs´ım problémem je, zda kvalita automaticky generovaných rejstˇr´ık˚u závis´ı na délce textu.

Text studijn´ı opory k pˇredmˇetu Zpracován´ı ˇreˇcových signál˚u by mˇel pomoci, odpovˇedˇet na nˇekteré z tˇechto otázek. Je na nˇem provedena pˇr´ıpadová studie, která je popsána v ka-pitole 6.5 slouˇz´ıc´ı jako závˇereˇcný test pro vytvoˇrený systém.

(10)

Kapitola 2

Vymezen´ı pojm˚

u

2.1 Rejstˇ

r´ıky

Pro vyhledáván´ı poloˇzek v rejstˇr´ıku je nutné si uvˇedomit, jaká slova nebo v´ıceslovné výrazy se v nˇem vyskytuj´ı. Rejstˇr´ık je podrobný, obvykle abecednˇe seˇrazený seznam pojm˚u publikace, napˇr. knihy. Je vytváˇren proto, aby pomohl ˇctenáˇri naj´ıt informace snadno a rychle. V ideáln´ım pˇr´ıpadˇe nen´ı rejstˇr´ık pouhým seznamem základn´ıch pojm˚u publikace, ale uspoˇrádaným seznamem poloˇzek zahrnuj´ıc´ıch kˇr´ıˇzové odkazy1. Rejstˇr´ıky mohou obsa-hovat zkratky pˇr´ıpadnˇe i jména citovaných autor˚u. Pokud je citovaných autor˚u nebo jmen v rejstˇr´ıku v´ıce, pouˇz´ıvá se pro nˇe jmenný rejstˇr´ık, a ostatn´ı kl´ıˇcové výrazy jsou uvedeny v obyˇcejném rejstˇr´ıku. Podle normy [1] by se mˇela dodrˇzovat tato doporuˇcen´ı:

Kvalitnˇe vytvoˇrený rejstˇr´ık vycház´ı z toho, co budou potencionáln´ı ˇctenáˇri hle-dat. Délka rejstˇr´ıku má dosahovat 10–15% stran pro vˇedecké publikace, 5% pro ostatn´ı ˇzánry. V rejstˇr´ıku se doporuˇcuje pouˇz´ıvat uspoˇrádán´ı slov — podstatné jméno, pˇr´ıdavné jméno následované ˇc´ıslem strany. Doporuˇcuje se nepouˇz´ıvat nebo ignorovat vlastn´ı zájmena. Pokud existuje v´ıce poloˇzek druhého ˇrádu, je pˇrehlednˇejˇs´ı vytvoˇrit jemnˇejˇs´ı strukturu s dalˇs´ımi odráˇzkami jako v tabulce 2.1. Poloˇzky rejstˇr´ıku by nemˇely zaˇc´ınat velkým p´ısmenem pokud to nejsou vlastn´ı jména. Pokud je uvádˇen i seznam ilustrac´ı, mus´ı m´ıt vlastn´ı rejstˇr´ık ilustrac´ı.

Doporuˇcované seˇrazen´ı pojm˚u v rejstˇr´ıku je uvedeno na pˇr´ıkladech tabulek 2.1 a 2.2, ta-bulkou 2.1 je ilustrován pˇr´ıpad v´ıceúrovˇnového rejstˇr´ıku s jemnou strukturou.

programován´ı - genetické, 98, 112, 114 - systém˚u, 56, 57

- embedded, 56, 110, 111 - operaˇcn´ıch, 56, 59, 112 - profesion´aln´ı, 3

Tabulka 2.1: Z´akladn´ı tvar pojm˚u v rejstˇr´ıku — typ I.

V rejstˇr´ıku se obvykle slova uvádˇej´ı v základn´ım tvaru. Základn´ı tvar bývá v prvn´ım pádu pro ˇr´ıd´ıc´ı podstatné jméno a infinitiv pro slovesa (pokud se sloveso vyskytne). V reálných rejstˇr´ıc´ıch jako tabulka 2.2 se ovˇsem nejˇcastˇeji vyskytuj´ı jednoslovné nebo

1

(11)

genetické programován´ı, 98, 112, 114 grafická karta, 114, 115

.. .

programov´an´ı operaˇcn´ıch syst´em˚u, 3

Tabulka 2.2: Z´akladn´ı tvar pojm˚u v rejstˇr´ıku — typ II.

dvouslovné výrazy. Pro dvojice jsou pak nejcharakteristiˇctˇejˇs´ı výskyty z tabulky 2.3. Sloˇzitˇejˇs´ı a lépe vytvoˇrené rejstˇr´ıky mohou být v´ıceúrovˇnové jak je uvedeno na pˇr´ıkladˇe 2.1. Tvorba v´ıceúrovˇnových rejstˇr´ık˚u je nejnároˇcnˇejˇs´ı, ale pro ˇctenáˇre nejpˇrehlednˇejˇs´ı. Taková struktura p˚ujde v ˇceském textu automaticky vytvoˇrit velmi tˇeˇzko kv˚uli poskládán´ı slov z výrazu ve správným poˇrad´ı a tvaru. Bliˇzˇs´ı informace o tvorbˇe rejstˇr´ık˚u lze naj´ıt pod normou ˇCSN ISO 999 - 1998 [1].

Tvary slov ∼ %

pˇr´ıdavné jméno + podstatné jméno v prvn´ım pádˇe 80 podstatné jméno + podstatné jméno v druhém pádˇe 18

ostatn´ı tvary 2

Tabulka 2.3: Charakteristick´e tvary slov v rejstˇr´ıku

2.2 Typy v´ıceslovn´

ych v´

yraz˚

u

V literatuˇre se vyskytuje mnoho pojm˚u souvisej´ıc´ıch s kolokacemi, jejichˇz definice se nemus´ı shodovat. Tato práce ˇcerpala definice a rozdˇelen´ı kolokac´ı pˇredevˇs´ım z [8], podle které oznaˇcujeme jako kolokaci nˇekolik slov, která na sebe maj´ı syntaktickou a sémantickou vazbu. Tj. skupina slov, která popisuje nˇejakou skuteˇcnost a pˇritom z jednotlivých slov nemus´ı být zˇrejmý jejich význam. Kolokace maj´ı tyto charakteristické vlastnosti:

• omezenou kompozicionalitu — tzn. z jednotlivých slov nen´ı moˇzné urˇcit význam ko-lokace. ˇCasto citovaný pˇr´ıklad je silný ˇcaj, kde silný vypov´ıdá o kvalitˇe ˇcaje a ne o fyzické s´ıle. V nˇekterých pˇr´ıpadech se m˚uˇze význam jednotlivých slov naprosto liˇsit od významu kolokace. Takovým extrémn´ım pˇr´ıpadem jsou idiomy, napˇr. dát si do tˇela.

• omezenou substituovatelnost — nelze nahradit slovo jiným slovem, i kdyˇz popisuje stejnou vlastnost napˇr. b´ılé v´ıno je sp´ıˇse ˇzluté barvy, ale nikdy o nˇem takto nemluv´ıme. • omezenou modifikovatelnost (pˇrizp˚usobitelnost) — nˇekteré kolokace, pˇredevˇs´ım idi-omy, nemohou být rozˇs´ıˇreny o dalˇs´ı lexikáln´ı2 jednotky, ani nemohou být ohýbány, protoˇze by se zmˇenil jejich význam. Napˇr. pˇrij´ıt na buben — pˇrij´ıt na zelený buben. Kolokace zahrnuj´ı pojmy jako: kl´ıˇcová slova, idiomy, term´ıny, typická spojen´ı a dalˇs´ı.

Kl´ıˇcová slova mohou být jednoslovná nebo v´ıceslovná. Jsou to podstatné pojmy v textu, pojmenovávaj´ı problematiku, kterou se text zaob´ırá. Pˇr´ıkladem jednoslovného kl´ıˇcového

2

(12)

slova m˚uˇze být tˇreba impresionismus v Dˇejinách umˇen´ı a pro v´ıceslovná napˇr. rene-sanˇcn´ı mal´ıˇrstv´ı. Pokud se kl´ıˇcová slova týkaj´ı urˇcité problematiky, mluv´ıme o term´ınech pouˇz´ıvaných v tomto oboru, napˇr. základn´ı deska v architektuˇre poˇc´ıtaˇc˚u. Hlavn´ı rozdˇelen´ı kolokac´ı zaloˇzené na sémantice a syntaxi:

• typick´a spojen´ı • term´ıny

• idiomy

Co je to term´ın bylo uvedeno výˇse, zbylé dva pojmy se ˇcasto pˇrekrývaj´ı.

Obvykle je idiom˚um vˇenována jen malá pozornost, protoˇze se mohou pˇrekrývat s v´ıceslovnými výrazy, a jen tˇeˇzko lze urˇcit pˇresnou hranici mezi nimi. ˇClovˇek urˇc´ı význam idiomu podle sémantického významu, napˇr. typický ˇceský idiom je natáhnout baˇckory, dát si do nosu. Pokud ˇclovˇek nezná význam idiomu, nepozná z jednotlivých slov, o co se jedná. Obvykle bývá idiom v kaˇzdém jazyce odvozen od jiných slov (natáhnout baˇckory — kick the bucket ), proto je pˇredmˇetem mnoha výzkum˚u vyhledáván´ı idiom˚u a v´ıceslovných výraz˚u. Ve slovn´ıc´ıch jsou potˇreba nejen idiomy a v´ıceslovné výrazy, ale i volnˇejˇs´ı v´ıceslovné výrazy jako pˇr´ıpady, která pˇredloˇzka se poj´ı s kterým slovesem. Automaticky se daj´ı z´ıskávat i takovéto výrazy a jejich hledán´ım se mimo jiné zabývá [5]. Mezi idiomy nepatˇr´ı uˇz takové v´ıceslovné výrazy, které maj´ı pˇr´ıliˇs volný význam. Na základˇe jednotlivých slov se nedá pochopit jejich smysl, ale vazba nen´ı tak pevná jako u idiom˚u uvedených výˇse napˇr. frázové sloveso [13] a podmˇet zavolat lékaˇre — call for - doctor. Z jednotlivých slov tady lze urˇcit smysl, pˇresto je frázové sloveso ustálená vazba. Existuj´ı i slovn´ı spojen´ı (pˇredevˇs´ım v an-gliˇctinˇe) jako fire away3, která maj´ı naprosto odliˇsný význam od významu jednotlivých slov.

Typické výrazy — v´ıceslovné výrazy lze ilustrovat na výrazu dobˇre (s nˇekým) vycházet (get away with), coˇz jsou v´ıceslovné slovesné výrazy (multi-word verbs). Takové výrazy lze rozdˇelit do podtˇr´ıd na frázová slovesa (typická pˇredevˇs´ım pro angliˇctinu) a slovesa poj´ıc´ı se s pˇredloˇzkami. Vˇsechny tyto výrazy se chovaj´ı jako jedno slovo. Term´ın

”slovo“ je ˇcasto pouˇz´ıvané nejen v morfologickém smyslu, ale také pro poloˇzky, které se chovaj´ı jako jedna entita lexikálnˇe a syntakticky. Pojem v´ıceslovné výrazy a dalˇs´ı podtˇr´ıdy byly zavedeny, pro výstiˇznˇejˇs´ı pojmenován´ı skupin chovaj´ıc´ıch se podle urˇcitých pravidel nebo charakterizovaných podobnými vlastnostmi.

V´ıceslovné výrazy zaloˇzené na pˇredloˇzkách nepokládáme za idiomy, pˇrestoˇze jsou na sebe pevnˇe vázány. Je totiˇz tˇeˇzké odliˇsit, co je pouze pˇredloˇzka a co je v´ıceslovný výraz napˇr. narozd´ıl od, co se týˇce (apart from, as for ). K podobné situaci docház´ı u podstatných jmen jako asistent ˇreditele — assistant director. Podstatná jména maj´ı ustálený výraz, ale nen´ı to idiom narozd´ıl od spojen´ı typu ruku v ruce - arm in arm. Zvláˇstn´ı postaven´ı v kolokac´ıch zauj´ımaj´ı vlastn´ı jména. Patˇr´ı mezi kolokace, ale ˇcasto jsou neˇzádouc´ı a je tˇreba je odfiltrovat.

Kolokace se také daj´ı rozdˇelit podle toho, jak se vyskytuj´ı ve vˇetách. Obvykle se jed-notlivá slova kolokace vyskytuj´ı vedle sebe, nˇekteré kolokace mohou být oddˇelené dalˇs´ımi slovy tzv. kolokace s d´ırami . Takový pˇr´ıklad je uveden n´ıˇze ve tˇret´ı vˇetˇe.

Pˇr´ıklady vˇet s r˚uznˇe spoˇrádanými kl´ıˇcovými slovy:

• Objekty lze naj´ıt v budovˇe Akademie vˇed na N´arodn´ı tˇr´ıdˇe, vstup je voln´y.

3

(13)

• Voln´y vstup v´am nem˚uˇzeme zaruˇcit.

• Vstup na v´ystavu je voln´y pouze v pondˇel´ı.

Kl´ıˇcov´ymi slovy (tedy kolokac´ı) je v tomto pˇr´ıpadˇe voln´y vstup.

S automatickým zpracován´ım jazyka jsou spojeny dalˇs´ı pojmy jako lemmatizace — pˇrevod (nejen) kolokace na základn´ı tvar, napˇr. operaˇcn´ımi systémy na operaˇcn´ı systém. Zpracován´ı textu se provád´ı na rozsáhlých textech — korpusech. Korpusy jsou texty upra-vené s ohledem na automatické zpracován´ı textu. Obvykle jsou uloˇzeny ve formátu slovo na ˇrádek. Pro zachycen´ı vnitˇrn´ı struktury textu jako jsou tˇreba nadpisy se pouˇz´ıvaj´ı znaˇckovac´ı jazyky napˇr. SGML4, takové korpusy jsou (zat´ım) sp´ıˇse vyj´ımkou. Korpusy mohou být vy-tvoˇreny z knih, novinových ˇclánk˚u, z internetových ˇclánk˚u aj. Podle toho, k ˇcemu je korpus potˇreba, se vyb´ıraj´ı data, pˇr´ıpadnˇe jazyk nebo jazyky.

2.3 Pˇ

redzpracov´

an´ı textu

Jednoslovné výrazy mohou tvoˇrit znaˇcnou ˇcást rejstˇr´ıku. Jejich vyhledáván´ı je zaloˇzené na ˇcetnosti výskytu slov v textu. Takto se na výstup dostane znaˇcné mnoˇzstv´ı pomocných slov, která se daj´ı odfiltrovat stop-listem5, který obsahuje nejˇcastˇeji pouˇz´ıvaná slova, pˇredevˇs´ım funkˇcn´ı slova6. Odfiltrován´ı slov m˚uˇzeme zaloˇzit na oznaˇcen´ı slov slovn´ımi druhy, a pak vynechat pomocná slova. Pro dalˇs´ı zúˇzen´ı výbˇeru slov lze pouˇz´ıt nˇekteré z dále popsaných metod z kapitoly 4.

O nˇeco sloˇzitˇeji jsou zpracovávány V´ıceslovné kolokace, ale také se zde uplatˇnuje filtrace stop-listem. Obecné rozdˇelen´ı metod vyhledáván´ı v´ıceslovných kolokac´ı:

• frekvenˇcn´ı vyhledáván´ı (n-gramy mohou být vytváˇreny podle r˚uzných pravidel) • hledán´ı na základˇe lingvistických poznatk˚u — gramatické vzorce

• kombinace metod

Vyhledáván´ı bigram˚u7 je také zaloˇzeno na frekvenci výskytu v textu. Pouhým frekvenˇcn´ım hledán´ım lze z´ıskat kolokace jako v tabulce 2.4. Jak je vidˇet mezi prvn´ıch pár nejˇcastˇeji se vyskytuj´ıc´ıch bigram˚u, se nedostala ˇzádná slova, která bychom mohli povaˇzovat za typickou kolokaci. Tento problém se bˇeˇznˇe ˇreˇs´ı tak, ˇze se vytvoˇr´ı stop-list vˇsech ˇcasto se opakuj´ıc´ıch spojen´ı, které nám nevyhovuj´ı. Je to nejrychlejˇs´ı ˇreˇsen´ı, ale je tˇreba dobrý slovn´ık se vˇsemi pomocnými slovy, ve vˇsech tvarech, který se na odfiltrován´ı pouˇzije. Dalˇs´ı moˇznost´ı je pouˇz´ıt znaˇckovaˇc, který urˇc´ı slovn´ı druhy bigram˚u. Pak staˇc´ı oznaˇcit slovn´ı druhy, které budou z výstupu odfiltrovány.

Stop-list zaloˇzený pouze na odstranˇen´ı pomocných slov by odstranil napˇr. se nebo v, ale bigramy jako v roce by z˚ustaly, coˇz m˚uˇzeme za kl´ıˇcové povaˇzovat jen tˇeˇzko. V angliˇctinˇe je to celkem triviáln´ı problém, protoˇze pro urˇcen´ı slovn´ıch druh˚u existuje jen pár pravidel. V ˇceˇstinˇe je to mnohem komplikovanˇejˇs´ı kv˚uli ohýbán´ı slov8.

4_{Standard Generalized Markup Language} 5

Stop-list — seznam slov, kter´a jsou vyˇrazena z dalˇs´ıho zpracov´an´ı.

6_Pˇ_redloˇ_{zky, spojky, nˇ}_ekter´_{a z´}_{ajmena, pomocn´}_{a slovesa, aj.} 7

Kolokace, která je dvouslovným výrazem

8

(14)

Poˇcet výskyt˚u Bigram 4403 v roce 3286 a to 3101 je to 2880 a v 2743 v´ıce neˇz 2628 se v 2624 ale i 210 microsoft windows 210 mus´ı m´ıt 210 maj´ı být 209 systém˚u a 209 Hradec Králové 209 o výkonu

209 urˇcen´e pro

Tabulka 2.4: Bigramy — frekvenˇcn´ı vyhled´av´an´ı

Frekvenˇcn´ı vyhledáván´ı je moˇzné zaloˇzit na prostém procházen´ı textu nebo pouˇz´ıt ”okénko“ — vytváˇrej´ıc´ı bigramy ze slov pˇred (za) aktuáln´ım slovem. Metod z´ıskáván´ı bi-gram˚u je v´ıce. Po odfiltrován´ı pomocných slov by mˇelo být jasnˇejˇs´ı, zda nˇekterá metoda dává výraznˇe lepˇs´ı výsledky nebo jestli vycházej´ı zhruba stejnˇe.

V tabulkách 2.4 a 2.5 byla nalezena vlastn´ı jména. V nˇekterých textech nemus´ı být ˇ

zádaná, a v takovém pˇr´ıpadˇe je tˇreba m´ıt rozsáhlý slovn´ık, který je dokáˇze rozliˇsit.

Vˇetˇsina citované literatury se zabývá pˇredevˇs´ım hledán´ım bigram. Kolokace jsou ˇcasto sloˇzeny z v´ıce neˇz dvou slov, a proto jsou v této práci zmiˇnovány trigramy a delˇs´ı kolokace. V [8] je zmiˇnováno hledán´ı bigram˚u a trigram˚u. Pokud je z jednoho textu vygenerován seznam bigram˚u i trigram˚u, pak mohou být vygenerovány bigramy, které jsou ˇcástmi tri-gram˚u. Napˇr. v pˇr´ıpadˇe hrubého domác´ıho produktu z tabulky 2.6 je plnohodnotnou kolokac´ı trigram, protoˇze z bigramu hrubý domác´ı nelze urˇcit smysl. U ostatn´ıch dvou mohou být správnˇe bigramy i trigramy. Automatické zjiˇstˇen´ı, jestli je správný delˇs´ı nebo kratˇs´ı term´ın, lze zaloˇzit na ˇcetnosti výraz˚u.

Po vygenerován´ı bigram˚u (n-gram˚u) je na výstupu spousta zbyteˇcných slov, která se daj´ı odfiltrovat na základˇe:

• slovn´ıku

• seznamu v´yraz˚u • podle slovn´ıch druh˚u

Jednou moˇznost´ı je vytvoˇrit stop-list, který je tˇreba naplnit vˇsemi kombinacemi pˇredloˇzek a spojek, zájmeny a dalˇs´ımi. Pro vytvoˇren´ı je moˇzné pouˇz´ıt jiˇz hotový stop-list pomocných slov a doplnit jej nejˇcastˇejˇs´ımi slovy. Po odstranˇen´ı slov ze stop-listu by zbyly pouze výrazy vyhodnocené jako kolokace, které se pˇrevedou do základn´ıho tvaru. Daly by se pˇrevést pouze ty nejˇcastˇejˇs´ı, ale nˇekterá kl´ıˇcová slova se v textu mohou vyskytovat pouze zˇr´ıdka a nemusely by se mezi nejˇcastˇejˇs´ımi objevit.

Dalˇs´ı moˇzný pˇr´ıstup je urˇcit slovn´ı druhy a urˇcit takové kombinace slovn´ıch druh˚u, které se nebudou v bigramech vyskytovat. Typickým pˇr´ıkladem bude bigram obsahuj´ıc´ı

(15)

Poˇcet v´yskyt˚u Bigram 6006 ˇze a 5933 ˇze v 5658 ˇze se 4860 ˇze na 4314 v a 4180 ˇze je 3720 v se 79 microsoft windows 79 Csn enˇ 79 pro windows 78 v z´ajmu 78 kontakt s 78 Ctibor ˇCejpa 78 pro grafiky

Tabulka 2.5: Bigramy hledan´e

”ok´enkem“ — pˇr´ıklad z testovac´ıch dat

Trigramy Bigramy A Bigramy B

microsoft windows nt microsoft windows windows nt ochrana ˇzivotn´ıho prostˇred´ı ˇzivotn´ı prostˇred´ı ochrana ˇzivotn´ı hrubý domác´ı produkt domác´ı produkt hrubý domác´ı

Tabulka 2.6: Trigramy vs. bigramy

slova — pˇredloˇzka následovaná spojkou, libovolný slovn´ı druh následovaný pˇredloˇzkou atd. Pro pˇresnˇe definovaný problém je moˇzné pouˇz´ıt opaˇcný pˇr´ıstup a vytvoˇrit vzorce slovn´ıch druh˚u. Pokud by bylo c´ılem, tˇreba v anglickém textu, z´ıskat frázová slovesa [13], pak by se dal vytvoˇrit vzorec: Sloveso Pˇredloˇzka Libovolný slovn´ı druh, kde po pˇredloˇzce následuje slovo libovolného slovn´ıho druhu.

Znaˇckován´ı slovn´ıch druh˚u lze provádˇet r˚uznˇe sloˇzitými metodami, záleˇz´ı na poˇzadované ´

uspˇeˇsnosti. S dostateˇcnˇe velkým oznaˇckovaným korpusem dat je moˇzné vytvoˇrit si trénovac´ı a testovac´ı mnoˇzinu. K dat˚um z testovac´ı mnoˇziny pak staˇc´ı vyhledat stejná slova v trénovac´ı mnoˇzinˇe a pˇriˇradit slovn´ı kategorie. Problém nastane, pokud se jedná o trénovac´ı mnoˇzinˇe neznámé slovo.

Mezi dalˇs´ı jednoduˇsˇs´ı postupy patˇr´ı jiˇz dˇr´ıve zmiˇnovaný morfologický analyzátor. Mor-fologie (tvaroslov´ı) je vˇeda zabývaj´ıc´ı se ohýbán´ım a odvozován´ım slov pomoc´ı pˇredpon a pˇr´ıpon. Slova kaˇzdého jazyka jsou sestavená z jednoho ˇci v´ıce morfém˚u — nejmenˇs´ı jazykové jednotky s identifikovatelným významem. Touto cestou je moˇzné podle konco-vek jednotlivých slov zhruba urˇcit slovn´ı druhy, napˇr. barevný podle koncovky -ný bude pravdˇepodobnˇe pˇr´ıdavné jméno.

Urˇcován´ım slovn´ıch druh˚u se zabývalo jiˇz mnoho výzkum˚u. Mezi ˇceské morfologické analyzátory patˇr´ı projekt Masarykovy univerzity — [10], který je zaloˇzen na morfologii ˇ

cesk´eho jazyka. Na Univerzitˇe Karlovˇe vznikl projekt — PDT [7].

PDT pracuje se slovn´ıkem pˇr´ısluˇsného jazyka. Zvláˇstn´ı pozornost tvorbˇe morfologického analyzátoru byla vˇenována pˇredponám, které se ve slovanských jazyc´ıch hodnˇe vyskytuj´ı

(16)

Poˇcet v´yskyt˚u Trigram

1890 v souˇcasné dobˇe 1103 v ˇCeské republice 709 v roce 1994 694 v roce 1995 556 jedná se o 550 na rozd´ıl od 525 ve srovnán´ı s

177 ochrany ˇzivotn´ıho prostˇred´ı

176 a to v

174 a v´ychodn´ı Evropy

173 Cr a Srˇ

172 v nˇekter´ych pˇr´ıpadech

172 ale i v

172 o v´ıce neˇz

Tabulka 2.7: Trojice po sobˇe jdouc´ıch (soused´ıc´ıch) slov

(nej-, ne-), a proto je pouˇziteln´y obecnˇeji pro slovansk´e jazyky.

Znaˇckovaˇcem se mysl´ı program, který dokáˇze slov˚um pˇriˇradit mluvnické kategorie. Morfologický analyzátor dokáˇze pouze navrhnout kategorie a lemmu. Pˇri zpracován´ı znaˇckovaˇcem za pouˇzit´ı slovn´ık˚u m˚uˇze opˇet nastat problém s neznámými slovy, která se daj´ı ˇreˇsit tˇemito zp˚usoby:

• pˇriˇradit nejˇcastˇejˇs´ı slovn´ı druh z tr´enovac´ı mnoˇziny

• vytvoˇrit bigramy/trigramy, které rozhodnou na základˇe pravdˇepodobnost´ı po sobˇe jdouc´ıch slov, o jaký slovn´ı druh se bude jednat

•

”uhodnout“ slovn´ı druh z koncovky na základˇe morfologické analýzy Neznámá slova podle statistiky bývaj´ı pˇredevˇs´ım:

• vlastn´ı jména • pˇr´ıdavná jména

• ostatn´ı — zkratky, znaˇcky aj.

Nejvˇetˇs´ı ˇcást neznámých slov tvoˇr´ı vlastn´ı jména. ˇCásteˇcnˇe se problém jejich urˇcen´ı dá vyˇreˇsit pouˇzit´ım slovn´ıku jmen, ale stále z˚ustává velká ˇcást vlastn´ıch jmen jako jsou názvy, napˇr. spoleˇcnost´ı nebo výrobk˚u. Druhou kategorii neznámých slov tvoˇr´ı pˇredevˇs´ım ciz´ı slova ve formˇe pˇr´ıdavných jmen, napˇr. aglutinaˇcn´ı. Taková slova se daj´ı aspoˇn ˇcásteˇcnˇe urˇcit podle koncovky, ˇc´ımˇz se kategorie neznámých slov opˇet zuˇzuje. Zbývaj´ıc´ı ˇcást je zlomkem oproti dvˇema prvn´ım kategori´ım. Do této kategorie spadaj´ı zkratky, které mohou být ˇcasto pouˇz´ıvané v daném oboru, z kterého text ˇcerpá, ale v bˇeˇzném slovn´ıku se v˚ubec nemus´ı vyskytovat. Totéˇz plat´ı i o podstatných jménech, která budou bˇeˇzná pro urˇcitý obor, ale slovn´ıku naprosto neznámá.

(17)

Kapitola 3

Z´

akladn´ı techniky vyhled´

av´

an´ı

kandid´

at˚

u na rejstˇ

r´ıkov´

a hesla

Rejstˇr´ıky obsahuj´ı pˇredevˇs´ım jednoslovné a dvouslovné výrazy. Zjednoduˇsenˇe lze ˇr´ıct, ˇze problematika vyhledáván´ı výraz˚u v rejstˇr´ıku je problematikou hledán´ı kl´ıˇcových

slov — unigram˚u a kolokac´ı (bigram˚u, trigram˚u).

3.1 Jednoslovn´

e v´

yrazy

Jednoslovné výrazy, jinak nazývané unigramy podle mnoˇzstv´ı slov ve výrazu, jsou v textu hledány na základˇe frekvence výskytu. Problém nastane u pˇr´ıliˇs krátkých text˚u nebo tˇreba manuál˚u1, kde je zm´ınˇeno kl´ıˇcové slovo pouze v nadpisu.

Pro takové pˇr´ıpady je moˇzné hledané unigramy v´ıce ohodnotit, to plat´ı napˇr. pro nad-pisy nebo slova vysázené tuˇcnˇe (pokud bude zpracovávaný text takto oznaˇcen). Hodnota skóre se zvýˇs´ı pomˇernˇe k obodován´ı ostatn´ıch vyhledaných výraz˚u. Dá se oˇcekávávat, ˇze nadpisy budou stejnˇe jako text obsahovat spoustu pomocných slov a nadpisy jako úvod nebudou vhodnými kandidáty rejstˇr´ıku. Proto se seznam unigram˚u vyfiltruje stop-listem ˇ

casto uˇz´ıvan´ych slov nebo se pouˇzij´ı modely popsan´e v podkapitole 3.2

3.2 V´ıceslovn´

e v´

yrazy

Pro zúˇzen´ı mnoˇzstv´ı vyhledaných n-gram˚u z jednoho korpusu lze pouˇz´ıt filtraci backgroun-dovým modelem, který m˚uˇze být: korpusový — obecný anebo doménovy — specializo-vaný. Korpusový background model — se vytváˇr´ı z dostateˇcnˇe velkého obecného korpusu (milióny slov). Pokud se v obecném korpusu nˇekteré slovo vyskytuje jen výjimeˇcnˇe a ve zkoumaném textu mnohokrát, pak zˇrejmˇe p˚ujde o text zabývaj´ıc´ı se problematikou vzta-huj´ıc´ı se k tomuto slovu a takové slovo je vhodným kandidátem na rejstˇr´ıkové heslo.

Backgroundový model vycház´ı ze znalosti Zipfových zákon˚u [14]. Plat´ı rovnice f.r = k, která se dá vyloˇzit na seznamu nejˇcastˇeji se vyskytuj´ıc´ıch slov v textu takto: f — 50-té nejˇcastˇejˇs´ı slovo vyskytuj´ıc´ı se v textu bude zastoupeno r — ∼ 3-krát ˇcastˇeji neˇz

k — 150-té nejˇcastˇejˇs´ı slovo. Takové rozloˇzen´ı neodpov´ıdá normáln´ımu Gaussovu rozloˇzen´ı, ale hyperbolickému Paretovu rozdˇelen´ı. Podle nich lze urˇcit:

1

Manuál — návod k pouˇzit´ı kde se mohou v textu vyskytovat kl´ıˇcová slova (vhodn´ı kandidáti do rejstˇr´ıku) pouze jako nadpisy následované vysvˇetlen´ım. V takovém pˇr´ıpadˇe se kl´ıˇcová slova mohou v textu objevit jen jednou.

(18)

• ˇcetnost termu

• dokumentov´a ˇcetnost ˇ

Cetnost termu z´avis´ı na poˇctu v´yskytu slova v dokumentu dj, kde plat´ı vztah

f (k, s, N ) =

1 ks

PN

n=1n1s

kde N je poˇcet element˚u, k je jejich hodnost a s je exponent, který popisuje rozloˇzen´ı. Vzorec lze chápat jako zlomek, který popisuje ˇcetnost výskytu k-tého nejˇcastˇejˇs´ıho slova. Normalizované rozloˇzen´ı lze zapsat jako:

N

X

n=1

f (k, s, N ) = 1

Korpusový model je tedy vytváˇren ze seznamu vˇsech slov nezávislého korpusu zba-veného pomocných slov, který se podle ˇcetnosti (poˇrad´ı) porovná se slovy zpracovávaného textu jako je tomu v tabulce 3.1. V prvn´ım sloupci jsou uvedené dvojice obecného kor-pusu seˇrazené podle ˇcetnosti, v druhém sloupci jsou dvojice zpracovávaného textu také ˇrazené podle ˇcetnosti. Slova, která se nalézaj´ı na konci seznamu obecného korpusu, jsou mnohem ˇcastˇejˇs´ı ve zpracovávaném textu. Výjimku tvoˇr´ı slova jako tuˇcnice obecná, která je v obecném korpusu i ve zpracovávaném textu nalezena zˇr´ıdka, a proto bude vhodné posu-nout tohoto kandidáta na rejstˇr´ıkový výraz v seznamu v´ıce dopˇredu. V pˇr´ıpadˇe popsaném

obecný korpus zpracovávaný korpus déˇst’ masoˇzravé rostliny mˇekká voda subtropy

subtropy pˇestov´an´ı rostlin ..

. ...

plastové nádoby tuˇcnice obecná masoˇzravé rostliny plastové nádoby tuˇcnice obecná mˇekká voda ..

. ...

Tabulka 3.1: Korpusov´y (backgroundov´y) model

tabulkou by slova jako masoˇzravé rostliny nebo tuˇcnice obecná byly korpusovým modelem vyhodnoceny jako kl´ıˇcová slova vhodná ke vloˇzen´ı do rejstˇr´ıku.

Doménový model je zaloˇzen na oblasti, kterou se dokument (korpus) zaob´ırá. Napˇr. pokud p˚ujde o knihu biologie — masoˇzravé rostliny, pak tento bigram nen´ı vhodným kandidátem rejstˇr´ıkového výrazu, zato kolokacemi budou jednotlivé druhy napˇr. tuˇcnice obecná nebo subtropické rosnatky. Podle domény se pak vyberou slova, která budou pˇri vyb´ırán´ı kolokac´ı ignorována.

Pro doménový model je tˇreba z´ıskat seznam slov a slovn´ıch spojen´ı seˇrazených podle ˇ

cetnost´ı platných pro danou doménu. Takový seznam se dá vytvoˇrit ruˇcnˇe pˇri malém objemu dat. Pˇri vˇetˇs´ım mnoˇzstv´ı slov by to bylo nepohodlné, napˇr. vˇse co se týká práva Evropské unie — práva, paragrafy, naˇr´ızen´ı ˇc. 1680, evropské fondy, evropská ústava. Tento model byl

(19)

pouˇzit systémem Computer-aided Document Indexing System [6], kde pouˇzili pro rozdˇelen´ı slov do domén tezaurus2. Po aplikaci modelu tato slova vypadnou a z˚ustanou pouze pojmy, kterými se tyto zákony zabývaj´ı.

3.3 Existuj´ıc´ı syst´

emy pro generov´

an´ı rejstˇ

r´ık˚

u

Komerˇcn´ı software

Pravdˇepodobnˇe nejznámˇejˇs´ı textový editor MS Word ˇreˇs´ı tvorbu rejstˇr´ık˚u tak, ˇze si uˇzivatel mus´ı oznaˇcit kl´ıˇcová slova v textu, coˇz je pro ˇceˇstinu znaˇcný problém. Jak bylo ˇreˇceno v úvodu, kv˚uli koncovkám je tvorba rejstˇr´ık˚u pro ˇceský jazyk t´ımto zp˚usobem dost nároˇcná. Kaˇzdé slovo by muselo být oznaˇceno ve vˇsech tvarech a v rejstˇr´ıku by se vˇsechny tyto tvary objevily. Podobný postup vyuˇz´ıvá i kanceláˇrský bal´ık OpenOffice. Tyto pro-gramy nenab´ızej´ı moˇznost jednotlivé tvary

”sjednotit“ podle lemmy.

Pro firmy, které se zabývaj´ı tvorbou rejstˇr´ık˚u na profesionáln´ı úrovni, jako jsou nakla-datelstv´ı specializovaná na literaturu faktu, vznikly programy nab´ızej´ıc´ı asistovanou tvorbu rejstˇr´ık˚u. Napˇr. software Sonar Bookends InDex Pro nab´ız´ı výrazy vhodné pro rejstˇr´ıky na základˇe výbˇeru vlastn´ıch jmen z textu, nejˇcastˇejˇs´ıch výraz˚u, fráz´ı apod. Problém asis-tované tvorby rejstˇr´ık˚u spoˇc´ıvá v pˇr´ıliˇs velkém mnoˇzstv´ı výraz˚u, které program nab´ız´ı. Uˇzivatel si mus´ı vymezit hranice pro optimáln´ı mnoˇzstv´ı výraz˚u, které chce pouˇz´ıt pouze na základˇe zkuˇsenost´ı s tvorbou index˚u.

Univerzitn´ı studie

Na Kolumbijské univerzitˇe v USA se zamˇeˇrili na generován´ı rejstˇr´ık˚u k internetovým ˇ

clánk˚um. Potˇrebovali vyˇreˇsit problémy se vznikem stále nových ˇclánk˚u, které nemˇeli ˇcas ”ruˇcnˇe“ indexovat, a bez rejstˇr´ık˚u bylo vyhledáván´ı v takovém mnoˇzstv´ı text˚u velmi obt´ıˇzné. Své vyhledáván´ı postavili na dokumentové ˇcetnosti v´ıceslovných výraz˚u tj. nepouˇz´ıvali kor-pusový model.

Automatické hledán´ı kl´ıˇcových slov generovalo velké mnoˇzstv´ı nevyhovuj´ıc´ıch slovn´ıch spojen´ı, které se rozhodli eliminovat projektem LinkIT [11]. Postupovali tak, ˇze náhodnˇe vybrali 0,025% term˚u z korpusu o velikosti 250MB a vyhodnotili tyto termy na základˇe soudrˇznosti3. Tato pˇr´ıpravná studie ukázala, ˇze 90% náhodnˇe vybraných term˚u je dobrým kandidátem na kl´ıˇcové slovo a tedy úspˇeˇsný systém potˇrebuje vyhodnocován´ı s maximálnˇe 10% nepouˇzitelného výstupu. Tato m´ıra byla vyhodnocena jako postaˇcuj´ıc´ı, protoˇze se pˇredpokládá, ˇze uˇzivatelé, kteˇr´ı s texty budou pracovat, dokáˇz´ı poznat a ignorovat výrazy, které nejsou kl´ıˇcové a v rejstˇr´ıku jsou jen proto, ˇze maj´ı vysokou hodnotu dokumentové ˇ

cetnosti. Strojové zpracován´ı nacház´ı v´ıce term˚u neˇz ˇclovˇek, protoˇze je ménˇe

”vyb´ıravé“. Samotný projekt funguje tak, ˇze se nejdˇr´ıv oznaˇckuj´ı slova slovn´ımi druhy. Vytvoˇr´ı se termy4 typu NP noun phrase — jmenná fráze zaloˇzené na ˇr´ıd´ıc´ım podstatném jménˇe, protoˇze vˇetˇsina kl´ıˇcových slov ho obsahuje. V takovém termu má jedno slovo ˇr´ıd´ıc´ı postaven´ı napˇr. kávový filtr, olejový filtr, uhl´ıkový filtr – vedouc´ı slovo je zde filtr. Sloˇzitˇejˇs´ı je to s termy, které maj´ı v´ıce vedouc´ıch slov jako druh rakoviny - zp˚usobený azbestem — tam jsou vedouc´ı slova rakovina a azbest. Po vyhledán´ı term˚u se vytvoˇr´ı databáze pojm˚u, kde se k ˇr´ıd´ıc´ım slov˚um ukládaj´ı zbytky term˚u. Takto uloˇzené termy se vyhodnot´ı a oznaˇckuj´ı na základˇe frekvence. Základn´ı pojmy si nadefinovali takto:

2

Tezaurus — nab´ız´ı synonyma, tezaurus pouˇzitý zmiˇnovaným projektem mˇel slova rozdˇelené do kate-gori´ı — domén, podle toho do jaké oblasti slovo spadá, napˇr. mléko — potravina.

3_Soudrˇ_{znost term˚}_{u — spoleˇ}_cn´_{y v´}_{yskyt slov tˇ}_esnˇ_{e vedle sebe, jak ˇ}_{casto se vyskytovaly v tzv. kolokac´ıch}

s d´ırami atd.

(20)

• kl´ıˇcov´a slova jsou identifikov´ana ˇcetnost´ı slov v dokumentu.

• technické term´ıny jsou NP nebo ˇcásti NP opakované v´ıc neˇz dvakrát v dokumentu. • ˇr´ıd´ıc´ı NP jsou identifikovány metodou, ve které jsou termy seˇrazeny podle vedouc´ıho

slova. Termy jsou oznámkovány a dál seˇrazeny podle vzestupnˇe podle ˇcetnosti. Touto metodou z´ıskali pouze 6,5% nepouˇzitelných výraz˚u, proto je tento zp˚usob zpracován´ı prakticky vyuˇzitelný pro jejich typ hledán´ı kl´ıˇcových výraz˚u v textu.

Vˇetˇsina systém˚u generuj´ıc´ıch rejstˇr´ıky je pouze poˇc´ıtaˇcem podporovaná jako projekt Computer-aided Document Indexing System [6] univerzity v Záhˇrebu. Stejnˇe jako ˇ

ceˇstina má i chorvatˇstina r˚uzné morfologické tvary pˇredevˇs´ım u podstatných a pˇr´ıdavných jmen. Problematika r˚uzných tvar˚u je vyˇreˇsena generován´ım dvou nab´ıdek. Jedna pro vˇsechny tvary slova s uvedeným poˇctem jejich výskyt˚u a druhá zobrazuje pouze lemmata a jejich mnoˇzstv´ı. Program vyhledává i n-gramy a to o dvou aˇz ˇctyˇrech slovech. Jako vstupn´ı formát je pouˇzit jazyk XML, na kterém zakládaj´ı vyhledáván´ı slov a jejich ukládán´ı do seznamu. Hledán´ı kl´ıˇcových slov je zaloˇzeno na tezauru podle kterého se urˇcuj´ı kl´ıˇcová slova. Dalˇs´ı ˇrazen´ı se ˇr´ıd´ı frekvenc´ı výraz˚u v dokumentu. Pro projekt byl pouˇzit tezaurus EUROVOC, který je v´ıcejazyˇcný a zahrnuje 6000 tˇr´ıd rozdˇelených do 21 oblast´ı — po-litika, vˇeda, finance aj. seˇrazených hierarchicky do osmi tˇr´ıd. Byl navrˇzen pro Evropské spoleˇcenstv´ı, takˇze program dokáˇze indexovat pouze témata bl´ızká problematice tezauru. Kromˇe závislosti indexován´ı tématu m˚uˇze být problémem pomalé vyhledáván´ı (ˇcasová sloˇzitost m˚uˇze být aˇz exponenciáln´ı).

Univerzita v Severn´ım Texasu v USA se rozhodla vytvoˇrit vlastn´ı testovac´ı sadu au-tomatického generován´ı rejstˇr´ık˚u a to na základˇe zlatého standardu [3], který závis´ı na parametrech jako jsou délka rejstˇr´ıku, délka vstupn´ıch poloˇzek, rozsah pokrytých témat. V´ıceslovné výrazy si rozdˇelili na:

• n-gramy — vˇsechny generovan´e n-gramy z dokumentu obvykle pokryj´ı n-gramy v rejstˇr´ıku.

• NP — výrazy ukládané podle ˇr´ıd´ıc´ıch slov

• syntaktické výrazy — fráze zaloˇzené na znalostech lingvistiky.

Hledán´ı kl´ıˇcových výraz˚u zaloˇzili na nˇekolika metodách a zkouˇseli, jak a zda-li v˚ubec se vyhledáván´ı výraz˚u zlepˇs´ı. Testovali ˇcetnost, délku výraz˚u v rejstˇr´ıku a gramatické vzorce. Materiály nasb´ırali na stránce projektu Gutenberg5. Hlavn´ım problémem, ostatnˇe jako vˇzdy pˇri zpracován´ı rejstˇr´ık˚u, jsou nedostateˇcná vstupn´ı data. Jen malá ˇcást knih byla vloˇzena s rejstˇr´ıkem anebo rejstˇr´ık v˚ubec neobsahovaly.

Rejstˇr´ık vytváˇreli v r˚uznˇe jemných strukturách, protoˇze testovali i to, jak jemná struk-tura p˚ujde vytvoˇrit. Vkládali nejdˇr´ıv ˇr´ıd´ıc´ı slovo výrazu a zbytek výrazu vloˇzili podle gra-matických pravidel. Utvoˇrili si skupiny slov, na která aplikovaly pravidla napˇr. výrazy s pˇredloˇzkou, pˇredloˇzka následuje po slovese napˇr. takto: Acetate, of Ammonium Solution. Zlatý standard vytváˇreli pro r˚uznˇe podrobné rejstˇr´ıky. Pro kaˇzdý text vytvoˇrili dva rejstˇr´ıky a to: jednoduchý index zaloˇzený na ˇr´ıd´ıc´ım slovˇe a dlouhý rejstˇr´ık zaloˇzený na plnˇe rekonstruovaných poloˇzkách rejstˇr´ıku s r˚uznou úrovn´ı granularity6. Vytvoˇren´ı nˇekterých term´ın˚u rejstˇr´ık˚u m˚uˇze být dost sloˇzité, a proto pro nejjemnˇeji strukturovaný rejstˇr´ık bylo

5_{http://www.gutenberg.com — je zde moˇ}_zn´_{e zdarma st´}_{ahnout knihy v r˚}_uzn´_{ych jazyc´ıch.} 6

(21)

pouˇzito vyhledáván´ı gramatických výraz˚u pˇres web — AltaVista [12], na kterém ovˇeˇrili, zda výraz existuje. Webem ovˇeˇrené výrazy ponechali v seznamu, zbytek zahodily a úspˇeˇsnost hledán´ı vzrostla z 30,34% na 54,78%. D˚uleˇzitým parametrem vyhodnocen´ı je délka textu vzhledem k délce rejstˇr´ıku. Pro vyhodnocen´ı vzali pomˇer poˇctu slovn´ıch jednotek v doku-mentu, vzhledem k poloˇzkám v rejstˇr´ıku. Jednoduchý rejstˇr´ık obsahuje asi 0,44% slovn´ıch jednotek, které odpov´ıdaj´ı zhruba jedné fráz´ı v rejstˇr´ıku pro kaˇzdých 227 slov v textu. Jemné rejstˇr´ıky maj´ı pomˇer 0,7%, coˇz odpov´ıdá frázi na kaˇzdých 140 slov.

Dalˇs´ı práci podobnou automatickému generován´ı rejstˇr´ık˚u je organizován´ı a linkován´ı spˇr´ıznˇených webových stránek [9]. Nástroj je zaloˇzen na novém typu hypertextu:

HC — hypertextová konkordance je hypertextový rejstˇr´ık, který ˇrad´ı pojmy podle kon-textu stejnˇe jako konkordance. Konkordance slouˇzily k rychlému vyhledáván´ı podobných a souvisej´ıc´ıch pasáˇz´ı v rozsáhlém textu. HC je charakterizována tˇemito vlastnostmi:

• term´ıny k indexován´ı jsou vybrány terminologickým extrakˇcn´ım algoritmem. • výskyty indexovaných term´ın˚u v dokumentu jsou provázány odkazem do rejstˇr´ıku • term´ıny jsou uvádˇeny ve stylu konkordance

• kaˇzdý term´ın v indexu je provázán se svým dokumentem

Program by mˇel být schopen indexovat i dokumenty, které nebyly napsány ve znaˇckovac´ım jazyce jako jsou HTML, XML a jiné SGML jazyky. Term´ıny jsou automaticky extrahovány Damerauovou metodou [2]. score(word) = f (word,coll1) f (coll1) f (word,coll2) f (coll2)

Metoda porovn´av´a relativn´ı frekvence term´ınu v dokumentu coll1 s relativn´ı frekvenc´ı term´ınu v referenˇcn´ı kolekci coll27_.

V´yhodou t´eto metody jsou:

• jednoduchost algoritmu, který provád´ı srovnán´ı s obecným korpusem a t´ım vyhodno-cuje, které term´ıny jsou zaj´ımavé

• algoritmus se dá aplikovat i na krátké texty

Systém funguje tak, ˇze uˇzivatel zadá webové stránky, které chce indexovat. Pro stránky se vyhledaj´ı term´ıny vzhledem k obecnému korpusu a vyberou se vˇsechny unigramy a bi-gramy s vyj´ımkou tˇech, které jsou ve stop-listu. Nejlépe ohodnocené term´ıny jsou inde-xovány. Mnoˇzstv´ı term´ın˚u odpov´ıdá délce dokumentu a pravdˇepodobnostn´ımu ohodno-cen´ı. Konkrétn´ı úspˇeˇsnost nen´ı zm´ınˇena, pouze uvádˇej´ı, ˇze systém m˚uˇze dosahovat horˇs´ıch výsledk˚u neˇz bˇeˇzné zpracován´ı, ale urychluje to práci, takˇze se nepˇresnosti vyplat´ı.

7

(22)

Kapitola 4

Urˇ

cov´

an´ı relevantn´ıch slovn´ıch

spojen´ı

Nejjednoduˇsˇs´ı metoda jak z´ıskat slovn´ı spojen´ı z textu je vytvoˇrit vˇsechny moˇzné dvojice soused´ıc´ıch slov. Tato kapitola uvád´ı dalˇs´ı moˇznosti, jakými lze z´ıskat bigramy, i kdyˇz spolu jednotlivá slova bigramu pˇr´ımo nesoused´ı, také se zabývá ˇcasto pouˇz´ıvanými statistickými metodami pro z´ıskán´ı relevantn´ıch slovn´ıch spojen´ı.

4.1 Smˇ

erodatn´

a odchylka

Kolokace se dobˇre hledaj´ı na základˇe ˇcetnosti v textu. V pˇr´ıpadˇe kolokac´ı s d´ırami to nemus´ı staˇcit. Pro takové pˇr´ıpady lze zjistit zda se jedná o kolokaci ze smˇerodatné odchylky. Pro ”volný vstup“ podkapitoly 2.2 je smˇerodatná odchylka spoˇctena takto:

Nejdˇr´ıv se urˇc´ı pr˚umˇerná vzdálenost slov ve vˇetách:

µ = 1 n n X i=1 xi = 1 3(2 + 1 + 2) = 5 3 Smˇerodatn´a odchylka se urˇc´ı ze vztahu:

σ2 = Pn

i=1(di− µ)2

n − 1

kde n je kolikrát se slova vyskytla spoleˇcnˇe, di je vzdálenost vzájemného výskytu vzhledem

k pozici i, µ je pr˚umˇerná vzdálenost výskytu. Vyˇc´ıslen´ı pro vzorové vˇety pak vypadá takto:

σ = 2 r 1 2((2 − 5 3) 2_{+ (1 −} 5 3) 2_{+ (2 −}5 3) 2_{) ≈ 0.57}

Pokud je hodnota smˇerodatné odchylky bl´ızká nule jako v tomto pˇr´ıpadˇe, tak se pravdˇepodobnˇe jedná o kolokaci. V pˇr´ıpadˇe, ˇze by smˇerodatná odchylka byla rovna nule, pak by se slova kolokace vyskytovala pouze spolu (vedle sebe).

I pˇres vysokou ˇcetnost a n´ızkou standardn´ı odchylku se slova spolu mohou vyskytovat pouze náhodou. Aby se moˇznost náhody zcela vylouˇcila, provád´ı se testován´ı nulovou hy-potézou. Nejprve se nadefinuje problém jako nulová hypotéza H0 a k n´ı se ustanov´ı inverzn´ı

(23)

• H0 — slova v bigramu se vyskytuj´ı spoleˇcnˇe pouhou n´ahodou

• H₁ — slova v bigramu jsou kolokac´ı Pro slova vyskytuj´ıc´ı se spolu n´ahodnˇe plat´ı:

P (s1s2) = P (s1)P (s2)

kde s je slovo a p celková pravdˇepodobnost, která je dána pravdˇepodobnostmi výskytu jednotlivých slov v textu. Pokud je pravdˇepodobnost jevu H0 velmi malá, tj. kdyˇz se

pravdˇepodobnost p pohybuje v intervalu 0 – 0,0005, je moˇzn´e hypot´ezu zavrhnout a t´ım potvrdit H1.

4.2 T - test

Hodnoty jednotliv´ych pravdˇepodobnost´ı se urˇc´ı t-testem. t = x − µ¯q

s2

N

kde ¯x je stˇredn´ı hodnota vzorku, s2 je odchylka vzorku, N je velikost vzorku a µ je stˇredn´ı hodnota celé mnoˇziny, ze které se vzorek vyb´ırá. Jestliˇze je t dost velké, pak m˚uˇzeme nu-lovou hypotézu zavrhnout. K hodnotám t se vyhledaj´ı stupnˇe významnosti v statistických tabulkách. Jestliˇze t je vˇetˇs´ı neˇz vyhledaný stupeˇn, pak m˚uˇzeme nulovou hypotézu zavrh-nout s pravdˇepodobnost´ı závislou na rozd´ılu t a stupnˇe významnosti. Pro výpoˇcet t - testu kolokace je tˇreba nejdˇr´ıv urˇcit pr˚umˇer a odchylku ze vzorku. Jako vzorek se vezme sek-vence N bigram˚u a jednotlivé ˇcásti se oznaˇckuj´ı 1 nebo 0 podle toho zda se jedná o ˇcást testovanou jako kolokace nebo nikoli.

P (tuˇcnice) = 4675 14307668 P (obecn´a) = 15828

14307668

Jak uˇz v´ıme nulová hypotéza pro tento pˇr´ıpad je, ˇze slova jsou nezávislá. H0 : P (tuˇcnice obecná) = P (tuˇcnice)P (obecná)

P (tuˇcnice obecn´a) = 4675 14307668

15828

14307668 ≈ 3.615.10

−7

Pokud je nulová hypotéza pravdivá, pak bigram nová rosnatka v náhodnˇe generovaných bigramech dostane pˇriˇrazenou 1 a ostatn´ı bigramy 0 s pravdˇepodobnost´ı p = 3, 615.10−7. Pr˚umˇer pro toto rozloˇzen´ı je µ a odchylka je σ2 = p(1 − p) ≈ p coˇz je zhruba p. Vyˇc´ıslen´ı σ2 vrac´ı pro vˇetˇsinu bigram˚u malé hodnoty p. Vypadá to, ˇze bigram tuˇcnice obecná se ve vzorku vyskytl 8 - krát vzhledem k celkovému mnoˇzstv´ı bigram˚u. Pak tedy pr˚umˇer:

¯

x = 8*ostatn´ı bigramy ≈ 5.591.10−7 a celkov´e vyˇc´ıslen´ı t-testu:

t = x − µ¯q s2 N ≈ 5.5910 −7_{− 3.610}−7 q 5.5910−7 1430000 ≈ 0.10065

(24)

Hodnota t je menˇs´ı neˇz udávaný kritický stupeˇn pro α = 0.005, takˇze nulovou hypotézu nelze zavrhnout a bigram je hledanou kolokac´ı, coˇz je správnˇe. T-test ovˇsem neˇreˇs´ı problém bigram˚u jako jsou v roce apod. Vyhodnocuje je jako kolokace, a proto je stále zapotˇreb´ı stop-list. Tato statistika se v pˇrirozeném zpracován´ı ˇreˇci dá pouˇz´ıt i pro jiné problémy jako napˇr. jakým zp˚usobem urˇcit, zda je bigram relevantn´ım slovn´ım spojen´ım.

4.3 M´ıra vz´

ajemn´

e informace

Velmi ˇcasto se k vyjádˇren´ı vztahu mezi dvˇema promˇennými x0 a y0 pouˇz´ıvá m´ıra informace. Pro zpracován´ı výskytu slov v kolokaci lze pouˇz´ıt vyjádˇren´ı:

I(x0, y0) = log2 P (x0, y0) P (x0_{)P (y}0₎ = log2 P (x0, y0) P (x0₎ = log2 P (y0, x0) P (y0₎

Obvykle bývá m´ıra vzájemné informace vyjádˇren´ım vztahu mezi náhodnými promˇennými a ne vazbou mezi jejich hodnotami. Pro pˇr´ıpady kolokace m´ıra mezi hodnotami udává, o ko-lik se zvýˇs´ı hodnota pravdˇepodobnosti, ˇze se na pozici i ± 1 bude vyskytovat promˇenná y0, kdyˇz pozice promˇenné x0 je i. Pokud je bigram kolokac´ı docház´ı k extrémn´ımu pˇr´ıpadu, plat´ı: I(x0, y0) = log2 P (x0, y0) P (x0_{)P (y}0₎ = log2 P (x0) P (x0_{)P (y}0₎ = log2 1 P (y0₎

Takˇze ˇc´ım je ˇcetnost kolokace niˇzˇs´ı, t´ım vyˇsˇs´ı hodnotu bude m´ıt m´ıra vzájemné informace, tj. výrazy s malou ˇcetnost´ı jsou preferovány pˇred ˇcetnými. Z toho plyne, ˇze to nen´ı pˇr´ıliˇs dobrý popis jevu, protoˇze ˇcetná kolokace bude ménˇe ohodnocena neˇz neobvyklá kolokace. Je to pˇresný opak toho, jak je tˇreba m´ıt jev ohodnocen. Pro opaˇcnou mezn´ı situaci, kdy jsou slova naprosto nezávislá plat´ı:

I(x0, y0) = log2

P (x0, y0)

P (x0_{)P (y}0₎ = log2

P (x0)P (y0)

P (x0_{)P (y}0₎ = log21 = 0

M´ıra vzájemné informace je vhodná sp´ıˇse pro vylouˇcen´ı kolokac´ı. Pro m´ıru vzájemné in-formace lze pouˇz´ıt úpravy, které vedou k charakteristiˇctˇejˇs´ım popisu jevu. Pro vyˇsˇs´ı váhy ˇ

cetnˇejˇs´ıch kolokac´ı staˇc´ı zavést mocniny ˇcetnosti n aˇz do stupnˇe deset. Na korpusech se experimentálnˇe ovˇeˇr´ı, která mocnina je pro korpus nejlépe pouˇzitelná.

I(x0, y0) = log2

P (x0, y0)

P (x0)P (y0) = log2

C(x0y0)n_N

C(x0)C(y0)

kde C je kubická m´ıra a n ˇrád mocniny. Po takové úpravˇe lze mluvit o m´ıˇre vzájemné informace vyˇsˇs´ıch ˇrád˚u.

4.4 Pearson˚

uv X

2

test

Dalˇs´ı moˇznou metodou hledán´ı relevantn´ıch slovn´ıch spojen´ı je X2 test. Je vhodnˇejˇs´ı neˇz t-test, protoˇze ten se zakládá na normáln´ım pravdˇepodobnostn´ım rozloˇzen´ı, coˇz neod-pov´ıdá tak zcela povaze textových korpus˚u. Tento test závislost´ı slov v bigramech se ne-zakládá na normáln´ım rozloˇzen´ı. Zjednoduˇsenˇe ˇreˇceno je pro X2 _{test vytvoˇ}_{rena tabulka 4.1.}

Základ testu spoˇc´ıvá v porovnán´ı frekvenc´ı bigram˚u v tabulkách s frekvenc´ı oˇcekávanou pro nezávislá slova bigramu. Pokud je rozd´ıl mezi tˇemito frekvencemi pˇr´ıliˇs velký, pak je moˇzné

(25)

zavrhnout nulovou hypot´ezu. X2 _{je asymptoticky rozloˇ}_zen´_{a χ}2_{, takˇ}_{ze ˇ}_{c´ım vˇ}_etˇ_{s´ı ˇ}_{c´ısla, t´ım}

vˇetˇs´ı ˇsance, ˇze X2 m´a rozloˇzen´ı χ2.

X2 =X

i,j

(Oij− Eij)2

Eij

kde i udává poˇcet ˇrádk˚u tabulky, j je poˇcet sloupc˚u, Oij je právˇe zkoumaná buˇnka tabulky

a Eij je oˇcekávaná hodnota. Proˇc nám toto rozloˇzen´ı vyhovuje? Oˇcekávaná hodnota Eij je

s1 = nov´y s1 6= nov´y

s2 = typ 114 101

nov´y typ tento typ

s2 6= typ 1011 249

nový systém tento systém Tabulka 4.1: Výskyty kolokac´ı pro X2 test

urˇcena z okrajových pravdˇepodobnost´ı, tedy z proporciolizovaných souˇct˚u ˇrádk˚u a sloupc˚u. 114 + 101

N

114 + 1011

N N ≈ 971.325

kde N je poˇctem vˇsech bigram˚u a ostatn´ı hodnoty jsou doplnˇeny z tabulky 4.1. Oˇcekávaná hodnota prvn´ı buˇnky je urˇcena okrajovou pravdˇepodobnost´ı nový a druhou ˇcást´ı bigramu typ. Tato hodnota bude platit pro ˇcistˇe náhodný výskyt tˇechto dvou slov v bigramu spoleˇcnˇe. Hodnota χ2 se z´ıská takto:

χ2 = N (O11O22− O12O21)

2

(O11+ O12)(O11+ O21)(O12+ O22)(O21+ O22)

≈ 12.3

kde N je mnoˇzstv´ı vˇsech bigram˚u, Oij jsou poˇcty v´yraz˚u pro kombinaci slov z tabulky 4.1.

Hodnota potvrzuje, ˇze se slova v bigramu nacházej´ı spolu ˇcistˇe náhodnˇe, nebot’ výsledek je výraznˇe nad stupnˇem významnosti pro α = 0.005. Výsledek je stejný jako u t - testu, jejich výsledky se o mnoho neliˇs´ı. D˚uvodem proˇc se v´ıce pouˇz´ıvá X2 test je to, ˇze X2 lze uplatnit i tam, kde je operováno s vysokými m´ırami pravdˇepodobnosti, kde by bˇeˇzný t-test selhal1.

4.5 Pravdˇ

epodobnostn´ı pod´ıly

Pravdˇepodobnostn´ı pod´ıl umoˇzˇnuje zjistit snáz neˇz X2 zda se jedná o kolokaci, protoˇze jej´ı výstup je v uspoˇrádaném poˇrad´ı a nen´ı nutné hledat v statistických tabulkách mezn´ı hodnoty, o které budou data oˇr´ıznuta. Ze dvou navrˇzených hypotéz je hned zjevné, která je pravdˇepodobnˇejˇs´ı. Hypotézy pro rozptýlená data bigramu s1s2:

• H1 : P (s2|s1) = p = P (s2|¬s1)

• H2 : P (s2|s1) = p1 6= p2 = P (s2|¬s1)

1

X2 test se pouˇz´ıvá napˇr. pro pˇreklady z ciz´ıch jazyk˚u na základˇe stejné frekvence výskytu slov v kor-pusech.

(26)

Prvn´ı hypotéza popisuje nezávislá, druhá závislá slova v bigramu. p = c2 N = 22 2450 p1= c12 c1 = 10 20 p2 = c2− c12 N − c1 = 22 − 10 2450 − 22

kde se pouˇz´ıvaj´ı maxim´aln´ı hodnoty pravdˇepodobnost´ı p, p1, p2 a pro slova v korpusu s1

a s2 a jejich bigram s1s2 se zapisuj´ı hodnoty c1 má 20 výskyt˚u, c2 jich má 22, c12 jich má

10. Vyhodnocuj´ı se binomick´ym rozloˇzen´ım: b(k, n, x) =n

k

xk(1 − x)(n−k)

Nyn´ı se pˇred pˇripraven´e hypot´ezy koneˇcnˇe podˇel´ı: logλ = logL(H1)

L(H2)

logλ = log b(c12, c1, p)b(c2− c12, N − c1, p) b(c12, c1, p1)b(c2− c12, N − c1, p2)

logλ = logL(c12, c1, p) +logL(c2−c12, N −c1, p) −logL(c12, c1, p1) −logL(c2−c12, N −c1, p2)

kde L(k, n, x) = xk_{(1 − x)}n−k_{. S´ıla pod´ılov´}_{ych pravdˇ}_{epodobnost´ı spoˇ}_c´ıv´_{a v snadno ˇ}_citeln´_em

výsledku a pˇresnˇejˇs´ım zpracován´ı ˇr´ıdkých (rozptýlených) dat.

4.6 Metody zaloˇ

zen´

e na gramatice

Kromˇe výˇse uvedených statistických metod lze pouˇz´ıt zpracován´ı zaloˇzené na znalosti lin-gvistiky. Pro hledán´ı kolokac´ı je moˇzné pouˇz´ıt gramatické vzorce, jak to bylo provedeno v [5]. Vyhledáván´ı je zaloˇzené na korpusu, z kterého se automaticky vyp´ıˇs´ı vˇsechny v´ıceslovné pojmy odpov´ıdaj´ıc´ı gramaticky a kolokaˇcnˇe. Kostry jsou hledány na základˇe gramatických a kolokaˇcn´ıch vlastnost´ı. P˚uvodnˇe existovaly kostry pouze pro angliˇctinu, práce [5] je uni-verzáln´ı pro vˇsechny jazyky. K zadanému korpusu se pˇridaj´ı gramatické vzorce platné pro jazyk, v jakém byl vytvoˇren korpus, a systém dokáˇze vytvoˇrit seznam v´ıceslovných výraz˚u a synonym. Pro v´ıceslovné pojmy dokáˇze vygenerovat seznam rozd´ıl˚u v pouˇzit´ı bl´ızkých pojm˚u.

Kromˇe frekvenˇcn´ıho vyhledáván´ı jsou v kostrách pouˇzity gramatické vzorce. Sp´ıˇs neˇz frekvenˇcn´ı hledán´ı kl´ıˇcového slova jsou vyhledávány vˇsechny relace, ve kterých se slovo vy-skytuje. Slova jsou pˇredzpracována znaˇckovaˇcem, který jim urˇc´ı slovn´ı druh, a na výstupu lemmatizována nebo pˇrevedena do správného slovn´ıho tvaru pokud nejdou lemmatizo-vat. V´ıceslovné pojmy jsou pak vygenerovány do jednotlivých seznam˚u podle pˇr´ıbuznosti pouˇzitých slov. Gramatické vzorce mohou vypadat tˇreba takto:

1 : V (DET |N U M |ADJ |ADV |N )∗2 : N

kde 1 a 2 jsou slova urˇcená slovn´ımi druhy, ke kterým se hledaj´ı vˇsechny moˇzné relace a obsah závorek jsou vˇsechny moˇzné slovn´ı druhy, které se mezi slovy 1 a 2 mohou vyskytovat2_.

2

Závorky ohraniˇcuj´ı výraz, který m˚uˇze být 0 – n - krát zopakován, opakován´ı znaˇc´ı *, — je znaˇcka pro nebo.

(27)

Kapitola 5

Testovac´ı data a vytvoˇ

ren´

y syst´

em

5.1 Testovac´ı data

Pro testován´ı systému bylo pouˇzito volnˇe dostupných knih v elektronické podobˇe. Z´ıskán´ı vstupn´ıch dat bylo znaˇcným problémem, pˇrestoˇze je knih v elektronické podobˇe dost, exis-tuje jich jen málo s kvalitn´ım rejstˇr´ıkem. Bˇeˇzná literatura rejstˇr´ıky neobsahuje v˚ubec, proto bylo hledáno mezi populárnˇe - nauˇcnou literaturou a uˇcebnicemi, a nakonec bylo pouˇzito vˇetˇsinou uˇcebnic, které maj´ı obsáhlejˇs´ı rejstˇr´ıky. Nˇekteré byly ve formátu e-book, takˇze se velmi obt´ıˇznˇe pˇrevádˇely do textové podoby, u dalˇs´ıch byl problém s ˇceskými znaky nebo s dost ˇcasto se vyskytuj´ıc´ımi latinskými symboly jako napˇr. %. Prvn´ım problémem tedy bylo pˇrekonvertovat data do formátu, který bude dále snadno zpracovatelný. Vˇetˇsina materiál˚u byla k dispozici ve formátu PDF1, pro který existuje sice mnoho program˚u pro pˇrevod na obyˇcejný text, ale ne vˇsechny se hod´ı pro ˇceˇstinu2_.

Jako nejlepˇs´ı ˇreˇsen´ı se nakonec ukázalo pouˇzit´ı OCR3 program˚u, které ovˇsem pˇrevád´ı text s chybami jako, napˇr. ˇspatné naˇcten´ı nˇekterých speciáln´ıch symbol˚u napˇr. ¯a, které je zapsáno jako dvˇe p´ısmena, která jsou pozdˇeji chybnˇe rozpoznána jako zkratka. Takto zpracovaný text byl uloˇzen ve formátu txt. Z knih byly oddˇeleny rejstˇr´ıky do samostatných soubor˚u pro dalˇs´ı zpracován´ı, ve kterém byly rejstˇr´ıky rozdˇeleny podle délek n-gram˚u. Témˇeˇr kaˇzdá kniha mˇela jiný tvar rejstˇr´ıku a doporuˇcen´ı uvedená v normˇe nebyla pˇr´ıliˇs dodrˇzována. Pro pˇrehlednost je doporuˇcováno psát rejstˇr´ık s odráˇzkami viz. tabulka 2.1, ale pro automatické vyhodnocován´ı výsledk˚u to pˇr´ınosem nebylo. Takto vytvoˇrené rejstˇr´ıky se

”rozpadly“ na unigramy.

Obˇcas se v rejstˇr´ıc´ıch vyskytla synonyma nebo anglické ekvivalenty za kl´ıˇcovým slovem rejstˇr´ıku. Takové poloˇzky byly rozdˇeleny na dva samostatné výrazy a hodnoceny samo-statnˇe, to se opˇet projevilo negativnˇe na hodnocen´ı, protoˇze synonyma se obvykle v knize v˚ubec nevyskytla a nemohla být nalezena. Napˇr. pro jmenný server se ˇcasto pouˇz´ıvá an-glický název name server, který je v této knize uveden jen v rejstˇr´ıku. Na kaˇzdé stranˇe e-book se opakovaly výrazy, které slouˇzily pro orientaci knihou napˇr. rozcestn´ık nebo ob-sah. V knihách jsou ˇcasto hlaviˇcky stránek se jménem kapitol napˇr. Lieova grupa, coˇz

1_{PDF — Portable Document Format} 2

Firma Adobe, která pˇriˇsla se standartem PDF, na svých stránkách poskytuje sluˇzbu vygenerován´ı prostého textu z PDF formátu, ale pˇrestoˇze jim bylo zasláno nˇekolik r˚uzných soubor˚u, ˇzádné nebyly zpra-covány.

3

Optical Character Recognition — optické rozpoznáván´ı znak˚u je metoda, která umoˇzˇnuje digitalizaci tiˇstˇených text˚u nebo text˚u ve formátech urˇcených k tisku jako je PDF. Pˇrevedený text je závislý na kvalitˇe pˇredlohy, protoˇze OCR program nerozeznává vˇsechna p´ısmena správnˇe.

(28)

nebývá problém ve vyhodnocen´ı, protoˇze to je kl´ıˇcové slovo. Horˇs´ı je pokud je v hlaviˇcce napˇr. jméno autora. Odstranit takové výrazy z celého dokumentu bylo zavrhnuto, protoˇze takový zásah by mohl ovlivnit i text knihy, která by pak mohla být ochuzena o nˇekterá kl´ıˇcová slova. Napˇr. automatickým odstranˇen´ım slov z e-book jako rozcestn´ık by byly tyto slovn´ı spojen´ı odstranˇeny i z textu, coˇz by mohlo vést k odstranˇen´ı kl´ıˇcového slova. Pˇri zkoumán´ı výsledk˚u byly tyto n-gramy ponechány v textu a ignorovány s t´ım, ˇze uˇzivatel je dokáˇze poznat a odstranit.

Kromˇe text˚u knih byl pouˇzit obecný korpus z podkapitoly 2.2, který vyuˇz´ıvá text ob-sahuj´ıc´ı deset milión˚u slov. Obecné korpusy obsahuj´ı r˚uzné texty, které by mˇely vytvoˇrit dostateˇcnˇe velkou mnoˇzinu slov pro statistiku ˇcetnosti slov v textu.

5.2 Vytvoˇ

ren´

y syst´

em

Systém je zaloˇzen na pouˇzit´ı frekvenˇcn´ıch metod a urˇcován´ı slovn´ıch druh˚u souborem pro-gram˚u PDT popsaným v kapitole 2.3. Z program˚u PDT je pro tento systém pouˇz´ıván parser, jenˇz dokáˇze text pˇrevádˇet na CSTS4 validn´ı formát. CSTS je formát zaloˇzený na SGML5 _{a byl hlavn´ım form´}_{atem dat ve verzi PDT 1.0. Aˇ}_{ckoliv byl v PDT 2.0 nahrazen}

PML6, nˇekteré nástroje jej stále výhradnˇe pouˇz´ıvaj´ı. CSTS m˚uˇze reprezentovat jen mor-fologickou a analytickou anotaci, kdeˇzto PML je formát dat zaloˇzený na XML, navrˇzený pro reprezentaci lingvistické anotace text˚u jako jsou morfologické znaˇckován´ı, závislostn´ı stromy apod. Pro tento systém úplnˇe staˇc´ı CSTS formát.

PDT oˇcekává vstupn´ı textové soubory ve formátu iso-8859-2, které pˇrevád´ı do jazyka CSTS pomoc´ı parseru. Parser neznaˇckuje pouze slova a hranice vˇet, ale dokáˇze oznaˇcit také odstavce a nadpisy. Takto upravený text projde nejprve morfologický analyzator, urˇc´ı vˇsechny moˇzné znaˇcky, o které by se mohlo jednat, a z nich znaˇckovaˇc vybere tu nej-pravdˇepodobnˇejˇs´ı. Znaˇckovaˇc lze spustit se dvˇema r˚uznými parametry:

• T — Tagger, jenˇz znaˇckuje nezn´am´a slova pomoc´ı X

• TG — Tagger - Guesser, který neznámá slova uhodne, ale i pˇresto mohou být nˇekterá slova oznaˇcena X jako neznámá.

V systému byla pouˇzita data generovaná s parametrem TG, pokusy s obˇema parametry neprokázaly velké rozd´ıly mezi testovac´ımi daty. P˚uvodn´ı pˇredpoklad, ˇze slova oznaˇcená jako neznámá budou témˇeˇr vˇsechna kl´ıˇcová, se nepotvrdil, jak lze vidˇet v tabulce 5.1.

Vˇetˇsinu neznámých slov tvoˇr´ı zkratky jako jsou znaˇcky chemických prvk˚u a oznaˇcen´ı mnoˇzin (∼ 65%)7. Dalˇs´ı slova bez rozpoznaných slovn´ıch druh˚u jsou pouˇzita ve zvláˇstn´ım tvaru napˇr. elektro chemický, kde nen´ı snadné

”uhodnout“ slovn´ı druh, anebo se m˚uˇze jednat o vlastn´ı jména, která nejsou ve slovn´ıku (∼ 35%). Znaˇcnou skupinu tvoˇr´ı ciz´ı (hlavnˇe anglická) slova napˇr. machine learning, u kterých je velká pravdˇepodobnost, ˇze se jedná o kl´ıˇcová slova, a mˇela by se v rejstˇr´ıku vyskytnout. Proto jsou slova s neznámým slovn´ım druhem v dalˇs´ım zpracován´ı zvýhodˇnována.

Znaˇckovaˇc pˇriˇrazuje slov˚um 16-ti znakovou znaˇcku, která je definována v [4]. V systému jsou vyuˇz´ıvány pˇredevˇs´ım znaˇcky na prvn´ı, druhé a tˇret´ı pozici. Prvn´ı pozice uvád´ı slovn´ı

4_{CSTS — Czech sentence tree structure} 5

Standard Generalized Markup Language — rodina jazyk˚u pouˇz´ıvan´a pro znaˇckov´an´ı text˚u.

6_{PML — Prague Markup Language} 7

Výskyt tak velkého mnoˇzstv´ı chemických prvk˚u a oznaˇcen´ı mnoˇzin je zp˚usoben pouˇzitými testovac´ımi daty.