VYSOK ´
E U ˇ
CEN´I TECHNICK ´
E V BRN ˇ
E
BRNO UNIVERSITY OF TECHNOLOGY
FAKULTA INFORMA ˇ
CN´ICH TECHNOLOGI´I
´
USTAV PO ˇ
C´ITA ˇ
COV ´
E GRAFIKY A MULTIM ´
EDI´I
FACULTY OF INFORMATION TECHNOLOGY
DEPARTMENT OF COMPUTER GRAPHICS AND MULTIMEDIA
AUTOMATICK ´
A IDENTIFIKACE KL´I ˇ
COV ´
YCH SLOV
DIPLOMOV ´
A PR ´
ACE
MASTER’S THESIS
AUTOR PR ´
ACE
MARCELA MA ˇ
SL ´
A ˇ
NOV ´
A
AUTHOR
VYSOK ´
E U ˇ
CEN´I TECHNICK ´
E V BRN ˇ
E
BRNO UNIVERSITY OF TECHNOLOGY
FAKULTA INFORMA ˇ
CN´ICH TECHNOLOGI´I
´
USTAV PO ˇ
C´ITA ˇ
COV ´
E GRAFIKY A MULTIM ´
EDI´I
FACULTY OF INFORMATION TECHNOLOGY
DEPARTMENT OF COMPUTER GRAPHICS AND MULTIMEDIA
AUTOMATICK ´
A IDENTIFIKACE KL´I ˇ
COV ´
YCH SLOV
THE AUTOMATIC IDENTIFICATION OF KEYWORDS
DIPLOMOV ´
A PR ´
ACE
MASTER’S THESIS
AUTOR PR ´
ACE
MARCELA MA ˇ
SL ´
A ˇ
NOV ´
A
AUTHOR
VEDOUC´I PR ´
ACE
doc. RNDr. PAVEL SMR ˇ
Z, Ph.D.
SUPERVISOR
Automatická identifikace klíčových slov
Automatic Keyword Detection
Vedoucí:
Smrž Pavel, doc. RNDr., Ph.D., UPGM FIT VUT
Zadání:
1. Seznamte se s metodami vyhledávání klíčových slov.
2. Navrhněte a implementujte systém pro automatickou vyhledávání se zaměření na víceslovné výrazy.
3. Vyhodnoťte vytvořený systém pomocí standardních metrik.
Část požadovaná pro obhajobu SP:
1. prototyp systému
Kategorie:
Umělá inteligence
Literatura:
●podle dohody
Licenční smlouva
Licenční smlouva je uložena v archívu Fakulty informačních technologií Vysokého učení
technického v Brně.
Abstrakt
Tato pr´ace si klade za c´ıl zpracovat poznatky o znaˇckov´an´ı kl´ıˇcov´ych slov v textu a vyuˇz´ıt je v praxi pro automatick´e generov´an´ı rejstˇr´ık˚u. D˚uvodem pro automatizaci tvorby rejstˇr´ık˚u je jejich vysok´a n´aroˇcnost a cena. Teoretick´a ˇc´ast pr´ace se zab´yv´a pˇredevˇs´ım metodami hled´an´ı v´ıcen´asobn´ych v´yraz˚u, kter´e jsou v´yznamn´e pro zpracov´avan´y text. Praktick´a ˇc´ast aplikuje vybran´e metody na testovac´ı data a shrnuje v´ysledky experiment˚u.
Kl´ıˇcov´
a slova
rejstˇr´ık, kl´ıˇcov´a slova, v´ıcen´asobn´e v´yrazy, morfologick´a anal´yza, znaˇckov´an´ı
Abstract
The main goal of this work is to survey the field of the automatic keywords tagging in a text and apply this background for automatically generating back-of-the-book indexes. Human made indexes are expensive and that’s why we are looking for (semi)-automatic methods indexes. The theoretical part of this thesis deals with collocations, which are an important part of generated indexes. The practical part of the work applies selected methods to testing data and summarize results of experiments.
Keywords
index, keywords, multi-words expresion, morphological analyse, tagging
Citace
Marcela Maˇsl´aˇnov´a: Automatick´a identifikace kl´ıˇcov´ych slov, diplomov´a pr´ace, Brno, FIT VUT v Brnˇe, 2007
Automatick´
a identifikace kl´ıˇcov´
ych slov
Prohl´
aˇsen´ı
Prohlaˇsuji, ˇze jsem tuto diplomovou pr´aci vypracovala samostatnˇe pod veden´ım pana doc. Pavla Smrˇze. Uvedla jsem vˇsechny liter´arn´ı prameny a publikace, ze kter´ych jsem ˇ
cerpala.
. . . . Marcela Maˇsl´aˇnov´a
22. kvˇetna 2007
Podˇekov´
an´ı
R´ada bych podˇekovala panu doc. Smrˇzovi za veden´ı diplomov´e pr´ace. D´ale bych r´ada podˇekovala za rady Tom´aˇsi Janouˇskovi.
c
Marcela Maˇsl´aˇnov´a, 2007.
Tato pr´ace vznikla jako ˇskoln´ı d´ılo na Vysok´em uˇcen´ı technick´em v Brnˇe, Fakultˇe in-formaˇcn´ıch technologi´ı. Pr´ace je chr´anˇena autorsk´ym z´akonem a jej´ı uˇzit´ı bez udˇelen´ı opr´avnˇen´ı autorem je nez´akonn´e, s v´yjimkou z´akonem definovan´ych pˇr´ıpad˚u.
Obsah
1 Uvod´ 2
2 Vymezen´ı pojm˚u 4
2.1 Rejstˇr´ıky . . . 4
2.2 Typy v´ıceslovn´ych v´yraz˚u . . . 5
2.3 Pˇredzpracov´an´ı textu . . . 7
3 Z´akladn´ı techniky vyhled´av´an´ı kandid´at˚u na rejstˇr´ıkov´a hesla 11 3.1 Jednoslovn´e v´yrazy . . . 11
3.2 V´ıceslovn´e v´yrazy . . . 11
3.3 Existuj´ıc´ı syst´emy pro generov´an´ı rejstˇr´ık˚u . . . 13
4 Urˇcov´an´ı relevantn´ıch slovn´ıch spojen´ı 16 4.1 Smˇerodatn´a odchylka . . . 16
4.2 T - test . . . 17
4.3 M´ıra vz´ajemn´e informace . . . 18
4.4 Pearson˚uv X2 test . . . 18
4.5 Pravdˇepodobnostn´ı pod´ıly . . . 19
4.6 Metody zaloˇzen´e na gramatice . . . 20
5 Testovac´ı data a vytvoˇren´y syst´em 21 5.1 Testovac´ı data . . . 21
5.2 Vytvoˇren´y syst´em . . . 22
5.3 Zpracov´an´ı n-gram˚u . . . 24
6 V´ysledky experiment˚u 28 6.1 Metodologie vyhodnocov´an´ı . . . 28
6.2 Vyhodnocen´ı proveden´e na z´akladˇe ˇcetnosti v´yraz˚u . . . 29
6.3 Vyhodnocen´ı na z´akladˇe X2 . . . 33
6.4 Odstranˇen´ı redundantn´ıch v´yraz˚u . . . 34
6.5 Pˇr´ıpadov´a studie . . . 35
6.6 Zhodnocen´ı nalezen´ych v´ysledk˚u . . . 36
7 Z´avˇer 38
A Seznam pouˇz´ıvan´ych zkratek z projektu PDT 39
Kapitola 1
´
Uvod
Zpracov´an´ı textu se zaˇcalo ve vˇetˇs´ı m´ıˇre zkoumat v 60. letech minul´eho stolet´ı, kdy se v´yzkum v IT zamˇeˇril na umˇelou inteligenci, zpracov´an´ı ˇreˇci i textu. Od p˚uvodn´ı snahy vyuˇz´ıt nˇejak´y racion´aln´ı z´aklad v pravidlech jazyk˚u se upustilo a zaˇcalo se v´ıce vyuˇz´ıvat mechanick´eho zpracov´an´ı a statistick´ych v´ysledk˚u, kter´e dosahuj´ı mnohem lepˇs´ıch v´ysledk˚u. V souˇcasn´e dobˇe se automatick´e zpracov´an´ı textu vyuˇz´ıv´a v mnoha aplikac´ıch. Vˇetˇsina textov´ych editor˚u obsahuje alespoˇn nˇejakou jazykovou podporu, kontrolu pravopisu, dˇelen´ı slov na konc´ıch ˇr´adk˚u, nab´ıdku synonym atd. Nˇekter´e programy poskytuj´ı i podporu tvorby rejstˇr´ık˚u, kter´a ovˇsem nen´ı pˇr´ıliˇs dokonal´a. Obvykle dok´aˇz´ı pouze oznaˇcen´a slova vypsat na konci textu s ˇc´ıslem pˇr´ısluˇsn´e strany, kde se v´yrazy vyskytuj´ı. I s programovou podporou pro vkl´ad´an´ı rejstˇr´ıku mus´ı ˇclovˇek obvykle s´am vybrat slova a slovn´ı spojen´ı, kter´a maj´ı b´yt do rejstˇr´ıku zaˇrazena. Pro rozs´ahl´e texty to m˚uˇze b´yt ˇcasovˇe n´aroˇcn´e, zvl´aˇst’ pokud rejstˇr´ık tvoˇr´ı nˇekdo jin´y neˇz autor.
Na profesion´aln´ı ´urovni se tvorbou rejstˇr´ık˚u zab´yvaj´ı obvykle v nakladatelstv´ıch speci-alizovan´ych na literaturu popul´arnˇe-nauˇcnou, literaturu faktu nebo na uˇcebnice. Rejstˇr´ıky napom´ahaj´ı orientaci v textu a urychluj´ı vyhled´av´an´ı zvolen´eho t´ematu.
ˇ
Casov´a n´aroˇcnost tvorby rejstˇr´ık˚u vede ke snaze vytvoˇrit n´astroj, kter´y by dok´azal rejstˇr´ıky tvoˇrit automaticky anebo alespoˇn tvorbu rejstˇr´ıku urychlil. S rychle nar˚ustaj´ıc´ım mnoˇzstv´ım ˇcl´ank˚u nen´ı moˇzn´e je vˇsechny ruˇcnˇe proch´azet a vytv´aˇret pro kaˇzd´y rejstˇr´ık. V textech se objevuj´ı st´ale nov´a jm´ena, spoleˇcnosti ˇci v´yrobky, coˇz dˇel´a probl´em program˚um pro automatickou tvorbu rejstˇr´ık˚u, kter´a je zaloˇzena na slovn´ıc´ıch. M˚uˇze se st´at, ˇze text je indexov´an pokaˇzd´e jinou spoleˇcnost´ı pro jin´e ´uˇcely a pojmy v rejstˇr´ıku se pro jeden text mohou diametr´alnˇe liˇsit. Pak je lepˇs´ı i nedokonal´y automatick´y rejstˇr´ık neˇz nˇekolik r˚uzn´ych. Tyto probl´emy vedly ke vzniku LinkIT [11], kter´y mˇel za ´ukol vyˇreˇsit indexov´an´ı univerzitn´ıch ˇcl´ank˚u.
Firmy zab´yvaj´ıc´ı se tvorbou rejstˇr´ık˚u pouˇz´ıvaj´ı profesion´aln´ı programy, kter´e nab´ızej´ı podporu tvorby rejstˇr´ık˚u. Podpora tvorby znamen´a pouze nab´ıdku moˇzn´ych kl´ıˇcov´ych slov, kter´e by se v rejstˇr´ıku mohly vyskytnout, programy nedok´aˇz´ı vytvoˇrit cel´y rejstˇr´ık auto-maticky. Nab´ıdku dok´aˇz´ı vytv´aˇret obvykle podle nˇekter´eho z tˇechto kriteri´ı:
• ˇcetnost slov — uˇzivatel nastav´ı maxim´aln´ı poˇcet v´yskyt˚u slov. Napˇr. nastav´ı v´ybˇer slov, kter´a se vyskytuj´ı 50 a m´enˇe kr´at. T´ım omez´ı mnoˇzstv´ı v´yraz˚u, ze kter´ych se budou vyb´ırat v´yrazy do rejstˇr´ıku.
• seznam vˇsech vlastn´ıch jmen vyskytuj´ıc´ıch se v textu. • seznam oznaˇcen´ych slov na z´akladˇe ruˇcn´ıho v´ybˇeru.
• seznam na z´akladˇe fr´az´ı — napˇr. fr´azov´a slovesa, nˇekter´e programy maj´ı slovn´ık v´ıceslovn´ych kl´ıˇcov´ych v´yraz˚u.
Vˇsechny metody kromˇe ruˇcn´ıho oznaˇcen´ı kl´ıˇcov´ych slov jsou nespolehliv´e, proto je zde moˇznost v´ybˇeru kl´ıˇcov´ych slov ponech´ana na uˇzivateli.
Pokud uˇzivatel s´am oznaˇcuje slova v anglick´em textu, pak nen´ı takov´y probl´em s vy-hled´an´ım slov v r˚uzn´ych tvarech, protoˇze obvykle postaˇc´ı odtrhnout koncovky jako s a va-rianty s apostrofy. Pro ˇceˇstinu je nutn´e se zab´yvat koncovkami slov v´ıce, protoˇze jedno slovo se m˚uˇze v textu vyskytovat v mnoha tvarech napˇr. vystupˇnovan´a pˇr´ıdavn´a jm´ena, skloˇnovan´a podstatn´a jm´ena nebo ˇcasovan´a slovesa. Probl´em v ˇcesk´em textu nast´av´a tak´e tehdy pokud jsou v textu pouˇzity pojmy z ciz´ıch jazyk˚u nebo jsou pouˇz´ıv´any pomˇernˇe nov´e, slovn´ıku nezn´am´e, term´ıny.
Problematika tvorby rejstˇr´ık˚u bude podrobnˇeji pops´ana v podkapitole 2.1. Automatick´a tvorba rejstˇr´ık˚u je zaloˇzeno na vyhled´av´an´ı v´yznamn´ych v´ıcen´asobn´ych v´yraz˚u a jedno-slovn´ych kl´ıˇcov´ych slov, jej´ıˇz z´aklady jsou pops´any v podkapitole 2.2. Vyhled´av´an´ı v´yraz˚u je zaloˇzeno pˇredevˇs´ım na ˇcetnosti v´yskytu slov v textu. Metody, kter´ymi je moˇzn´e v´ıcen´asobn´e v´yrazy z´ıskat, jsou detailnˇe pops´any podkapitolou 4, hled´an´ım jednoslovn´ych v´yraz˚u se zab´yv´a podkapitola 3.1. Tato kapitola se tak´e zab´yv´a problematikou relevance nalezen´ych v´ıcen´asobn´ych v´yraz˚u. V kapitole 3.2 jsou rozebr´any metody, kter´ymi se tyto v´yrazy daj´ı vybrat. Testovac´ı data jsou uvedena v kapitole 5.1, kde je tak´e pops´an syst´em, kter´ym jsou detekov´any kl´ıˇcov´a slova a generov´any rejstˇr´ıky. Pˇredposledn´ı kapitola 6 se zab´yv´a metodologi´ı hodnocen´ı a jednotliv´ymi experimenty prov´adˇen´ymi nad daty.
Tato pr´ace si klade za c´ıl zjistit nakolik lze pomoc´ı metod zpracov´an´ı pˇrirozen´eho ja-zyka zautomatizovat tvorbu rejstˇr´ık˚u. Velk´y d˚uraz je zde kladen na praktickou pouˇzitelnost v´ystupu a ˇcasovou n´aroˇcnost. C´ılem pr´ace je zjistit, jestli pouˇzit´e metody dok´aˇz´ı urychlit tvorbu a zpracov´an´ı rejstˇr´ıku uˇzivateli. Experimenty se zamˇeˇrily na to, kter´e techniky jsou nezbytnˇe nutn´e pro tvorbu rejstˇr´ık˚u napˇr. lemmatizace, urˇcen´ı slovn´ıch druh˚u aj.
Zkoum´an´ı, zda nab´ızen´y rejstˇr´ık obsahuje relevantn´ı data, se bude ovˇeˇrovat na lite-ratuˇre s profesion´alnˇe vytvoˇren´ymi rejstˇr´ıky. Vzhledem k tomu, ˇze literatury s kvalitnˇe vy-tvoˇren´ymi rejstˇr´ıky je m´alo, mus´ı se poˇc´ıtat s t´ım, ˇze kaˇzd´y syst´em nab´ıdne ˇsirˇs´ı mnoˇzstv´ı dat, neˇz kter´e je uv´adˇeno v knih´ach. Protoˇze je kaˇzd´y rejstˇr´ık vytvoˇren ponˇekud jinak a s normou [1] se zach´az´ı sp´ıˇse jako s doporuˇcen´ım, je tˇreba poˇc´ıtat s probl´emy automatick´eho hodnocen´ı. Dalˇs´ım probl´emem je, zda kvalita automaticky generovan´ych rejstˇr´ık˚u z´avis´ı na d´elce textu.
Text studijn´ı opory k pˇredmˇetu Zpracov´an´ı ˇreˇcov´ych sign´al˚u by mˇel pomoci, odpovˇedˇet na nˇekter´e z tˇechto ot´azek. Je na nˇem provedena pˇr´ıpadov´a studie, kter´a je pops´ana v ka-pitole 6.5 slouˇz´ıc´ı jako z´avˇereˇcn´y test pro vytvoˇren´y syst´em.
Kapitola 2
Vymezen´ı pojm˚
u
2.1
Rejstˇ
r´ıky
Pro vyhled´av´an´ı poloˇzek v rejstˇr´ıku je nutn´e si uvˇedomit, jak´a slova nebo v´ıceslovn´e v´yrazy se v nˇem vyskytuj´ı. Rejstˇr´ık je podrobn´y, obvykle abecednˇe seˇrazen´y seznam pojm˚u publikace, napˇr. knihy. Je vytv´aˇren proto, aby pomohl ˇcten´aˇri naj´ıt informace snadno a rychle. V ide´aln´ım pˇr´ıpadˇe nen´ı rejstˇr´ık pouh´ym seznamem z´akladn´ıch pojm˚u publikace, ale uspoˇr´adan´ym seznamem poloˇzek zahrnuj´ıc´ıch kˇr´ıˇzov´e odkazy1. Rejstˇr´ıky mohou obsa-hovat zkratky pˇr´ıpadnˇe i jm´ena citovan´ych autor˚u. Pokud je citovan´ych autor˚u nebo jmen v rejstˇr´ıku v´ıce, pouˇz´ıv´a se pro nˇe jmenn´y rejstˇr´ık, a ostatn´ı kl´ıˇcov´e v´yrazy jsou uvedeny v obyˇcejn´em rejstˇr´ıku. Podle normy [1] by se mˇela dodrˇzovat tato doporuˇcen´ı:
Kvalitnˇe vytvoˇren´y rejstˇr´ık vych´az´ı z toho, co budou potencion´aln´ı ˇcten´aˇri hle-dat. D´elka rejstˇr´ıku m´a dosahovat 10–15% stran pro vˇedeck´e publikace, 5% pro ostatn´ı ˇz´anry. V rejstˇr´ıku se doporuˇcuje pouˇz´ıvat uspoˇr´ad´an´ı slov — podstatn´e jm´eno, pˇr´ıdavn´e jm´eno n´asledovan´e ˇc´ıslem strany. Doporuˇcuje se nepouˇz´ıvat nebo ignorovat vlastn´ı z´ajmena. Pokud existuje v´ıce poloˇzek druh´eho ˇr´adu, je pˇrehlednˇejˇs´ı vytvoˇrit jemnˇejˇs´ı strukturu s dalˇs´ımi odr´aˇzkami jako v tabulce 2.1. Poloˇzky rejstˇr´ıku by nemˇely zaˇc´ınat velk´ym p´ısmenem pokud to nejsou vlastn´ı jm´ena. Pokud je uv´adˇen i seznam ilustrac´ı, mus´ı m´ıt vlastn´ı rejstˇr´ık ilustrac´ı.
Doporuˇcovan´e seˇrazen´ı pojm˚u v rejstˇr´ıku je uvedeno na pˇr´ıkladech tabulek 2.1 a 2.2, ta-bulkou 2.1 je ilustrov´an pˇr´ıpad v´ıce´urovˇnov´eho rejstˇr´ıku s jemnou strukturou.
programov´an´ı - genetick´e, 98, 112, 114 - syst´em˚u, 56, 57
- embedded, 56, 110, 111 - operaˇcn´ıch, 56, 59, 112 - profesion´aln´ı, 3
Tabulka 2.1: Z´akladn´ı tvar pojm˚u v rejstˇr´ıku — typ I.
V rejstˇr´ıku se obvykle slova uv´adˇej´ı v z´akladn´ım tvaru. Z´akladn´ı tvar b´yv´a v prvn´ım p´adu pro ˇr´ıd´ıc´ı podstatn´e jm´eno a infinitiv pro slovesa (pokud se sloveso vyskytne). V re´aln´ych rejstˇr´ıc´ıch jako tabulka 2.2 se ovˇsem nejˇcastˇeji vyskytuj´ı jednoslovn´e nebo
1
genetick´e programov´an´ı, 98, 112, 114 grafick´a karta, 114, 115
.. .
programov´an´ı operaˇcn´ıch syst´em˚u, 3
Tabulka 2.2: Z´akladn´ı tvar pojm˚u v rejstˇr´ıku — typ II.
dvouslovn´e v´yrazy. Pro dvojice jsou pak nejcharakteristiˇctˇejˇs´ı v´yskyty z tabulky 2.3. Sloˇzitˇejˇs´ı a l´epe vytvoˇren´e rejstˇr´ıky mohou b´yt v´ıce´urovˇnov´e jak je uvedeno na pˇr´ıkladˇe 2.1. Tvorba v´ıce´urovˇnov´ych rejstˇr´ık˚u je nejn´aroˇcnˇejˇs´ı, ale pro ˇcten´aˇre nejpˇrehlednˇejˇs´ı. Takov´a struktura p˚ujde v ˇcesk´em textu automaticky vytvoˇrit velmi tˇeˇzko kv˚uli poskl´ad´an´ı slov z v´yrazu ve spr´avn´ym poˇrad´ı a tvaru. Bliˇzˇs´ı informace o tvorbˇe rejstˇr´ık˚u lze naj´ıt pod normou ˇCSN ISO 999 - 1998 [1].
Tvary slov ∼ %
pˇr´ıdavn´e jm´eno + podstatn´e jm´eno v prvn´ım p´adˇe 80 podstatn´e jm´eno + podstatn´e jm´eno v druh´em p´adˇe 18
ostatn´ı tvary 2
Tabulka 2.3: Charakteristick´e tvary slov v rejstˇr´ıku
2.2
Typy v´ıceslovn´
ych v´
yraz˚
u
V literatuˇre se vyskytuje mnoho pojm˚u souvisej´ıc´ıch s kolokacemi, jejichˇz definice se nemus´ı shodovat. Tato pr´ace ˇcerpala definice a rozdˇelen´ı kolokac´ı pˇredevˇs´ım z [8], podle kter´e oznaˇcujeme jako kolokaci nˇekolik slov, kter´a na sebe maj´ı syntaktickou a s´emantickou vazbu. Tj. skupina slov, kter´a popisuje nˇejakou skuteˇcnost a pˇritom z jednotliv´ych slov nemus´ı b´yt zˇrejm´y jejich v´yznam. Kolokace maj´ı tyto charakteristick´e vlastnosti:
• omezenou kompozicionalitu — tzn. z jednotliv´ych slov nen´ı moˇzn´e urˇcit v´yznam ko-lokace. ˇCasto citovan´y pˇr´ıklad je siln´y ˇcaj, kde siln´y vypov´ıd´a o kvalitˇe ˇcaje a ne o fyzick´e s´ıle. V nˇekter´ych pˇr´ıpadech se m˚uˇze v´yznam jednotliv´ych slov naprosto liˇsit od v´yznamu kolokace. Takov´ym extr´emn´ım pˇr´ıpadem jsou idiomy, napˇr. d´at si do tˇela.
• omezenou substituovatelnost — nelze nahradit slovo jin´ym slovem, i kdyˇz popisuje stejnou vlastnost napˇr. b´ıl´e v´ıno je sp´ıˇse ˇzlut´e barvy, ale nikdy o nˇem takto nemluv´ıme. • omezenou modifikovatelnost (pˇrizp˚usobitelnost) — nˇekter´e kolokace, pˇredevˇs´ım idi-omy, nemohou b´yt rozˇs´ıˇreny o dalˇs´ı lexik´aln´ı2 jednotky, ani nemohou b´yt oh´yb´any, protoˇze by se zmˇenil jejich v´yznam. Napˇr. pˇrij´ıt na buben — pˇrij´ıt na zelen´y buben. Kolokace zahrnuj´ı pojmy jako: kl´ıˇcov´a slova, idiomy, term´ıny, typick´a spojen´ı a dalˇs´ı.
Kl´ıˇcov´a slova mohou b´yt jednoslovn´a nebo v´ıceslovn´a. Jsou to podstatn´e pojmy v textu, pojmenov´avaj´ı problematiku, kterou se text zaob´ır´a. Pˇr´ıkladem jednoslovn´eho kl´ıˇcov´eho
2
slova m˚uˇze b´yt tˇreba impresionismus v Dˇejin´ach umˇen´ı a pro v´ıceslovn´a napˇr. rene-sanˇcn´ı mal´ıˇrstv´ı. Pokud se kl´ıˇcov´a slova t´ykaj´ı urˇcit´e problematiky, mluv´ıme o term´ınech pouˇz´ıvan´ych v tomto oboru, napˇr. z´akladn´ı deska v architektuˇre poˇc´ıtaˇc˚u. Hlavn´ı rozdˇelen´ı kolokac´ı zaloˇzen´e na s´emantice a syntaxi:
• typick´a spojen´ı • term´ıny
• idiomy
Co je to term´ın bylo uvedeno v´yˇse, zbyl´e dva pojmy se ˇcasto pˇrekr´yvaj´ı.
Obvykle je idiom˚um vˇenov´ana jen mal´a pozornost, protoˇze se mohou pˇrekr´yvat s v´ıceslovn´ymi v´yrazy, a jen tˇeˇzko lze urˇcit pˇresnou hranici mezi nimi. ˇClovˇek urˇc´ı v´yznam idiomu podle s´emantick´eho v´yznamu, napˇr. typick´y ˇcesk´y idiom je nat´ahnout baˇckory, d´at si do nosu. Pokud ˇclovˇek nezn´a v´yznam idiomu, nepozn´a z jednotliv´ych slov, o co se jedn´a. Obvykle b´yv´a idiom v kaˇzd´em jazyce odvozen od jin´ych slov (nat´ahnout baˇckory — kick the bucket ), proto je pˇredmˇetem mnoha v´yzkum˚u vyhled´av´an´ı idiom˚u a v´ıceslovn´ych v´yraz˚u. Ve slovn´ıc´ıch jsou potˇreba nejen idiomy a v´ıceslovn´e v´yrazy, ale i volnˇejˇs´ı v´ıceslovn´e v´yrazy jako pˇr´ıpady, kter´a pˇredloˇzka se poj´ı s kter´ym slovesem. Automaticky se daj´ı z´ısk´avat i takov´eto v´yrazy a jejich hled´an´ım se mimo jin´e zab´yv´a [5]. Mezi idiomy nepatˇr´ı uˇz takov´e v´ıceslovn´e v´yrazy, kter´e maj´ı pˇr´ıliˇs voln´y v´yznam. Na z´akladˇe jednotliv´ych slov se ned´a pochopit jejich smysl, ale vazba nen´ı tak pevn´a jako u idiom˚u uveden´ych v´yˇse napˇr. fr´azov´e sloveso [13] a podmˇet zavolat l´ekaˇre — call for - doctor. Z jednotliv´ych slov tady lze urˇcit smysl, pˇresto je fr´azov´e sloveso ust´alen´a vazba. Existuj´ı i slovn´ı spojen´ı (pˇredevˇs´ım v an-gliˇctinˇe) jako fire away3, kter´a maj´ı naprosto odliˇsn´y v´yznam od v´yznamu jednotliv´ych slov.
Typick´e v´yrazy — v´ıceslovn´e v´yrazy lze ilustrovat na v´yrazu dobˇre (s nˇek´ym) vych´azet (get away with), coˇz jsou v´ıceslovn´e slovesn´e v´yrazy (multi-word verbs). Takov´e v´yrazy lze rozdˇelit do podtˇr´ıd na fr´azov´a slovesa (typick´a pˇredevˇs´ım pro angliˇctinu) a slovesa poj´ıc´ı se s pˇredloˇzkami. Vˇsechny tyto v´yrazy se chovaj´ı jako jedno slovo. Term´ın
”slovo“ je ˇcasto pouˇz´ıvan´e nejen v morfologick´em smyslu, ale tak´e pro poloˇzky, kter´e se chovaj´ı jako jedna entita lexik´alnˇe a syntakticky. Pojem v´ıceslovn´e v´yrazy a dalˇs´ı podtˇr´ıdy byly zavedeny, pro v´ystiˇznˇejˇs´ı pojmenov´an´ı skupin chovaj´ıc´ıch se podle urˇcit´ych pravidel nebo charakterizovan´ych podobn´ymi vlastnostmi.
V´ıceslovn´e v´yrazy zaloˇzen´e na pˇredloˇzk´ach nepokl´ad´ame za idiomy, pˇrestoˇze jsou na sebe pevnˇe v´az´any. Je totiˇz tˇeˇzk´e odliˇsit, co je pouze pˇredloˇzka a co je v´ıceslovn´y v´yraz napˇr. narozd´ıl od, co se t´yˇce (apart from, as for ). K podobn´e situaci doch´az´ı u podstatn´ych jmen jako asistent ˇreditele — assistant director. Podstatn´a jm´ena maj´ı ust´alen´y v´yraz, ale nen´ı to idiom narozd´ıl od spojen´ı typu ruku v ruce - arm in arm. Zvl´aˇstn´ı postaven´ı v kolokac´ıch zauj´ımaj´ı vlastn´ı jm´ena. Patˇr´ı mezi kolokace, ale ˇcasto jsou neˇz´adouc´ı a je tˇreba je odfiltrovat.
Kolokace se tak´e daj´ı rozdˇelit podle toho, jak se vyskytuj´ı ve vˇet´ach. Obvykle se jed-notliv´a slova kolokace vyskytuj´ı vedle sebe, nˇekter´e kolokace mohou b´yt oddˇelen´e dalˇs´ımi slovy tzv. kolokace s d´ırami . Takov´y pˇr´ıklad je uveden n´ıˇze ve tˇret´ı vˇetˇe.
Pˇr´ıklady vˇet s r˚uznˇe spoˇr´adan´ymi kl´ıˇcov´ymi slovy:
• Objekty lze naj´ıt v budovˇe Akademie vˇed na N´arodn´ı tˇr´ıdˇe, vstup je voln´y.
3
• Voln´y vstup v´am nem˚uˇzeme zaruˇcit.
• Vstup na v´ystavu je voln´y pouze v pondˇel´ı.
Kl´ıˇcov´ymi slovy (tedy kolokac´ı) je v tomto pˇr´ıpadˇe voln´y vstup.
S automatick´ym zpracov´an´ım jazyka jsou spojeny dalˇs´ı pojmy jako lemmatizace — pˇrevod (nejen) kolokace na z´akladn´ı tvar, napˇr. operaˇcn´ımi syst´emy na operaˇcn´ı syst´em. Zpracov´an´ı textu se prov´ad´ı na rozs´ahl´ych textech — korpusech. Korpusy jsou texty upra-ven´e s ohledem na automatick´e zpracov´an´ı textu. Obvykle jsou uloˇzeny ve form´atu slovo na ˇr´adek. Pro zachycen´ı vnitˇrn´ı struktury textu jako jsou tˇreba nadpisy se pouˇz´ıvaj´ı znaˇckovac´ı jazyky napˇr. SGML4, takov´e korpusy jsou (zat´ım) sp´ıˇse vyj´ımkou. Korpusy mohou b´yt vy-tvoˇreny z knih, novinov´ych ˇcl´ank˚u, z internetov´ych ˇcl´ank˚u aj. Podle toho, k ˇcemu je korpus potˇreba, se vyb´ıraj´ı data, pˇr´ıpadnˇe jazyk nebo jazyky.
2.3
Pˇ
redzpracov´
an´ı textu
Jednoslovn´e v´yrazy mohou tvoˇrit znaˇcnou ˇc´ast rejstˇr´ıku. Jejich vyhled´av´an´ı je zaloˇzen´e na ˇcetnosti v´yskytu slov v textu. Takto se na v´ystup dostane znaˇcn´e mnoˇzstv´ı pomocn´ych slov, kter´a se daj´ı odfiltrovat stop-listem5, kter´y obsahuje nejˇcastˇeji pouˇz´ıvan´a slova, pˇredevˇs´ım funkˇcn´ı slova6. Odfiltrov´an´ı slov m˚uˇzeme zaloˇzit na oznaˇcen´ı slov slovn´ımi druhy, a pak vynechat pomocn´a slova. Pro dalˇs´ı z´uˇzen´ı v´ybˇeru slov lze pouˇz´ıt nˇekter´e z d´ale popsan´ych metod z kapitoly 4.
O nˇeco sloˇzitˇeji jsou zpracov´av´any V´ıceslovn´e kolokace, ale tak´e se zde uplatˇnuje filtrace stop-listem. Obecn´e rozdˇelen´ı metod vyhled´av´an´ı v´ıceslovn´ych kolokac´ı:
• frekvenˇcn´ı vyhled´av´an´ı (n-gramy mohou b´yt vytv´aˇreny podle r˚uzn´ych pravidel) • hled´an´ı na z´akladˇe lingvistick´ych poznatk˚u — gramatick´e vzorce
• kombinace metod
Vyhled´av´an´ı bigram˚u7 je tak´e zaloˇzeno na frekvenci v´yskytu v textu. Pouh´ym frekvenˇcn´ım hled´an´ım lze z´ıskat kolokace jako v tabulce 2.4. Jak je vidˇet mezi prvn´ıch p´ar nejˇcastˇeji se vyskytuj´ıc´ıch bigram˚u, se nedostala ˇz´adn´a slova, kter´a bychom mohli povaˇzovat za typickou kolokaci. Tento probl´em se bˇeˇznˇe ˇreˇs´ı tak, ˇze se vytvoˇr´ı stop-list vˇsech ˇcasto se opakuj´ıc´ıch spojen´ı, kter´e n´am nevyhovuj´ı. Je to nejrychlejˇs´ı ˇreˇsen´ı, ale je tˇreba dobr´y slovn´ık se vˇsemi pomocn´ymi slovy, ve vˇsech tvarech, kter´y se na odfiltrov´an´ı pouˇzije. Dalˇs´ı moˇznost´ı je pouˇz´ıt znaˇckovaˇc, kter´y urˇc´ı slovn´ı druhy bigram˚u. Pak staˇc´ı oznaˇcit slovn´ı druhy, kter´e budou z v´ystupu odfiltrov´any.
Stop-list zaloˇzen´y pouze na odstranˇen´ı pomocn´ych slov by odstranil napˇr. se nebo v, ale bigramy jako v roce by z˚ustaly, coˇz m˚uˇzeme za kl´ıˇcov´e povaˇzovat jen tˇeˇzko. V angliˇctinˇe je to celkem trivi´aln´ı probl´em, protoˇze pro urˇcen´ı slovn´ıch druh˚u existuje jen p´ar pravidel. V ˇceˇstinˇe je to mnohem komplikovanˇejˇs´ı kv˚uli oh´yb´an´ı slov8.
4Standard Generalized Markup Language 5
Stop-list — seznam slov, kter´a jsou vyˇrazena z dalˇs´ıho zpracov´an´ı.
6Pˇredloˇzky, spojky, nˇekter´a z´ajmena, pomocn´a slovesa, aj. 7
Kolokace, kter´a je dvouslovn´ym v´yrazem
8
Poˇcet v´yskyt˚u Bigram 4403 v roce 3286 a to 3101 je to 2880 a v 2743 v´ıce neˇz 2628 se v 2624 ale i 210 microsoft windows 210 mus´ı m´ıt 210 maj´ı b´yt 209 syst´em˚u a 209 Hradec Kr´alov´e 209 o v´ykonu
209 urˇcen´e pro
Tabulka 2.4: Bigramy — frekvenˇcn´ı vyhled´av´an´ı
Frekvenˇcn´ı vyhled´av´an´ı je moˇzn´e zaloˇzit na prost´em proch´azen´ı textu nebo pouˇz´ıt ”ok´enko“ — vytv´aˇrej´ıc´ı bigramy ze slov pˇred (za) aktu´aln´ım slovem. Metod z´ısk´av´an´ı bi-gram˚u je v´ıce. Po odfiltrov´an´ı pomocn´ych slov by mˇelo b´yt jasnˇejˇs´ı, zda nˇekter´a metoda d´av´a v´yraznˇe lepˇs´ı v´ysledky nebo jestli vych´azej´ı zhruba stejnˇe.
V tabulk´ach 2.4 a 2.5 byla nalezena vlastn´ı jm´ena. V nˇekter´ych textech nemus´ı b´yt ˇ
z´adan´a, a v takov´em pˇr´ıpadˇe je tˇreba m´ıt rozs´ahl´y slovn´ık, kter´y je dok´aˇze rozliˇsit.
Vˇetˇsina citovan´e literatury se zab´yv´a pˇredevˇs´ım hled´an´ım bigram. Kolokace jsou ˇcasto sloˇzeny z v´ıce neˇz dvou slov, a proto jsou v t´eto pr´aci zmiˇnov´any trigramy a delˇs´ı kolokace. V [8] je zmiˇnov´ano hled´an´ı bigram˚u a trigram˚u. Pokud je z jednoho textu vygenerov´an seznam bigram˚u i trigram˚u, pak mohou b´yt vygenerov´any bigramy, kter´e jsou ˇc´astmi tri-gram˚u. Napˇr. v pˇr´ıpadˇe hrub´eho dom´ac´ıho produktu z tabulky 2.6 je plnohodnotnou kolokac´ı trigram, protoˇze z bigramu hrub´y dom´ac´ı nelze urˇcit smysl. U ostatn´ıch dvou mohou b´yt spr´avnˇe bigramy i trigramy. Automatick´e zjiˇstˇen´ı, jestli je spr´avn´y delˇs´ı nebo kratˇs´ı term´ın, lze zaloˇzit na ˇcetnosti v´yraz˚u.
Po vygenerov´an´ı bigram˚u (n-gram˚u) je na v´ystupu spousta zbyteˇcn´ych slov, kter´a se daj´ı odfiltrovat na z´akladˇe:
• slovn´ıku
• seznamu v´yraz˚u • podle slovn´ıch druh˚u
Jednou moˇznost´ı je vytvoˇrit stop-list, kter´y je tˇreba naplnit vˇsemi kombinacemi pˇredloˇzek a spojek, z´ajmeny a dalˇs´ımi. Pro vytvoˇren´ı je moˇzn´e pouˇz´ıt jiˇz hotov´y stop-list pomocn´ych slov a doplnit jej nejˇcastˇejˇs´ımi slovy. Po odstranˇen´ı slov ze stop-listu by zbyly pouze v´yrazy vyhodnocen´e jako kolokace, kter´e se pˇrevedou do z´akladn´ıho tvaru. Daly by se pˇrev´est pouze ty nejˇcastˇejˇs´ı, ale nˇekter´a kl´ıˇcov´a slova se v textu mohou vyskytovat pouze zˇr´ıdka a nemusely by se mezi nejˇcastˇejˇs´ımi objevit.
Dalˇs´ı moˇzn´y pˇr´ıstup je urˇcit slovn´ı druhy a urˇcit takov´e kombinace slovn´ıch druh˚u, kter´e se nebudou v bigramech vyskytovat. Typick´ym pˇr´ıkladem bude bigram obsahuj´ıc´ı
Poˇcet v´yskyt˚u Bigram 6006 ˇze a 5933 ˇze v 5658 ˇze se 4860 ˇze na 4314 v a 4180 ˇze je 3720 v se 79 microsoft windows 79 Csn enˇ 79 pro windows 78 v z´ajmu 78 kontakt s 78 Ctibor ˇCejpa 78 pro grafiky
Tabulka 2.5: Bigramy hledan´e
”ok´enkem“ — pˇr´ıklad z testovac´ıch dat
Trigramy Bigramy A Bigramy B
microsoft windows nt microsoft windows windows nt ochrana ˇzivotn´ıho prostˇred´ı ˇzivotn´ı prostˇred´ı ochrana ˇzivotn´ı hrub´y dom´ac´ı produkt dom´ac´ı produkt hrub´y dom´ac´ı
Tabulka 2.6: Trigramy vs. bigramy
slova — pˇredloˇzka n´asledovan´a spojkou, libovoln´y slovn´ı druh n´asledovan´y pˇredloˇzkou atd. Pro pˇresnˇe definovan´y probl´em je moˇzn´e pouˇz´ıt opaˇcn´y pˇr´ıstup a vytvoˇrit vzorce slovn´ıch druh˚u. Pokud by bylo c´ılem, tˇreba v anglick´em textu, z´ıskat fr´azov´a slovesa [13], pak by se dal vytvoˇrit vzorec: Sloveso Pˇredloˇzka Libovoln´y slovn´ı druh, kde po pˇredloˇzce n´asleduje slovo libovoln´eho slovn´ıho druhu.
Znaˇckov´an´ı slovn´ıch druh˚u lze prov´adˇet r˚uznˇe sloˇzit´ymi metodami, z´aleˇz´ı na poˇzadovan´e ´
uspˇeˇsnosti. S dostateˇcnˇe velk´ym oznaˇckovan´ym korpusem dat je moˇzn´e vytvoˇrit si tr´enovac´ı a testovac´ı mnoˇzinu. K dat˚um z testovac´ı mnoˇziny pak staˇc´ı vyhledat stejn´a slova v tr´enovac´ı mnoˇzinˇe a pˇriˇradit slovn´ı kategorie. Probl´em nastane, pokud se jedn´a o tr´enovac´ı mnoˇzinˇe nezn´am´e slovo.
Mezi dalˇs´ı jednoduˇsˇs´ı postupy patˇr´ı jiˇz dˇr´ıve zmiˇnovan´y morfologick´y analyz´ator. Mor-fologie (tvaroslov´ı) je vˇeda zab´yvaj´ıc´ı se oh´yb´an´ım a odvozov´an´ım slov pomoc´ı pˇredpon a pˇr´ıpon. Slova kaˇzd´eho jazyka jsou sestaven´a z jednoho ˇci v´ıce morf´em˚u — nejmenˇs´ı jazykov´e jednotky s identifikovateln´ym v´yznamem. Touto cestou je moˇzn´e podle konco-vek jednotliv´ych slov zhruba urˇcit slovn´ı druhy, napˇr. barevn´y podle koncovky -n´y bude pravdˇepodobnˇe pˇr´ıdavn´e jm´eno.
Urˇcov´an´ım slovn´ıch druh˚u se zab´yvalo jiˇz mnoho v´yzkum˚u. Mezi ˇcesk´e morfologick´e analyz´atory patˇr´ı projekt Masarykovy univerzity — [10], kter´y je zaloˇzen na morfologii ˇ
cesk´eho jazyka. Na Univerzitˇe Karlovˇe vznikl projekt — PDT [7].
PDT pracuje se slovn´ıkem pˇr´ısluˇsn´eho jazyka. Zvl´aˇstn´ı pozornost tvorbˇe morfologick´eho analyz´atoru byla vˇenov´ana pˇredpon´am, kter´e se ve slovansk´ych jazyc´ıch hodnˇe vyskytuj´ı
Poˇcet v´yskyt˚u Trigram
1890 v souˇcasn´e dobˇe 1103 v ˇCesk´e republice 709 v roce 1994 694 v roce 1995 556 jedn´a se o 550 na rozd´ıl od 525 ve srovn´an´ı s
177 ochrany ˇzivotn´ıho prostˇred´ı
176 a to v
174 a v´ychodn´ı Evropy
173 Cr a Srˇ
172 v nˇekter´ych pˇr´ıpadech
172 ale i v
172 o v´ıce neˇz
Tabulka 2.7: Trojice po sobˇe jdouc´ıch (soused´ıc´ıch) slov
(nej-, ne-), a proto je pouˇziteln´y obecnˇeji pro slovansk´e jazyky.
Znaˇckovaˇcem se mysl´ı program, kter´y dok´aˇze slov˚um pˇriˇradit mluvnick´e kategorie. Morfologick´y analyz´ator dok´aˇze pouze navrhnout kategorie a lemmu. Pˇri zpracov´an´ı znaˇckovaˇcem za pouˇzit´ı slovn´ık˚u m˚uˇze opˇet nastat probl´em s nezn´am´ymi slovy, kter´a se daj´ı ˇreˇsit tˇemito zp˚usoby:
• pˇriˇradit nejˇcastˇejˇs´ı slovn´ı druh z tr´enovac´ı mnoˇziny
• vytvoˇrit bigramy/trigramy, kter´e rozhodnou na z´akladˇe pravdˇepodobnost´ı po sobˇe jdouc´ıch slov, o jak´y slovn´ı druh se bude jednat
•
”uhodnout“ slovn´ı druh z koncovky na z´akladˇe morfologick´e anal´yzy Nezn´am´a slova podle statistiky b´yvaj´ı pˇredevˇs´ım:
• vlastn´ı jm´ena • pˇr´ıdavn´a jm´ena
• ostatn´ı — zkratky, znaˇcky aj.
Nejvˇetˇs´ı ˇc´ast nezn´am´ych slov tvoˇr´ı vlastn´ı jm´ena. ˇC´asteˇcnˇe se probl´em jejich urˇcen´ı d´a vyˇreˇsit pouˇzit´ım slovn´ıku jmen, ale st´ale z˚ust´av´a velk´a ˇc´ast vlastn´ıch jmen jako jsou n´azvy, napˇr. spoleˇcnost´ı nebo v´yrobk˚u. Druhou kategorii nezn´am´ych slov tvoˇr´ı pˇredevˇs´ım ciz´ı slova ve formˇe pˇr´ıdavn´ych jmen, napˇr. aglutinaˇcn´ı. Takov´a slova se daj´ı aspoˇn ˇc´asteˇcnˇe urˇcit podle koncovky, ˇc´ımˇz se kategorie nezn´am´ych slov opˇet zuˇzuje. Zb´yvaj´ıc´ı ˇc´ast je zlomkem oproti dvˇema prvn´ım kategori´ım. Do t´eto kategorie spadaj´ı zkratky, kter´e mohou b´yt ˇcasto pouˇz´ıvan´e v dan´em oboru, z kter´eho text ˇcerp´a, ale v bˇeˇzn´em slovn´ıku se v˚ubec nemus´ı vyskytovat. Tot´eˇz plat´ı i o podstatn´ych jm´enech, kter´a budou bˇeˇzn´a pro urˇcit´y obor, ale slovn´ıku naprosto nezn´am´a.
Kapitola 3
Z´
akladn´ı techniky vyhled´
av´
an´ı
kandid´
at˚
u na rejstˇ
r´ıkov´
a hesla
Rejstˇr´ıky obsahuj´ı pˇredevˇs´ım jednoslovn´e a dvouslovn´e v´yrazy. Zjednoduˇsenˇe lze ˇr´ıct, ˇze problematika vyhled´av´an´ı v´yraz˚u v rejstˇr´ıku je problematikou hled´an´ı kl´ıˇcov´ych
slov — unigram˚u a kolokac´ı (bigram˚u, trigram˚u).
3.1
Jednoslovn´
e v´
yrazy
Jednoslovn´e v´yrazy, jinak naz´yvan´e unigramy podle mnoˇzstv´ı slov ve v´yrazu, jsou v textu hled´any na z´akladˇe frekvence v´yskytu. Probl´em nastane u pˇr´ıliˇs kr´atk´ych text˚u nebo tˇreba manu´al˚u1, kde je zm´ınˇeno kl´ıˇcov´e slovo pouze v nadpisu.
Pro takov´e pˇr´ıpady je moˇzn´e hledan´e unigramy v´ıce ohodnotit, to plat´ı napˇr. pro nad-pisy nebo slova vys´azen´e tuˇcnˇe (pokud bude zpracov´avan´y text takto oznaˇcen). Hodnota sk´ore se zv´yˇs´ı pomˇernˇe k obodov´an´ı ostatn´ıch vyhledan´ych v´yraz˚u. D´a se oˇcek´av´avat, ˇze nadpisy budou stejnˇe jako text obsahovat spoustu pomocn´ych slov a nadpisy jako ´uvod nebudou vhodn´ymi kandid´aty rejstˇr´ıku. Proto se seznam unigram˚u vyfiltruje stop-listem ˇ
casto uˇz´ıvan´ych slov nebo se pouˇzij´ı modely popsan´e v podkapitole 3.2
3.2
V´ıceslovn´
e v´
yrazy
Pro z´uˇzen´ı mnoˇzstv´ı vyhledan´ych n-gram˚u z jednoho korpusu lze pouˇz´ıt filtraci backgroun-dov´ym modelem, kter´y m˚uˇze b´yt: korpusov´y — obecn´y anebo dom´enovy — specializo-van´y. Korpusov´y background model — se vytv´aˇr´ı z dostateˇcnˇe velk´eho obecn´eho korpusu (mili´ony slov). Pokud se v obecn´em korpusu nˇekter´e slovo vyskytuje jen v´yjimeˇcnˇe a ve zkouman´em textu mnohokr´at, pak zˇrejmˇe p˚ujde o text zab´yvaj´ıc´ı se problematikou vzta-huj´ıc´ı se k tomuto slovu a takov´e slovo je vhodn´ym kandid´atem na rejstˇr´ıkov´e heslo.
Backgroundov´y model vych´az´ı ze znalosti Zipfov´ych z´akon˚u [14]. Plat´ı rovnice f.r = k, kter´a se d´a vyloˇzit na seznamu nejˇcastˇeji se vyskytuj´ıc´ıch slov v textu takto: f — 50-t´e nejˇcastˇejˇs´ı slovo vyskytuj´ıc´ı se v textu bude zastoupeno r — ∼ 3-kr´at ˇcastˇeji neˇz
k — 150-t´e nejˇcastˇejˇs´ı slovo. Takov´e rozloˇzen´ı neodpov´ıd´a norm´aln´ımu Gaussovu rozloˇzen´ı, ale hyperbolick´emu Paretovu rozdˇelen´ı. Podle nich lze urˇcit:
1
Manu´al — n´avod k pouˇzit´ı kde se mohou v textu vyskytovat kl´ıˇcov´a slova (vhodn´ı kandid´ati do rejstˇr´ıku) pouze jako nadpisy n´asledovan´e vysvˇetlen´ım. V takov´em pˇr´ıpadˇe se kl´ıˇcov´a slova mohou v textu objevit jen jednou.
• ˇcetnost termu
• dokumentov´a ˇcetnost ˇ
Cetnost termu z´avis´ı na poˇctu v´yskytu slova v dokumentu dj, kde plat´ı vztah
f (k, s, N ) =
1 ks
PN
n=1n1s
kde N je poˇcet element˚u, k je jejich hodnost a s je exponent, kter´y popisuje rozloˇzen´ı. Vzorec lze ch´apat jako zlomek, kter´y popisuje ˇcetnost v´yskytu k-t´eho nejˇcastˇejˇs´ıho slova. Normalizovan´e rozloˇzen´ı lze zapsat jako:
N
X
n=1
f (k, s, N ) = 1
Korpusov´y model je tedy vytv´aˇren ze seznamu vˇsech slov nez´avisl´eho korpusu zba-ven´eho pomocn´ych slov, kter´y se podle ˇcetnosti (poˇrad´ı) porovn´a se slovy zpracov´avan´eho textu jako je tomu v tabulce 3.1. V prvn´ım sloupci jsou uveden´e dvojice obecn´eho kor-pusu seˇrazen´e podle ˇcetnosti, v druh´em sloupci jsou dvojice zpracov´avan´eho textu tak´e ˇrazen´e podle ˇcetnosti. Slova, kter´a se nal´ezaj´ı na konci seznamu obecn´eho korpusu, jsou mnohem ˇcastˇejˇs´ı ve zpracov´avan´em textu. V´yjimku tvoˇr´ı slova jako tuˇcnice obecn´a, kter´a je v obecn´em korpusu i ve zpracov´avan´em textu nalezena zˇr´ıdka, a proto bude vhodn´e posu-nout tohoto kandid´ata na rejstˇr´ıkov´y v´yraz v seznamu v´ıce dopˇredu. V pˇr´ıpadˇe popsan´em
obecn´y korpus zpracov´avan´y korpus d´eˇst’ masoˇzrav´e rostliny mˇekk´a voda subtropy
subtropy pˇestov´an´ı rostlin ..
. ...
plastov´e n´adoby tuˇcnice obecn´a masoˇzrav´e rostliny plastov´e n´adoby tuˇcnice obecn´a mˇekk´a voda ..
. ...
Tabulka 3.1: Korpusov´y (backgroundov´y) model
tabulkou by slova jako masoˇzrav´e rostliny nebo tuˇcnice obecn´a byly korpusov´ym modelem vyhodnoceny jako kl´ıˇcov´a slova vhodn´a ke vloˇzen´ı do rejstˇr´ıku.
Dom´enov´y model je zaloˇzen na oblasti, kterou se dokument (korpus) zaob´ır´a. Napˇr. pokud p˚ujde o knihu biologie — masoˇzrav´e rostliny, pak tento bigram nen´ı vhodn´ym kandid´atem rejstˇr´ıkov´eho v´yrazu, zato kolokacemi budou jednotliv´e druhy napˇr. tuˇcnice obecn´a nebo subtropick´e rosnatky. Podle dom´eny se pak vyberou slova, kter´a budou pˇri vyb´ır´an´ı kolokac´ı ignorov´ana.
Pro dom´enov´y model je tˇreba z´ıskat seznam slov a slovn´ıch spojen´ı seˇrazen´ych podle ˇ
cetnost´ı platn´ych pro danou dom´enu. Takov´y seznam se d´a vytvoˇrit ruˇcnˇe pˇri mal´em objemu dat. Pˇri vˇetˇs´ım mnoˇzstv´ı slov by to bylo nepohodln´e, napˇr. vˇse co se t´yk´a pr´ava Evropsk´e unie — pr´ava, paragrafy, naˇr´ızen´ı ˇc. 1680, evropsk´e fondy, evropsk´a ´ustava. Tento model byl
pouˇzit syst´emem Computer-aided Document Indexing System [6], kde pouˇzili pro rozdˇelen´ı slov do dom´en tezaurus2. Po aplikaci modelu tato slova vypadnou a z˚ustanou pouze pojmy, kter´ymi se tyto z´akony zab´yvaj´ı.
3.3
Existuj´ıc´ı syst´
emy pro generov´
an´ı rejstˇ
r´ık˚
u
Komerˇcn´ı software
Pravdˇepodobnˇe nejzn´amˇejˇs´ı textov´y editor MS Word ˇreˇs´ı tvorbu rejstˇr´ık˚u tak, ˇze si uˇzivatel mus´ı oznaˇcit kl´ıˇcov´a slova v textu, coˇz je pro ˇceˇstinu znaˇcn´y probl´em. Jak bylo ˇreˇceno v ´uvodu, kv˚uli koncovk´am je tvorba rejstˇr´ık˚u pro ˇcesk´y jazyk t´ımto zp˚usobem dost n´aroˇcn´a. Kaˇzd´e slovo by muselo b´yt oznaˇceno ve vˇsech tvarech a v rejstˇr´ıku by se vˇsechny tyto tvary objevily. Podobn´y postup vyuˇz´ıv´a i kancel´aˇrsk´y bal´ık OpenOffice. Tyto pro-gramy nenab´ızej´ı moˇznost jednotliv´e tvary
”sjednotit“ podle lemmy.
Pro firmy, kter´e se zab´yvaj´ı tvorbou rejstˇr´ık˚u na profesion´aln´ı ´urovni, jako jsou nakla-datelstv´ı specializovan´a na literaturu faktu, vznikly programy nab´ızej´ıc´ı asistovanou tvorbu rejstˇr´ık˚u. Napˇr. software Sonar Bookends InDex Pro nab´ız´ı v´yrazy vhodn´e pro rejstˇr´ıky na z´akladˇe v´ybˇeru vlastn´ıch jmen z textu, nejˇcastˇejˇs´ıch v´yraz˚u, fr´az´ı apod. Probl´em asis-tovan´e tvorby rejstˇr´ık˚u spoˇc´ıv´a v pˇr´ıliˇs velk´em mnoˇzstv´ı v´yraz˚u, kter´e program nab´ız´ı. Uˇzivatel si mus´ı vymezit hranice pro optim´aln´ı mnoˇzstv´ı v´yraz˚u, kter´e chce pouˇz´ıt pouze na z´akladˇe zkuˇsenost´ı s tvorbou index˚u.
Univerzitn´ı studie
Na Kolumbijsk´e univerzitˇe v USA se zamˇeˇrili na generov´an´ı rejstˇr´ık˚u k internetov´ym ˇ
cl´ank˚um. Potˇrebovali vyˇreˇsit probl´emy se vznikem st´ale nov´ych ˇcl´ank˚u, kter´e nemˇeli ˇcas ”ruˇcnˇe“ indexovat, a bez rejstˇr´ık˚u bylo vyhled´av´an´ı v takov´em mnoˇzstv´ı text˚u velmi obt´ıˇzn´e. Sv´e vyhled´av´an´ı postavili na dokumentov´e ˇcetnosti v´ıceslovn´ych v´yraz˚u tj. nepouˇz´ıvali kor-pusov´y model.
Automatick´e hled´an´ı kl´ıˇcov´ych slov generovalo velk´e mnoˇzstv´ı nevyhovuj´ıc´ıch slovn´ıch spojen´ı, kter´e se rozhodli eliminovat projektem LinkIT [11]. Postupovali tak, ˇze n´ahodnˇe vybrali 0,025% term˚u z korpusu o velikosti 250MB a vyhodnotili tyto termy na z´akladˇe soudrˇznosti3. Tato pˇr´ıpravn´a studie uk´azala, ˇze 90% n´ahodnˇe vybran´ych term˚u je dobr´ym kandid´atem na kl´ıˇcov´e slovo a tedy ´uspˇeˇsn´y syst´em potˇrebuje vyhodnocov´an´ı s maxim´alnˇe 10% nepouˇziteln´eho v´ystupu. Tato m´ıra byla vyhodnocena jako postaˇcuj´ıc´ı, protoˇze se pˇredpokl´ad´a, ˇze uˇzivatel´e, kteˇr´ı s texty budou pracovat, dok´aˇz´ı poznat a ignorovat v´yrazy, kter´e nejsou kl´ıˇcov´e a v rejstˇr´ıku jsou jen proto, ˇze maj´ı vysokou hodnotu dokumentov´e ˇ
cetnosti. Strojov´e zpracov´an´ı nach´az´ı v´ıce term˚u neˇz ˇclovˇek, protoˇze je m´enˇe
”vyb´ırav´e“. Samotn´y projekt funguje tak, ˇze se nejdˇr´ıv oznaˇckuj´ı slova slovn´ımi druhy. Vytvoˇr´ı se termy4 typu NP noun phrase — jmenn´a fr´aze zaloˇzen´e na ˇr´ıd´ıc´ım podstatn´em jm´enˇe, protoˇze vˇetˇsina kl´ıˇcov´ych slov ho obsahuje. V takov´em termu m´a jedno slovo ˇr´ıd´ıc´ı postaven´ı napˇr. k´avov´y filtr, olejov´y filtr, uhl´ıkov´y filtr – vedouc´ı slovo je zde filtr. Sloˇzitˇejˇs´ı je to s termy, kter´e maj´ı v´ıce vedouc´ıch slov jako druh rakoviny - zp˚usoben´y azbestem — tam jsou vedouc´ı slova rakovina a azbest. Po vyhled´an´ı term˚u se vytvoˇr´ı datab´aze pojm˚u, kde se k ˇr´ıd´ıc´ım slov˚um ukl´adaj´ı zbytky term˚u. Takto uloˇzen´e termy se vyhodnot´ı a oznaˇckuj´ı na z´akladˇe frekvence. Z´akladn´ı pojmy si nadefinovali takto:
2
Tezaurus — nab´ız´ı synonyma, tezaurus pouˇzit´y zmiˇnovan´ym projektem mˇel slova rozdˇelen´e do kate-gori´ı — dom´en, podle toho do jak´e oblasti slovo spad´a, napˇr. ml´eko — potravina.
3Soudrˇznost term˚u — spoleˇcn´y v´yskyt slov tˇesnˇe vedle sebe, jak ˇcasto se vyskytovaly v tzv. kolokac´ıch
s d´ırami atd.
• kl´ıˇcov´a slova jsou identifikov´ana ˇcetnost´ı slov v dokumentu.
• technick´e term´ıny jsou NP nebo ˇc´asti NP opakovan´e v´ıc neˇz dvakr´at v dokumentu. • ˇr´ıd´ıc´ı NP jsou identifikov´any metodou, ve kter´e jsou termy seˇrazeny podle vedouc´ıho
slova. Termy jsou ozn´amkov´any a d´al seˇrazeny podle vzestupnˇe podle ˇcetnosti. Touto metodou z´ıskali pouze 6,5% nepouˇziteln´ych v´yraz˚u, proto je tento zp˚usob zpracov´an´ı prakticky vyuˇziteln´y pro jejich typ hled´an´ı kl´ıˇcov´ych v´yraz˚u v textu.
Vˇetˇsina syst´em˚u generuj´ıc´ıch rejstˇr´ıky je pouze poˇc´ıtaˇcem podporovan´a jako projekt Computer-aided Document Indexing System [6] univerzity v Z´ahˇrebu. Stejnˇe jako ˇ
ceˇstina m´a i chorvatˇstina r˚uzn´e morfologick´e tvary pˇredevˇs´ım u podstatn´ych a pˇr´ıdavn´ych jmen. Problematika r˚uzn´ych tvar˚u je vyˇreˇsena generov´an´ım dvou nab´ıdek. Jedna pro vˇsechny tvary slova s uveden´ym poˇctem jejich v´yskyt˚u a druh´a zobrazuje pouze lemmata a jejich mnoˇzstv´ı. Program vyhled´av´a i n-gramy a to o dvou aˇz ˇctyˇrech slovech. Jako vstupn´ı form´at je pouˇzit jazyk XML, na kter´em zakl´adaj´ı vyhled´av´an´ı slov a jejich ukl´ad´an´ı do seznamu. Hled´an´ı kl´ıˇcov´ych slov je zaloˇzeno na tezauru podle kter´eho se urˇcuj´ı kl´ıˇcov´a slova. Dalˇs´ı ˇrazen´ı se ˇr´ıd´ı frekvenc´ı v´yraz˚u v dokumentu. Pro projekt byl pouˇzit tezaurus EUROVOC, kter´y je v´ıcejazyˇcn´y a zahrnuje 6000 tˇr´ıd rozdˇelen´ych do 21 oblast´ı — po-litika, vˇeda, finance aj. seˇrazen´ych hierarchicky do osmi tˇr´ıd. Byl navrˇzen pro Evropsk´e spoleˇcenstv´ı, takˇze program dok´aˇze indexovat pouze t´emata bl´ızk´a problematice tezauru. Kromˇe z´avislosti indexov´an´ı t´ematu m˚uˇze b´yt probl´emem pomal´e vyhled´av´an´ı (ˇcasov´a sloˇzitost m˚uˇze b´yt aˇz exponenci´aln´ı).
Univerzita v Severn´ım Texasu v USA se rozhodla vytvoˇrit vlastn´ı testovac´ı sadu au-tomatick´eho generov´an´ı rejstˇr´ık˚u a to na z´akladˇe zlat´eho standardu [3], kter´y z´avis´ı na parametrech jako jsou d´elka rejstˇr´ıku, d´elka vstupn´ıch poloˇzek, rozsah pokryt´ych t´emat. V´ıceslovn´e v´yrazy si rozdˇelili na:
• n-gramy — vˇsechny generovan´e n-gramy z dokumentu obvykle pokryj´ı n-gramy v rejstˇr´ıku.
• NP — v´yrazy ukl´adan´e podle ˇr´ıd´ıc´ıch slov
• syntaktick´e v´yrazy — fr´aze zaloˇzen´e na znalostech lingvistiky.
Hled´an´ı kl´ıˇcov´ych v´yraz˚u zaloˇzili na nˇekolika metod´ach a zkouˇseli, jak a zda-li v˚ubec se vyhled´av´an´ı v´yraz˚u zlepˇs´ı. Testovali ˇcetnost, d´elku v´yraz˚u v rejstˇr´ıku a gramatick´e vzorce. Materi´aly nasb´ırali na str´ance projektu Gutenberg5. Hlavn´ım probl´emem, ostatnˇe jako vˇzdy pˇri zpracov´an´ı rejstˇr´ık˚u, jsou nedostateˇcn´a vstupn´ı data. Jen mal´a ˇc´ast knih byla vloˇzena s rejstˇr´ıkem anebo rejstˇr´ık v˚ubec neobsahovaly.
Rejstˇr´ık vytv´aˇreli v r˚uznˇe jemn´ych struktur´ach, protoˇze testovali i to, jak jemn´a struk-tura p˚ujde vytvoˇrit. Vkl´adali nejdˇr´ıv ˇr´ıd´ıc´ı slovo v´yrazu a zbytek v´yrazu vloˇzili podle gra-matick´ych pravidel. Utvoˇrili si skupiny slov, na kter´a aplikovaly pravidla napˇr. v´yrazy s pˇredloˇzkou, pˇredloˇzka n´asleduje po slovese napˇr. takto: Acetate, of Ammonium Solution. Zlat´y standard vytv´aˇreli pro r˚uznˇe podrobn´e rejstˇr´ıky. Pro kaˇzd´y text vytvoˇrili dva rejstˇr´ıky a to: jednoduch´y index zaloˇzen´y na ˇr´ıd´ıc´ım slovˇe a dlouh´y rejstˇr´ık zaloˇzen´y na plnˇe rekonstruovan´ych poloˇzk´ach rejstˇr´ıku s r˚uznou ´urovn´ı granularity6. Vytvoˇren´ı nˇekter´ych term´ın˚u rejstˇr´ık˚u m˚uˇze b´yt dost sloˇzit´e, a proto pro nejjemnˇeji strukturovan´y rejstˇr´ık bylo
5http://www.gutenberg.com — je zde moˇzn´e zdarma st´ahnout knihy v r˚uzn´ych jazyc´ıch. 6
pouˇzito vyhled´av´an´ı gramatick´ych v´yraz˚u pˇres web — AltaVista [12], na kter´em ovˇeˇrili, zda v´yraz existuje. Webem ovˇeˇren´e v´yrazy ponechali v seznamu, zbytek zahodily a ´uspˇeˇsnost hled´an´ı vzrostla z 30,34% na 54,78%. D˚uleˇzit´ym parametrem vyhodnocen´ı je d´elka textu vzhledem k d´elce rejstˇr´ıku. Pro vyhodnocen´ı vzali pomˇer poˇctu slovn´ıch jednotek v doku-mentu, vzhledem k poloˇzk´am v rejstˇr´ıku. Jednoduch´y rejstˇr´ık obsahuje asi 0,44% slovn´ıch jednotek, kter´e odpov´ıdaj´ı zhruba jedn´e fr´az´ı v rejstˇr´ıku pro kaˇzd´ych 227 slov v textu. Jemn´e rejstˇr´ıky maj´ı pomˇer 0,7%, coˇz odpov´ıd´a fr´azi na kaˇzd´ych 140 slov.
Dalˇs´ı pr´aci podobnou automatick´emu generov´an´ı rejstˇr´ık˚u je organizov´an´ı a linkov´an´ı spˇr´ıznˇen´ych webov´ych str´anek [9]. N´astroj je zaloˇzen na nov´em typu hypertextu:
HC — hypertextov´a konkordance je hypertextov´y rejstˇr´ık, kter´y ˇrad´ı pojmy podle kon-textu stejnˇe jako konkordance. Konkordance slouˇzily k rychl´emu vyhled´av´an´ı podobn´ych a souvisej´ıc´ıch pas´aˇz´ı v rozs´ahl´em textu. HC je charakterizov´ana tˇemito vlastnostmi:
• term´ıny k indexov´an´ı jsou vybr´any terminologick´ym extrakˇcn´ım algoritmem. • v´yskyty indexovan´ych term´ın˚u v dokumentu jsou prov´az´any odkazem do rejstˇr´ıku • term´ıny jsou uv´adˇeny ve stylu konkordance
• kaˇzd´y term´ın v indexu je prov´az´an se sv´ym dokumentem
Program by mˇel b´yt schopen indexovat i dokumenty, kter´e nebyly naps´any ve znaˇckovac´ım jazyce jako jsou HTML, XML a jin´e SGML jazyky. Term´ıny jsou automaticky extrahov´any Damerauovou metodou [2]. score(word) = f (word,coll1) f (coll1) f (word,coll2) f (coll2)
Metoda porovn´av´a relativn´ı frekvence term´ınu v dokumentu coll1 s relativn´ı frekvenc´ı term´ınu v referenˇcn´ı kolekci coll27.
V´yhodou t´eto metody jsou:
• jednoduchost algoritmu, kter´y prov´ad´ı srovn´an´ı s obecn´ym korpusem a t´ım vyhodno-cuje, kter´e term´ıny jsou zaj´ımav´e
• algoritmus se d´a aplikovat i na kr´atk´e texty
Syst´em funguje tak, ˇze uˇzivatel zad´a webov´e str´anky, kter´e chce indexovat. Pro str´anky se vyhledaj´ı term´ıny vzhledem k obecn´emu korpusu a vyberou se vˇsechny unigramy a bi-gramy s vyj´ımkou tˇech, kter´e jsou ve stop-listu. Nejl´epe ohodnocen´e term´ıny jsou inde-xov´any. Mnoˇzstv´ı term´ın˚u odpov´ıd´a d´elce dokumentu a pravdˇepodobnostn´ımu ohodno-cen´ı. Konkr´etn´ı ´uspˇeˇsnost nen´ı zm´ınˇena, pouze uv´adˇej´ı, ˇze syst´em m˚uˇze dosahovat horˇs´ıch v´ysledk˚u neˇz bˇeˇzn´e zpracov´an´ı, ale urychluje to pr´aci, takˇze se nepˇresnosti vyplat´ı.
7
Kapitola 4
Urˇ
cov´
an´ı relevantn´ıch slovn´ıch
spojen´ı
Nejjednoduˇsˇs´ı metoda jak z´ıskat slovn´ı spojen´ı z textu je vytvoˇrit vˇsechny moˇzn´e dvojice soused´ıc´ıch slov. Tato kapitola uv´ad´ı dalˇs´ı moˇznosti, jak´ymi lze z´ıskat bigramy, i kdyˇz spolu jednotliv´a slova bigramu pˇr´ımo nesoused´ı, tak´e se zab´yv´a ˇcasto pouˇz´ıvan´ymi statistick´ymi metodami pro z´ısk´an´ı relevantn´ıch slovn´ıch spojen´ı.
4.1
Smˇ
erodatn´
a odchylka
Kolokace se dobˇre hledaj´ı na z´akladˇe ˇcetnosti v textu. V pˇr´ıpadˇe kolokac´ı s d´ırami to nemus´ı staˇcit. Pro takov´e pˇr´ıpady lze zjistit zda se jedn´a o kolokaci ze smˇerodatn´e odchylky. Pro ”voln´y vstup“ podkapitoly 2.2 je smˇerodatn´a odchylka spoˇctena takto:
Nejdˇr´ıv se urˇc´ı pr˚umˇern´a vzd´alenost slov ve vˇet´ach:
µ = 1 n n X i=1 xi = 1 3(2 + 1 + 2) = 5 3 Smˇerodatn´a odchylka se urˇc´ı ze vztahu:
σ2 = Pn
i=1(di− µ)2
n − 1
kde n je kolikr´at se slova vyskytla spoleˇcnˇe, di je vzd´alenost vz´ajemn´eho v´yskytu vzhledem
k pozici i, µ je pr˚umˇern´a vzd´alenost v´yskytu. Vyˇc´ıslen´ı pro vzorov´e vˇety pak vypad´a takto:
σ = 2 r 1 2((2 − 5 3) 2+ (1 − 5 3) 2+ (2 −5 3) 2) ≈ 0.57
Pokud je hodnota smˇerodatn´e odchylky bl´ızk´a nule jako v tomto pˇr´ıpadˇe, tak se pravdˇepodobnˇe jedn´a o kolokaci. V pˇr´ıpadˇe, ˇze by smˇerodatn´a odchylka byla rovna nule, pak by se slova kolokace vyskytovala pouze spolu (vedle sebe).
I pˇres vysokou ˇcetnost a n´ızkou standardn´ı odchylku se slova spolu mohou vyskytovat pouze n´ahodou. Aby se moˇznost n´ahody zcela vylouˇcila, prov´ad´ı se testov´an´ı nulovou hy-pot´ezou. Nejprve se nadefinuje probl´em jako nulov´a hypot´eza H0 a k n´ı se ustanov´ı inverzn´ı
• H0 — slova v bigramu se vyskytuj´ı spoleˇcnˇe pouhou n´ahodou
• H1 — slova v bigramu jsou kolokac´ı Pro slova vyskytuj´ıc´ı se spolu n´ahodnˇe plat´ı:
P (s1s2) = P (s1)P (s2)
kde s je slovo a p celkov´a pravdˇepodobnost, kter´a je d´ana pravdˇepodobnostmi v´yskytu jednotliv´ych slov v textu. Pokud je pravdˇepodobnost jevu H0 velmi mal´a, tj. kdyˇz se
pravdˇepodobnost p pohybuje v intervalu 0 – 0,0005, je moˇzn´e hypot´ezu zavrhnout a t´ım potvrdit H1.
4.2
T - test
Hodnoty jednotliv´ych pravdˇepodobnost´ı se urˇc´ı t-testem. t = x − µ¯q
s2
N
kde ¯x je stˇredn´ı hodnota vzorku, s2 je odchylka vzorku, N je velikost vzorku a µ je stˇredn´ı hodnota cel´e mnoˇziny, ze kter´e se vzorek vyb´ır´a. Jestliˇze je t dost velk´e, pak m˚uˇzeme nu-lovou hypot´ezu zavrhnout. K hodnot´am t se vyhledaj´ı stupnˇe v´yznamnosti v statistick´ych tabulk´ach. Jestliˇze t je vˇetˇs´ı neˇz vyhledan´y stupeˇn, pak m˚uˇzeme nulovou hypot´ezu zavrh-nout s pravdˇepodobnost´ı z´avislou na rozd´ılu t a stupnˇe v´yznamnosti. Pro v´ypoˇcet t - testu kolokace je tˇreba nejdˇr´ıv urˇcit pr˚umˇer a odchylku ze vzorku. Jako vzorek se vezme sek-vence N bigram˚u a jednotliv´e ˇc´asti se oznaˇckuj´ı 1 nebo 0 podle toho zda se jedn´a o ˇc´ast testovanou jako kolokace nebo nikoli.
P (tuˇcnice) = 4675 14307668 P (obecn´a) = 15828
14307668
Jak uˇz v´ıme nulov´a hypot´eza pro tento pˇr´ıpad je, ˇze slova jsou nez´avisl´a. H0 : P (tuˇcnice obecn´a) = P (tuˇcnice)P (obecn´a)
P (tuˇcnice obecn´a) = 4675 14307668
15828
14307668 ≈ 3.615.10
−7
Pokud je nulov´a hypot´eza pravdiv´a, pak bigram nov´a rosnatka v n´ahodnˇe generovan´ych bigramech dostane pˇriˇrazenou 1 a ostatn´ı bigramy 0 s pravdˇepodobnost´ı p = 3, 615.10−7. Pr˚umˇer pro toto rozloˇzen´ı je µ a odchylka je σ2 = p(1 − p) ≈ p coˇz je zhruba p. Vyˇc´ıslen´ı σ2 vrac´ı pro vˇetˇsinu bigram˚u mal´e hodnoty p. Vypad´a to, ˇze bigram tuˇcnice obecn´a se ve vzorku vyskytl 8 - kr´at vzhledem k celkov´emu mnoˇzstv´ı bigram˚u. Pak tedy pr˚umˇer:
¯
x = 8*ostatn´ı bigramy ≈ 5.591.10−7 a celkov´e vyˇc´ıslen´ı t-testu:
t = x − µ¯q s2 N ≈ 5.5910 −7− 3.610−7 q 5.5910−7 1430000 ≈ 0.10065
Hodnota t je menˇs´ı neˇz ud´avan´y kritick´y stupeˇn pro α = 0.005, takˇze nulovou hypot´ezu nelze zavrhnout a bigram je hledanou kolokac´ı, coˇz je spr´avnˇe. T-test ovˇsem neˇreˇs´ı probl´em bigram˚u jako jsou v roce apod. Vyhodnocuje je jako kolokace, a proto je st´ale zapotˇreb´ı stop-list. Tato statistika se v pˇrirozen´em zpracov´an´ı ˇreˇci d´a pouˇz´ıt i pro jin´e probl´emy jako napˇr. jak´ym zp˚usobem urˇcit, zda je bigram relevantn´ım slovn´ım spojen´ım.
4.3
M´ıra vz´
ajemn´
e informace
Velmi ˇcasto se k vyj´adˇren´ı vztahu mezi dvˇema promˇenn´ymi x0 a y0 pouˇz´ıv´a m´ıra informace. Pro zpracov´an´ı v´yskytu slov v kolokaci lze pouˇz´ıt vyj´adˇren´ı:
I(x0, y0) = log2 P (x0, y0) P (x0)P (y0) = log2 P (x0, y0) P (x0) = log2 P (y0, x0) P (y0)
Obvykle b´yv´a m´ıra vz´ajemn´e informace vyj´adˇren´ım vztahu mezi n´ahodn´ymi promˇenn´ymi a ne vazbou mezi jejich hodnotami. Pro pˇr´ıpady kolokace m´ıra mezi hodnotami ud´av´a, o ko-lik se zv´yˇs´ı hodnota pravdˇepodobnosti, ˇze se na pozici i ± 1 bude vyskytovat promˇenn´a y0, kdyˇz pozice promˇenn´e x0 je i. Pokud je bigram kolokac´ı doch´az´ı k extr´emn´ımu pˇr´ıpadu, plat´ı: I(x0, y0) = log2 P (x0, y0) P (x0)P (y0) = log2 P (x0) P (x0)P (y0) = log2 1 P (y0)
Takˇze ˇc´ım je ˇcetnost kolokace niˇzˇs´ı, t´ım vyˇsˇs´ı hodnotu bude m´ıt m´ıra vz´ajemn´e informace, tj. v´yrazy s malou ˇcetnost´ı jsou preferov´any pˇred ˇcetn´ymi. Z toho plyne, ˇze to nen´ı pˇr´ıliˇs dobr´y popis jevu, protoˇze ˇcetn´a kolokace bude m´enˇe ohodnocena neˇz neobvykl´a kolokace. Je to pˇresn´y opak toho, jak je tˇreba m´ıt jev ohodnocen. Pro opaˇcnou mezn´ı situaci, kdy jsou slova naprosto nez´avisl´a plat´ı:
I(x0, y0) = log2
P (x0, y0)
P (x0)P (y0) = log2
P (x0)P (y0)
P (x0)P (y0) = log21 = 0
M´ıra vz´ajemn´e informace je vhodn´a sp´ıˇse pro vylouˇcen´ı kolokac´ı. Pro m´ıru vz´ajemn´e in-formace lze pouˇz´ıt ´upravy, kter´e vedou k charakteristiˇctˇejˇs´ım popisu jevu. Pro vyˇsˇs´ı v´ahy ˇ
cetnˇejˇs´ıch kolokac´ı staˇc´ı zav´est mocniny ˇcetnosti n aˇz do stupnˇe deset. Na korpusech se experiment´alnˇe ovˇeˇr´ı, kter´a mocnina je pro korpus nejl´epe pouˇziteln´a.
I(x0, y0) = log2
P (x0, y0)
P (x0)P (y0) = log2
C(x0y0)nN
C(x0)C(y0)
kde C je kubick´a m´ıra a n ˇr´ad mocniny. Po takov´e ´upravˇe lze mluvit o m´ıˇre vz´ajemn´e informace vyˇsˇs´ıch ˇr´ad˚u.
4.4
Pearson˚
uv X
2test
Dalˇs´ı moˇznou metodou hled´an´ı relevantn´ıch slovn´ıch spojen´ı je X2 test. Je vhodnˇejˇs´ı neˇz t-test, protoˇze ten se zakl´ad´a na norm´aln´ım pravdˇepodobnostn´ım rozloˇzen´ı, coˇz neod-pov´ıd´a tak zcela povaze textov´ych korpus˚u. Tento test z´avislost´ı slov v bigramech se ne-zakl´ad´a na norm´aln´ım rozloˇzen´ı. Zjednoduˇsenˇe ˇreˇceno je pro X2 test vytvoˇrena tabulka 4.1.
Z´aklad testu spoˇc´ıv´a v porovn´an´ı frekvenc´ı bigram˚u v tabulk´ach s frekvenc´ı oˇcek´avanou pro nez´avisl´a slova bigramu. Pokud je rozd´ıl mezi tˇemito frekvencemi pˇr´ıliˇs velk´y, pak je moˇzn´e
zavrhnout nulovou hypot´ezu. X2 je asymptoticky rozloˇzen´a χ2, takˇze ˇc´ım vˇetˇs´ı ˇc´ısla, t´ım
vˇetˇs´ı ˇsance, ˇze X2 m´a rozloˇzen´ı χ2.
X2 =X
i,j
(Oij− Eij)2
Eij
kde i ud´av´a poˇcet ˇr´adk˚u tabulky, j je poˇcet sloupc˚u, Oij je pr´avˇe zkouman´a buˇnka tabulky
a Eij je oˇcek´avan´a hodnota. Proˇc n´am toto rozloˇzen´ı vyhovuje? Oˇcek´avan´a hodnota Eij je
s1 = nov´y s1 6= nov´y
s2 = typ 114 101
nov´y typ tento typ
s2 6= typ 1011 249
nov´y syst´em tento syst´em Tabulka 4.1: V´yskyty kolokac´ı pro X2 test
urˇcena z okrajov´ych pravdˇepodobnost´ı, tedy z proporciolizovan´ych souˇct˚u ˇr´adk˚u a sloupc˚u. 114 + 101
N
114 + 1011
N N ≈ 971.325
kde N je poˇctem vˇsech bigram˚u a ostatn´ı hodnoty jsou doplnˇeny z tabulky 4.1. Oˇcek´avan´a hodnota prvn´ı buˇnky je urˇcena okrajovou pravdˇepodobnost´ı nov´y a druhou ˇc´ast´ı bigramu typ. Tato hodnota bude platit pro ˇcistˇe n´ahodn´y v´yskyt tˇechto dvou slov v bigramu spoleˇcnˇe. Hodnota χ2 se z´ısk´a takto:
χ2 = N (O11O22− O12O21)
2
(O11+ O12)(O11+ O21)(O12+ O22)(O21+ O22)
≈ 12.3
kde N je mnoˇzstv´ı vˇsech bigram˚u, Oij jsou poˇcty v´yraz˚u pro kombinaci slov z tabulky 4.1.
Hodnota potvrzuje, ˇze se slova v bigramu nach´azej´ı spolu ˇcistˇe n´ahodnˇe, nebot’ v´ysledek je v´yraznˇe nad stupnˇem v´yznamnosti pro α = 0.005. V´ysledek je stejn´y jako u t - testu, jejich v´ysledky se o mnoho neliˇs´ı. D˚uvodem proˇc se v´ıce pouˇz´ıv´a X2 test je to, ˇze X2 lze uplatnit i tam, kde je operov´ano s vysok´ymi m´ırami pravdˇepodobnosti, kde by bˇeˇzn´y t-test selhal1.
4.5
Pravdˇ
epodobnostn´ı pod´ıly
Pravdˇepodobnostn´ı pod´ıl umoˇzˇnuje zjistit sn´az neˇz X2 zda se jedn´a o kolokaci, protoˇze jej´ı v´ystup je v uspoˇr´adan´em poˇrad´ı a nen´ı nutn´e hledat v statistick´ych tabulk´ach mezn´ı hodnoty, o kter´e budou data oˇr´ıznuta. Ze dvou navrˇzen´ych hypot´ez je hned zjevn´e, kter´a je pravdˇepodobnˇejˇs´ı. Hypot´ezy pro rozpt´ylen´a data bigramu s1s2:
• H1 : P (s2|s1) = p = P (s2|¬s1)
• H2 : P (s2|s1) = p1 6= p2 = P (s2|¬s1)
1
X2 test se pouˇz´ıv´a napˇr. pro pˇreklady z ciz´ıch jazyk˚u na z´akladˇe stejn´e frekvence v´yskytu slov v kor-pusech.
Prvn´ı hypot´eza popisuje nez´avisl´a, druh´a z´avisl´a slova v bigramu. p = c2 N = 22 2450 p1= c12 c1 = 10 20 p2 = c2− c12 N − c1 = 22 − 10 2450 − 22
kde se pouˇz´ıvaj´ı maxim´aln´ı hodnoty pravdˇepodobnost´ı p, p1, p2 a pro slova v korpusu s1
a s2 a jejich bigram s1s2 se zapisuj´ı hodnoty c1 m´a 20 v´yskyt˚u, c2 jich m´a 22, c12 jich m´a
10. Vyhodnocuj´ı se binomick´ym rozloˇzen´ım: b(k, n, x) =n
k
xk(1 − x)(n−k)
Nyn´ı se pˇred pˇripraven´e hypot´ezy koneˇcnˇe podˇel´ı: logλ = logL(H1)
L(H2)
logλ = log b(c12, c1, p)b(c2− c12, N − c1, p) b(c12, c1, p1)b(c2− c12, N − c1, p2)
logλ = logL(c12, c1, p) +logL(c2−c12, N −c1, p) −logL(c12, c1, p1) −logL(c2−c12, N −c1, p2)
kde L(k, n, x) = xk(1 − x)n−k. S´ıla pod´ılov´ych pravdˇepodobnost´ı spoˇc´ıv´a v snadno ˇciteln´em
v´ysledku a pˇresnˇejˇs´ım zpracov´an´ı ˇr´ıdk´ych (rozpt´ylen´ych) dat.
4.6
Metody zaloˇ
zen´
e na gramatice
Kromˇe v´yˇse uveden´ych statistick´ych metod lze pouˇz´ıt zpracov´an´ı zaloˇzen´e na znalosti lin-gvistiky. Pro hled´an´ı kolokac´ı je moˇzn´e pouˇz´ıt gramatick´e vzorce, jak to bylo provedeno v [5]. Vyhled´av´an´ı je zaloˇzen´e na korpusu, z kter´eho se automaticky vyp´ıˇs´ı vˇsechny v´ıceslovn´e pojmy odpov´ıdaj´ıc´ı gramaticky a kolokaˇcnˇe. Kostry jsou hled´any na z´akladˇe gramatick´ych a kolokaˇcn´ıch vlastnost´ı. P˚uvodnˇe existovaly kostry pouze pro angliˇctinu, pr´ace [5] je uni-verz´aln´ı pro vˇsechny jazyky. K zadan´emu korpusu se pˇridaj´ı gramatick´e vzorce platn´e pro jazyk, v jak´em byl vytvoˇren korpus, a syst´em dok´aˇze vytvoˇrit seznam v´ıceslovn´ych v´yraz˚u a synonym. Pro v´ıceslovn´e pojmy dok´aˇze vygenerovat seznam rozd´ıl˚u v pouˇzit´ı bl´ızk´ych pojm˚u.
Kromˇe frekvenˇcn´ıho vyhled´av´an´ı jsou v kostr´ach pouˇzity gramatick´e vzorce. Sp´ıˇs neˇz frekvenˇcn´ı hled´an´ı kl´ıˇcov´eho slova jsou vyhled´av´any vˇsechny relace, ve kter´ych se slovo vy-skytuje. Slova jsou pˇredzpracov´ana znaˇckovaˇcem, kter´y jim urˇc´ı slovn´ı druh, a na v´ystupu lemmatizov´ana nebo pˇrevedena do spr´avn´eho slovn´ıho tvaru pokud nejdou lemmatizo-vat. V´ıceslovn´e pojmy jsou pak vygenerov´any do jednotliv´ych seznam˚u podle pˇr´ıbuznosti pouˇzit´ych slov. Gramatick´e vzorce mohou vypadat tˇreba takto:
1 : V (DET |N U M |ADJ |ADV |N )∗2 : N
kde 1 a 2 jsou slova urˇcen´a slovn´ımi druhy, ke kter´ym se hledaj´ı vˇsechny moˇzn´e relace a obsah z´avorek jsou vˇsechny moˇzn´e slovn´ı druhy, kter´e se mezi slovy 1 a 2 mohou vyskytovat2.
2
Z´avorky ohraniˇcuj´ı v´yraz, kter´y m˚uˇze b´yt 0 – n - kr´at zopakov´an, opakov´an´ı znaˇc´ı *, — je znaˇcka pro nebo.
Kapitola 5
Testovac´ı data a vytvoˇ
ren´
y syst´
em
5.1
Testovac´ı data
Pro testov´an´ı syst´emu bylo pouˇzito volnˇe dostupn´ych knih v elektronick´e podobˇe. Z´ısk´an´ı vstupn´ıch dat bylo znaˇcn´ym probl´emem, pˇrestoˇze je knih v elektronick´e podobˇe dost, exis-tuje jich jen m´alo s kvalitn´ım rejstˇr´ıkem. Bˇeˇzn´a literatura rejstˇr´ıky neobsahuje v˚ubec, proto bylo hled´ano mezi popul´arnˇe - nauˇcnou literaturou a uˇcebnicemi, a nakonec bylo pouˇzito vˇetˇsinou uˇcebnic, kter´e maj´ı obs´ahlejˇs´ı rejstˇr´ıky. Nˇekter´e byly ve form´atu e-book, takˇze se velmi obt´ıˇznˇe pˇrev´adˇely do textov´e podoby, u dalˇs´ıch byl probl´em s ˇcesk´ymi znaky nebo s dost ˇcasto se vyskytuj´ıc´ımi latinsk´ymi symboly jako napˇr. %. Prvn´ım probl´emem tedy bylo pˇrekonvertovat data do form´atu, kter´y bude d´ale snadno zpracovateln´y. Vˇetˇsina materi´al˚u byla k dispozici ve form´atu PDF1, pro kter´y existuje sice mnoho program˚u pro pˇrevod na obyˇcejn´y text, ale ne vˇsechny se hod´ı pro ˇceˇstinu2.
Jako nejlepˇs´ı ˇreˇsen´ı se nakonec uk´azalo pouˇzit´ı OCR3 program˚u, kter´e ovˇsem pˇrev´ad´ı text s chybami jako, napˇr. ˇspatn´e naˇcten´ı nˇekter´ych speci´aln´ıch symbol˚u napˇr. ¯a, kter´e je zaps´ano jako dvˇe p´ısmena, kter´a jsou pozdˇeji chybnˇe rozpozn´ana jako zkratka. Takto zpracovan´y text byl uloˇzen ve form´atu txt. Z knih byly oddˇeleny rejstˇr´ıky do samostatn´ych soubor˚u pro dalˇs´ı zpracov´an´ı, ve kter´em byly rejstˇr´ıky rozdˇeleny podle d´elek n-gram˚u. T´emˇeˇr kaˇzd´a kniha mˇela jin´y tvar rejstˇr´ıku a doporuˇcen´ı uveden´a v normˇe nebyla pˇr´ıliˇs dodrˇzov´ana. Pro pˇrehlednost je doporuˇcov´ano ps´at rejstˇr´ık s odr´aˇzkami viz. tabulka 2.1, ale pro automatick´e vyhodnocov´an´ı v´ysledk˚u to pˇr´ınosem nebylo. Takto vytvoˇren´e rejstˇr´ıky se
”rozpadly“ na unigramy.
Obˇcas se v rejstˇr´ıc´ıch vyskytla synonyma nebo anglick´e ekvivalenty za kl´ıˇcov´ym slovem rejstˇr´ıku. Takov´e poloˇzky byly rozdˇeleny na dva samostatn´e v´yrazy a hodnoceny samo-statnˇe, to se opˇet projevilo negativnˇe na hodnocen´ı, protoˇze synonyma se obvykle v knize v˚ubec nevyskytla a nemohla b´yt nalezena. Napˇr. pro jmenn´y server se ˇcasto pouˇz´ıv´a an-glick´y n´azev name server, kter´y je v t´eto knize uveden jen v rejstˇr´ıku. Na kaˇzd´e stranˇe e-book se opakovaly v´yrazy, kter´e slouˇzily pro orientaci knihou napˇr. rozcestn´ık nebo ob-sah. V knih´ach jsou ˇcasto hlaviˇcky str´anek se jm´enem kapitol napˇr. Lieova grupa, coˇz
1PDF — Portable Document Format 2
Firma Adobe, kter´a pˇriˇsla se standartem PDF, na sv´ych str´ank´ach poskytuje sluˇzbu vygenerov´an´ı prost´eho textu z PDF form´atu, ale pˇrestoˇze jim bylo zasl´ano nˇekolik r˚uzn´ych soubor˚u, ˇz´adn´e nebyly zpra-cov´any.
3
Optical Character Recognition — optick´e rozpozn´av´an´ı znak˚u je metoda, kter´a umoˇzˇnuje digitalizaci tiˇstˇen´ych text˚u nebo text˚u ve form´atech urˇcen´ych k tisku jako je PDF. Pˇreveden´y text je z´avisl´y na kvalitˇe pˇredlohy, protoˇze OCR program nerozezn´av´a vˇsechna p´ısmena spr´avnˇe.
neb´yv´a probl´em ve vyhodnocen´ı, protoˇze to je kl´ıˇcov´e slovo. Horˇs´ı je pokud je v hlaviˇcce napˇr. jm´eno autora. Odstranit takov´e v´yrazy z cel´eho dokumentu bylo zavrhnuto, protoˇze takov´y z´asah by mohl ovlivnit i text knihy, kter´a by pak mohla b´yt ochuzena o nˇekter´a kl´ıˇcov´a slova. Napˇr. automatick´ym odstranˇen´ım slov z e-book jako rozcestn´ık by byly tyto slovn´ı spojen´ı odstranˇeny i z textu, coˇz by mohlo v´est k odstranˇen´ı kl´ıˇcov´eho slova. Pˇri zkoum´an´ı v´ysledk˚u byly tyto n-gramy ponech´any v textu a ignorov´any s t´ım, ˇze uˇzivatel je dok´aˇze poznat a odstranit.
Kromˇe text˚u knih byl pouˇzit obecn´y korpus z podkapitoly 2.2, kter´y vyuˇz´ıv´a text ob-sahuj´ıc´ı deset mili´on˚u slov. Obecn´e korpusy obsahuj´ı r˚uzn´e texty, kter´e by mˇely vytvoˇrit dostateˇcnˇe velkou mnoˇzinu slov pro statistiku ˇcetnosti slov v textu.
5.2
Vytvoˇ
ren´
y syst´
em
Syst´em je zaloˇzen na pouˇzit´ı frekvenˇcn´ıch metod a urˇcov´an´ı slovn´ıch druh˚u souborem pro-gram˚u PDT popsan´ym v kapitole 2.3. Z program˚u PDT je pro tento syst´em pouˇz´ıv´an parser, jenˇz dok´aˇze text pˇrev´adˇet na CSTS4 validn´ı form´at. CSTS je form´at zaloˇzen´y na SGML5 a byl hlavn´ım form´atem dat ve verzi PDT 1.0. Aˇckoliv byl v PDT 2.0 nahrazen
PML6, nˇekter´e n´astroje jej st´ale v´yhradnˇe pouˇz´ıvaj´ı. CSTS m˚uˇze reprezentovat jen mor-fologickou a analytickou anotaci, kdeˇzto PML je form´at dat zaloˇzen´y na XML, navrˇzen´y pro reprezentaci lingvistick´e anotace text˚u jako jsou morfologick´e znaˇckov´an´ı, z´avislostn´ı stromy apod. Pro tento syst´em ´uplnˇe staˇc´ı CSTS form´at.
PDT oˇcek´av´a vstupn´ı textov´e soubory ve form´atu iso-8859-2, kter´e pˇrev´ad´ı do jazyka CSTS pomoc´ı parseru. Parser neznaˇckuje pouze slova a hranice vˇet, ale dok´aˇze oznaˇcit tak´e odstavce a nadpisy. Takto upraven´y text projde nejprve morfologick´y analyzator, urˇc´ı vˇsechny moˇzn´e znaˇcky, o kter´e by se mohlo jednat, a z nich znaˇckovaˇc vybere tu nej-pravdˇepodobnˇejˇs´ı. Znaˇckovaˇc lze spustit se dvˇema r˚uzn´ymi parametry:
• T — Tagger, jenˇz znaˇckuje nezn´am´a slova pomoc´ı X
• TG — Tagger - Guesser, kter´y nezn´am´a slova uhodne, ale i pˇresto mohou b´yt nˇekter´a slova oznaˇcena X jako nezn´am´a.
V syst´emu byla pouˇzita data generovan´a s parametrem TG, pokusy s obˇema parametry neprok´azaly velk´e rozd´ıly mezi testovac´ımi daty. P˚uvodn´ı pˇredpoklad, ˇze slova oznaˇcen´a jako nezn´am´a budou t´emˇeˇr vˇsechna kl´ıˇcov´a, se nepotvrdil, jak lze vidˇet v tabulce 5.1.
Vˇetˇsinu nezn´am´ych slov tvoˇr´ı zkratky jako jsou znaˇcky chemick´ych prvk˚u a oznaˇcen´ı mnoˇzin (∼ 65%)7. Dalˇs´ı slova bez rozpoznan´ych slovn´ıch druh˚u jsou pouˇzita ve zvl´aˇstn´ım tvaru napˇr. elektro chemick´y, kde nen´ı snadn´e
”uhodnout“ slovn´ı druh, anebo se m˚uˇze jednat o vlastn´ı jm´ena, kter´a nejsou ve slovn´ıku (∼ 35%). Znaˇcnou skupinu tvoˇr´ı ciz´ı (hlavnˇe anglick´a) slova napˇr. machine learning, u kter´ych je velk´a pravdˇepodobnost, ˇze se jedn´a o kl´ıˇcov´a slova, a mˇela by se v rejstˇr´ıku vyskytnout. Proto jsou slova s nezn´am´ym slovn´ım druhem v dalˇs´ım zpracov´an´ı zv´yhodˇnov´ana.
Znaˇckovaˇc pˇriˇrazuje slov˚um 16-ti znakovou znaˇcku, kter´a je definov´ana v [4]. V syst´emu jsou vyuˇz´ıv´any pˇredevˇs´ım znaˇcky na prvn´ı, druh´e a tˇret´ı pozici. Prvn´ı pozice uv´ad´ı slovn´ı
4CSTS — Czech sentence tree structure 5
Standard Generalized Markup Language — rodina jazyk˚u pouˇz´ıvan´a pro znaˇckov´an´ı text˚u.
6PML — Prague Markup Language 7
V´yskyt tak velk´eho mnoˇzstv´ı chemick´ych prvk˚u a oznaˇcen´ı mnoˇzin je zp˚usoben pouˇzit´ymi testovac´ımi daty.