Machine-Learning in Natural Language Processing

(1)

VYSOK ´

E U ˇ

CEN´I TECHNICK ´

E V BRN ˇ

E

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA ˇ

CN´ICH TECHNOLOGI´I

´

USTAV PO ˇ

C´ITA ˇ

COV ´

E GRAFIKY A MULTIM ´

EDI´I

FACULTY OF INFORMATION TECHNOLOGY

DEPARTMENT OF COMPUTER GRAPHICS AND MULTIMEDIA

STROJOV ´

E U ˇ

CEN´I V P ˇ

RIROZEN ´

EM JAZYCE

BAKAL ´

A ˇ

RSK ´

A PR ´

ACE

BACHELOR’S THESIS

AUTOR PR ´

ACE

LUBOM´IR OTRUSINA

AUTHOR

(2)

VYSOK ´

E U ˇ

CEN´I TECHNICK ´

E V BRN ˇ

E

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA ˇ

CN´ICH TECHNOLOGI´I

´

USTAV PO ˇ

C´ITA ˇ

COV ´

E GRAFIKY A MULTIM ´

EDI´I

FACULTY OF INFORMATION TECHNOLOGY

DEPARTMENT OF COMPUTER GRAPHICS AND MULTIMEDIA

STROJOV ´

E U ˇ

CEN´I V P ˇ

RIROZEN ´

EM JAZYCE

MACHINE-LEARNING IN NATURAL LANGUAGE PROCESSING

BAKAL ´

A ˇ

RSK ´

A PR ´

ACE

BACHELOR’S THESIS

AUTOR PR ´

ACE

LUBOM´IR OTRUSINA

AUTHOR

VEDOUC´I PR ´

ACE

doc. RNDr. PAVEL SMR ˇ

Z, Ph.D.

SUPERVISOR

(3)

Zad´

an´ı

Strojov´e uˇcen´ı v pˇrirozen´em jazyce

1. Seznamte se s pokroˇcilými metodami strojového uˇcen´ı pouˇz´ıvanými v oblasti zpra-cován´ı pˇrirozeného jazyka.

2. Na základˇe z´ıskaných znalost´ı realizujte systém pro ”uˇcen´ı” z textu.

3. Vytvoˇrte testovac´ı sadu pro vyhodnocen´ı syst´emu.

4. Vyhodnot’te vytvoˇren´y syst´em pomoc´ı standardn´ıch metrik.

(4)

Licenˇcn´ı smlouva

Licenˇcn´ı smlouva je uloˇzena v arch´ıvu Fakulty informaˇcn´ıch technologi´ı Vysok´eho uˇcen´ı technick´eho v Brnˇe.

(5)

Abstrakt

Tato práce se zabývá zjednoznaˇcˇnován´ım slovn´ıch význam˚u pomoc´ı metod strojového uˇcen´ı. ˇ

Ctenáˇr je krátce seznámen s danou problematikou a jej´ım historickým vývojem. Jsou zde popsány nejpouˇz´ıvanˇejˇs´ı metody a pˇr´ıstupy, speciálnˇe pak naivn´ı Bayes˚uv klasifikátor, který je implementován v systému. Je zde uveden i názorný pˇr´ıklad pro tento klasifikátor. V prak-tické ˇcásti je popsán návrh systému vyuˇz´ıvaj´ıc´ı tohoto klasifikátoru vˇcetnˇe popisu r˚uzných algoritm˚u pouˇzitých v systému. Na závˇer je uvedeno vyhodnocen´ı výsledk˚u systému a je-jich analýza. Implementovaný systém se zúˇcastnil soutˇeˇze v rámci mezinárodn´ı konfernce sémantického vyhodnocován´ı SemEval-2007.

Kl´ıˇcov´

a slova

strojové uˇcen´ı, uˇcen´ı s uˇcitelem, zpracován´ı pˇrirozeného jazyka, zjednoznaˇcˇnován´ı slovn´ıch význam˚u, naivn´ı Bayes˚uv klasifikátor, Senseval, Semeval

Abstract

This beachelor’s thesis deals with word sense disambiguation problem using the machine learning techniques. There are shortly presented problems of word sense disambiguation and its timeline. There are described methods and approaches, especially the naive Bayes clas-sifier that is implemented in the system. There’s illustrated a simple example of using this classifier. In a practical section is described project of system based on naive Bayes classifier including description of various algorithms used in the system. Finally there are described evaluation and analysis of the system. This created system took part in an international competition on semantic evaluation workshop SemEval-2007.

Keywords

machine learning, supervised learning, natural language processing, word sense disambigua-tion, naive Bayes classifier, Senseval, Semeval

Citace

Lubom´ır Otrusina: Strojové uˇcen´ı v pˇrirozeném jazyce, bakaláˇrská práce, Brno, FIT VUT v Brnˇe, 2007

(6)

Strojov´e uˇcen´ı v pˇrirozen´em jazyce

Prohl´

aˇsen´ı

Prohlaˇsuji, ˇze jsem tuto bakal´aˇrskou pr´aci vypracoval samostatnˇe pod veden´ım pana doc. RNDr. Pavla Smrˇze, Ph.D.

. . . . Lubom´ır Otrusina

11. kvˇetna 2007

Podˇekov´

an´ı

Dˇekuji doc. RNDr. Pavlu Smrˇzovi, Ph.D. za hodnotné rady a odborné veden´ı bˇehem mé práce.

c

Lubom´ır Otrusina, 2007.

Tato práce vznikla jako ˇskoln´ı d´ılo na Vysokém uˇcen´ı technickém v Brnˇe, Fakultˇe in-formaˇcn´ıch technologi´ı. Práce je chránˇena autorským zákonem a jej´ı uˇzit´ı bez udˇelen´ı oprávnˇen´ı autorem je nezákonné, s výjimkou zákonem definovaných pˇr´ıpad˚u.

(7)

Obsah

1 Uvod´ 3

2 Zjednoznaˇcˇnov´an´ı slovn´ıch v´yznam˚u 4

2.1 Vymezen´ı z´akladn´ıch pojm˚u . . . 4

2.2 Historický pˇrehled metod zjednoznaˇcˇnován´ı slovn´ıch význam˚u . . . 5

2.2.1 Metody zaloˇzen´e na b´az´ıch znalost´ı. . . 6

2.2.2 Metody zaloˇzen´e na korpusech . . . 6

2.2.3 Hybridn´ı syst´emy. . . 7

2.3 WordNet. . . 7

2.3.1 Struktura WordNetu . . . 7

2.3.2 Znaˇcen´ı synset˚u ve WordNetu. . . 8

3 Strojové uˇcen´ı ve zjednoznaˇcˇnován´ı slovn´ıch význam˚u 9 3.1 Metody uˇcen´ı s uˇcitelem . . . 9

3.2 Metody uˇcen´ı bez uˇcitele. . . 9

3.3 Naivn´ı Bayes˚uv klasifik´ator . . . 10

3.3.1 Pravdˇepodobnostn´ı model . . . 10

3.3.2 Praktick´e vyuˇzit´ı . . . 11

3.3.3 Pr´azdn´e nebo chybˇej´ıc´ı atributy. . . 11

3.3.4 Pˇr´ıklad urˇcován´ı významu naivn´ım Bayesovým klasifikátorem . . . . 11

4 Návrh systému pro zjednoznaˇcˇnován´ı slovn´ıch význam˚u 15 4.1 Pouˇz´ıvané datové sady . . . 15

4.1.1 Senseval-3 . . . 15

4.1.2 Semeval-1 . . . 16

4.2 Vyuˇzit´ı WordNetu v syst´emu . . . 16

4.3 Jednoduch´y algoritmus uˇcen´ı s uˇcitelem . . . 16

4.4 Princip práce s naivn´ım Bayesovým klasifikátorem . . . 17

4.4.1 Naˇcten´ı datov´ych vstup˚u . . . 17

4.4.2 Anal´yza tr´enovac´ıch dat . . . 17

4.4.3 Urˇcen´ı správného významu slova . . . 18

4.5 Od slov k vektoru pˇr´ıznak˚u . . . 18

4.6 Nastavov´an´ı parametr˚u syst´emu. . . 19

5 Vyhodnocen´ı a výsledky systému 23 5.1 Zp˚usoby vyhodnocován´ı zjednoznaˇcˇnován´ı slovn´ıch význam˚u . . . 23

5.1.1 Vyhodnocován´ı zaloˇzené na poˇctu správnˇe urˇcených význam˚u . . . . 23

(8)

5.1.3 Granularita rozliˇsov´an´ı v´yznam˚u . . . 25

5.1.4 Konference Senseval (Semeval) . . . 26

5.2 Diskuze v´ysledk˚u . . . 26

5.2.1 V´ysledky syst´emu . . . 26

5.2.2 Srovn´an´ı obou implementovan´ych algoritm˚u . . . 27

5.2.3 Pˇr´ıklad ˇspatného urˇcen´ı významu systémem . . . 28

5.2.4 N´avrh odstranˇen´ı nˇekter´ych nedostatk˚u . . . 30

5.3 Technick´e parametry syst´emu . . . 31

6 Z´avˇer 32

(9)

Kapitola 1

´

Uvod

Pˇrirozený jazyk je jazyk pouˇz´ıvaný lidmi k bˇeˇzné komunikaci a sdˇelován´ı informac´ı. Narozd´ıl od poˇc´ıtaˇcových programovac´ıch jazyk˚u se liˇs´ı svou vágnost´ı. Ve své bakaláˇrské práci se zabývám zjednoznaˇcˇnován´ım slovn´ıch význam˚u, coˇz je jedn´ım z mnoha problém˚u, kterými se zabývá obor zpracován´ı pˇrirozeného jazyka. Tento obor zasahuje jednak do oblasti umˇelé inteligence, ale také do lingvistiky. Jeho úkolem je urˇcitá konverze mezi vágn´ım pˇrirozeným jazykem a nˇejakou formáln´ı reprezentac´ı, které dokáˇze porozumˇet poˇc´ıtaˇc.

Zpracován´ım pˇrirozeného jazyka se odborn´ıci zabývaj´ı jiˇz nˇekolik des´ıtek let. Mezi hlavn´ı problémy, které se snaˇz´ı vyˇreˇsit, patˇr´ı napˇr. z´ıskáván´ı a extrakce informac´ı z text˚u, strojový pˇreklad mezi r˚uznými jazyky, rozpoznáván´ı mluvené ˇreˇci, korekce gramatických chyb nebo automatické odpov´ıdán´ı na otázky.

Pro úplné ˇreˇsen´ı vˇsech tˇechto problém˚u je nezbytné, aby poˇc´ıtaˇc porozumˇel, nebo se ale-spoˇn pokusil analyzovat pˇr´ısluˇsný pˇrirozený jazyk. Prostˇredkem pro porozumˇen´ı pˇ riroze-nému jazyku m˚uˇze být nˇejaká báze znalost´ı (napˇr. ve formˇe sémantické s´ıtˇe), která ob-sahuje vazby mezi slovy konkrétn´ıho pˇrirozeného jazyka. Tyto báze znalost´ı bývaj´ı zpravidla vytvoˇreny ruˇcnˇe. Pˇri analýze pˇrirozeného jazyka se pak setkáváme s r˚uznými d´ılˇc´ımi pod-problémy, jako je v´ıcevýznamovost slov nebo kontextové závislosti. Tyto podproblémy nám pomáhaj´ı ˇreˇsit napˇr. metody provádˇej´ıc´ı rozpoznáván´ı slovn´ıch druh˚u (part-of-speech tag-ging) nebo zjednoznaˇcˇnován´ı slovn´ıch význam˚u (word sense disambiguation).

Pˇri ˇreˇsen´ı problém˚u z kategorie zpracován´ı pˇrirozeného jazyka se ˇcasto vyuˇz´ıvá algoritm˚u strojového uˇcen´ı. Podle konkrétn´ıch pˇr´ıpad˚u pak m˚uˇze j´ıt o algoritmy uˇcen´ı s uˇcitelem, uˇcen´ı bez uˇcitele nebo r˚uzné kombinace. Já jsem pro svou práci zvolil naivn´ı Bayes˚uv klasifikátor, coˇz je algoritmus uˇcen´ı s uˇcitelem. Tento klasifikátor je relativnˇe jednoduchý a má velkou ´

uspˇeˇsnost v mnohých odvˇetv´ıch zpracován´ı pˇrirozeného jazyka.

Druhá kapitola (2) zahrnuje úvod do problematiky zjednoznaˇcˇnován´ı slovn´ıch význam˚u, struˇcný popis vývoje a pouˇz´ıvané metody a pˇr´ıstupy. Ve tˇret´ı kapitole (3) jsou struˇcnˇe popsány typy metod strojového uˇcen´ı, které jsou pouˇz´ıvány pro ˇreˇsen´ı tohoto problému. Zbytek kapitoly je pak vˇenován popisu naivn´ıho Bayesova klasifikátoru. ˇCtvrtá kapitola (4) se vˇenuje praktické ˇcásti bakaláˇrské práce. Je zde vysvˇetlena implementace a problémy vyskytuj´ıc´ı se pˇri návrhu programu. Pˇredposledn´ı kapitola (5) obsahuje prezentaci a zhod-nocen´ı výsledk˚u programu. Jsou zde také uvedeny zp˚usoby vyhodnocován´ı. V závˇeru (6) jsou pak struˇcnˇe shrnuty dosaˇzené výsledky a je zde uveden nástin dalˇs´ıho vývoje v oblasti zjednoznaˇcˇnován´ı slovn´ıch význam˚u.

(10)

Kapitola 2

Zjednoznaˇ

cˇ

nov´

an´ı slovn´ıch

v´

yznam˚

u

Zjednoznaˇcˇnován´ı slovn´ıch význam˚u se snaˇz´ı urˇcit správný význam v´ıcevýznamových slov v urˇcitém kontextu. Tento problém ˇreˇs´ı rodilý mluvˇc´ı ˇcasto intuitivnˇe a obyˇcejnˇe mu neˇcin´ı ˇzádné problémy. Jiná situace vˇsak nastává u poˇc´ıtaˇce. Poˇc´ıtaˇc pˇrirozenému jazyku nerozum´ı, a proto je pro nˇej obt´ıˇzné urˇcit správný význam slova. Je nutné naj´ıt vhodné metody a vlastnosti, podle kterých by byl poˇc´ıtaˇc s urˇcitou úspˇeˇsnost´ı schopen správný význam identifikovat.

2.1

Vymezen´ı z´

akladn´ıch pojm˚

u

Pro uveden´ı do problému je nutné seznámit se nejdˇr´ıve s nˇekterými základn´ımi pojmy. Jedná se zejména o definován´ı pojm˚u týkaj´ıc´ıch se významu slova. Následuj´ıc´ı informace pocházej´ı z [4].

Pojem “význam slova nebo souslov´ı” (dále jen slovo) m˚uˇzeme definovat jako informaˇcn´ı obsah slova. Kaˇzdé slovo m˚uˇze m´ıt dva významy:

• slovn´ı (lexikáln´ı) – oznaˇcuje urˇcitý jev skuteˇcnosti; je to význam, který má slovo samo o sobˇe

• mluvnický (gramatický) – tento význam slovo nabývá aˇz ve spojen´ı s jinými slovy ve vˇetˇe; vyjadˇruje r˚uzné mluvnické kategorie (napˇr. rod, ˇc´ıslo, pád ap.)

Ve své bakaláˇrské práci se zabývám pouze urˇcován´ım lexikáln´ıho významu slova. Mlu-vnickým významem se zde zabývat nebudu. Pokud se pokouˇs´ıme definovat lexikáln´ı význam (dále jen význam) nˇejakého slova, dˇeláme to vˇetˇsinou pouˇzit´ım urˇcitého jazyka. Význam slova m˚uˇze být definován pomoc´ı

• pˇrirozen´eho jazyka (vˇcetnˇe jazyka, v nˇemˇz je slovo, jehoˇz v´yznam definujeme)

• formáln´ıho jazyka (napˇr. vhodný matematický nebo logický kalkul)

Z toho se vymyká tzv. ostenz´ıvn´ı zp˚usob definován´ı význam˚u slov pˇrirozeného jazyka (napˇr. toto je st˚ul, toto je zv´ıˇre,. . . ). Na tomto zp˚usobu je zaloˇzeno uˇcen´ı se jazyku u ˇclovˇeka. Pokud má nˇekteré slovo v´ıce neˇz jeden význam, pak mluv´ıme o v´ıcevýznamovém slovu. Významy v´ıcevýznamových slov m˚uˇzeme rozdˇelit na:

(11)

• základn´ı (primárn´ı, p˚uvodn´ı) napˇr. oko – orgán zraku

• druhotný (sekundárn´ı, odvozeý) napˇr. oko na punˇcoˇse

Pro kaˇzdý pˇrirozený jazyk je procento v´ıcevýznamových slov odliˇsné. S v´ıcevýznamovost´ı slov úzce souvis´ı pojmy polysémie a homonymie. I pˇresto, ˇze se jedná o dva odliˇsné pojmy, jsou ˇcasto zamˇeˇnovány. Polysémie neboli mnohoznaˇcnost je existence v´ıce význam˚u pro jednu formu, kde významy slova maj´ı jistou genetickou podobnost (napˇr. jazyk – orgán nebo jazyk u boty). Na druhé stranˇe homonymie je existence v´ıce význam˚u pro jednu formu, ale mezi významy nen´ı ˇzádná spojitost – hlásková shoda je ˇcistˇe náhodná (napˇr. role – divadeln´ı hra, pole, svitek). Homonymii m˚uˇzeme dále dˇelit na:

• lexik´aln´ı (napˇr. vinn´y – od slova v´ıno nebo vina)

• morfologick´a (napˇr. bratra – vyjadˇruje 2. i 4. p. sg.)

• slovnˇe druhov´a (napˇr. veˇcer – podst. jm., pˇr´ıslovce)

Morfologickou a slovnˇe druhovou homonymi´ı se ve své bakaláˇrské práci nebudu zabývat. Proces výbˇeru správného významu slova v daném kontextu se nazývá zjednoznaˇcˇnován´ı slovn´ıch význam˚u.

2.2

Historick´

y pˇ

rehled metod zjednoznaˇ

cˇ

nov´

an´ı slovn´ıch v´

yz-nam˚

u

Nejen ve zjednoznaˇcˇnován´ı slovn´ıch význam˚u, ale v celé oblasti zpracován´ı pˇrirozeného jazyka existuj´ı dva smˇery ˇreˇsen´ı problém˚u. Oba jsou zaloˇzeny na jiných principech a vyuˇz´ıvaj´ı odliˇsné techniky.

Prvn´ı pˇr´ıstup se snaˇz´ı co nejv´ıce porozumˇet zpracovávanému textu. K tomu se nejˇcastˇeji vyuˇz´ıvá r˚uzných, vˇetˇsinou ruˇcnˇe vytvoˇrených, báz´ı znalost´ı. Mezi nejrozˇs´ıˇrenˇejˇs´ı báze patˇr´ı Machine Readable format (Oxford English Dictionary, Collins), thesaury (Roget˚uv the-saurus) nebo sémantické lexikony (WordNet, EuroWordNet). Z hlediska zjednoznaˇcˇnován´ı význam˚u tyto báze typicky obsahuj´ı informace jako výˇcet význam˚u, jejich definice, pˇr´ıklady pouˇzit´ı, synonyma a r˚uzné vazby mezi nimi. Tyto metody se souhrnnˇe oznaˇcuj´ı jako metody zaloˇzené na báz´ıch znalost´ı.

Druhý pˇr´ıstup se nesnaˇz´ı porozumˇet textu, pouze vyuˇz´ıvá obrovské mnoˇzstv´ı dat, na základˇe jejichˇz analýzy hledá r˚uzné podobnosti, ze kterých pak vytváˇr´ı pravidla pro zjed-noznaˇcˇnován´ı. Zde se ve velké m´ıˇre vyuˇz´ıvá r˚uzných algoritm˚u strojového uˇcen´ı. M˚uˇze se jednat o algoritmy uˇcen´ı s uˇcitelem, bez uˇcitele nebo r˚uzné kombinace. Urˇcován´ı význam˚u prob´ıhá na základˇe pravidel, která systém automaticky generuje ze vstupn´ıch dat. Tato pravidla jsou tvoˇrena bˇehem analýzy slov v kontextu. Mezi pouˇz´ıvané metody strojového uˇcen´ı patˇr´ı napˇr. shlukován´ı a klasifikace. Tyto metody m˚uˇzeme souhrnnˇe nazvat jako metody zaloˇzené na korpusech.

V této kapitole jsou popsány pouze nˇekteré významné kroky a smˇery ve zjednoznaˇcˇnován´ı slovn´ıch význam˚u. Informace o historickém vývoji pocházej´ı z [1], kde m˚uˇze ˇctenáˇr v pˇr´ıpadˇe zájmu naj´ıt vyˇcerpávaj´ıc´ı informace.

(12)

2.2.1 Metody zaloˇzen´e na b´az´ıch znalost´ı

Koncem 50. let problém zjednoznaˇcˇnován´ı význam˚u úzce souvisel se strojovým pˇrekladem. Nˇekolik vˇedc˚u uvedlo, ˇze pro úspˇeˇsný strojový pˇreklad z jednoho jazyka do jiného, je urˇcen´ı správného významu slova nezbytné. Tento problém se týká slov, která maj´ı po pˇreloˇzen´ı do c´ılového jazyka v´ıce moˇzných alternativ. Napˇr´ıklad anglické slovo “bed” se m˚uˇze do fran-couzˇstiny pˇreloˇzit jako “le lit” (postel) nebo “le parterre” (záhon).

Nˇekolik vˇedc˚u zkoumalo vliv velikosti kontextu v´ıcevýznamového slova na správné urˇcen´ı jeho významu. Pokusem bylo zjiˇstˇeno, ˇze úspˇeˇsnost pˇrekladu nebyla u kontextu tvoˇreným ˇ

ctyˇrmi slovy nijak významnˇe odliˇsná od pˇr´ıpadu, kdy byl poskytnut celý kontext. Této vlastnosti se vyuˇz´ıvá dodnes.

V 60. letech byl ve zjednoznaˇcˇnován´ı slovn´ıch význam˚u poprvé pouˇzit Bayes˚uv teorém. Skupina vˇedc˚u se snaˇzila odhadnout ˇcetnosti výskyt˚u význam˚u slov pro odliˇsná odvˇetv´ı text˚u, na základˇe kterých pak urˇcili pravdˇepodobnost kaˇzdého významu pro urˇcitý kontext. Tento pˇr´ıstup dosahoval tehdy úspˇeˇsnosti asi 90 %.

V 60. a 70. letech nastal velký r˚ust výzkum˚u v oblasti umˇelé inteligence. Následkem toho je vˇetˇsina metod zjednoznaˇcˇnován´ı slovn´ıch význam˚u z tohoto obdob´ı zaloˇzena na umˇelé inteligenci. Tyto metody se snaˇzily detailnˇe porozumˇet pˇrirozenému jazyku a pokouˇsely se r˚uzným zp˚usobem modelovat znalosti z lingvistické teorie. K tomu vˇetˇsinou vyuˇz´ıvaly ruˇcnˇe vytvoˇrené sémantické s´ıtˇe.

Aˇckoliv byly nˇekteré metody zaloˇzené na umˇelé inteligenci velmi zaj´ımavé, jejich pou-ˇ

zitelnost byla znaˇcnˇe omezena. Zejména proto, ˇze pouˇz´ıvaly ruˇcnˇe vytvoˇrené báze znalost´ı, které pokrývaly pouze specifickou oblast pˇrirozeného jazyka.

Postupem ˇcasu se zaˇcalo objevovat ˇc´ım dál v´ıce pouˇzitelných báz´ı znalost´ı. Takovými bázemi byly slovn´ıky, thesaury nebo lexikony. Aˇckoliv se zde objevila snaha o automatickou extrakci informac´ı z dat, byly tyto rozsáhlé báze vˇetˇsinou vytváˇreny ruˇcnˇe.

Pˇri tvorbˇe lexikon˚u byl významný úspˇech zaznamenán v roce 1990, kdy byl na Prince-tonské univerzitˇe vytvoˇren profesorem Millerem a jeho kolektivem lexikon anglického jazyka nazvaný WordNet. WordNet patˇr´ı k tzv. výˇctovým lexikon˚um, kde jsou uzly tvoˇreny zn´ a-mými významy pro slova. Opakem výˇctového lexikonu je generativn´ı lexikon, v nˇemˇz jsou významové kategorie generovány na základˇe urˇcitých pravidel. Vývoj WordNetu neustále prob´ıhá, jeho souˇcasná verze je 3.0.

2.2.2 Metody zaloˇzen´e na korpusech

V posledn´ıch letech se stávaj´ı stále v´ıce dostupné obrovské, vˇetˇsinou ruˇcnˇe anotované zdroje dat, které se daj´ı vyuˇz´ıt pro empirické metody v mnohých odvˇetv´ıch zpracován´ı pˇrirozeného jazyka. Tyto zdroje dat nazýváme korpusy.

Korpusem rozum´ıme vnitˇrnˇe strukturovaný a ucelený soubor text˚u daného jazyka v elektronické podobˇe. Korpusy jsou organizovány se zˇretelem na úˇcel jejich pouˇzit´ı, které m˚uˇze být vˇseobecného charakteru nebo specificky zamˇeˇrené na urˇcitou oblast zpracován´ı pˇrirozeného jazyka. Mohou být sloˇzeny pouze z holého textu nebo mohou obsahovat meta-data, která poskytuj´ı r˚uzné informace vzhledem k pouˇzit´ı korpusu. Tato metadata mohou být do korpusu pˇridávána ruˇcnˇe nebo automaticky (strojovˇe). Ruˇcn´ı anotován´ı korpus˚u je vzhledem k jejich velikosti znaˇcnˇe nákladné. Na druhou stranu automatické anotován´ı m˚uˇze znamenat jisté zanesen´ı chyby bˇehem anotován´ı.

Prvn´ım korpusem byl korpus anglického jazyka vytvoˇrený na Brownovˇe univerzitˇe v roce 1964. Tento korpus pomohl odhalit statistické charakteristiky slov (napˇr. ˇcetnosti slov

(13)

a slovn´ıch druh˚u) v angliˇctinˇe. V dneˇsn´ı dobˇe má jiˇz mnoho stát˚u vytvoˇrený sv˚uj vlastn´ı národn´ı korpus, který je jistým zp˚usobem reprezentativn´ım vzorkem jazyka daného státu.

Hlavn´ım problémem u metod zjednoznaˇcˇnován´ı slovn´ıch význam˚u zaloˇzených na kor-pusech je nerovnomˇernost dat. Tento problém se sice netýká pouze zjednoznaˇcován´ı, ale právˇe tady vyniká mnohem v´ıce neˇz jinde. Pot´ıˇz je v tom, ˇze nikdo nem˚uˇze zaruˇcit, aby se v korpusu vyskytovaly vˇsechny významy v´ıcevýznamových slov, a uˇz v˚ubec nem˚uˇze být zaruˇceno, aby se vyskytovaly ve stejné m´ıˇre. Napˇr´ıklad v Brownovˇe korpusu, který obsahuje milion slov, se slovoashvyskytuje pouze 8krát a z toho pouze jednou ve smyslu “jasan”.

2.2.3 Hybridn´ı syst´emy

Postupem ˇcastu se ukázalo, ˇze lepˇs´ıch výsledk˚u lze dosáhnout metodami vyuˇz´ıvaj´ıc´ımi obou dvou pˇr´ıstup˚u. Tam, kde metody zaloˇzené na bázech znalost´ı selhávaj´ı kv˚uli své nedokon-alosti nebo nedostupnosti pro daný jazyk, m˚uˇzeme tyto nedostatky vhodnˇe doplnit meto-dami zaloˇzenými na korpusech. V posledn´ı dobˇe tak vznikaj´ı hybridn´ı systémy vyuˇz´ıvaj´ıc´ı obou dvou pˇr´ıstup˚u.

Patˇr´ı sem napˇr. algoritmus bootstrapping. Algoritmus k funkci vyuˇz´ıvá malého mnoˇzstv´ı anotovaných dat pro trénován´ı, pocházej´ıc´ıch z nˇejaké báze znalost´ı, a mnohem vˇetˇs´ıho mnoˇzstv´ı neanotovaných dat k testován´ı. Algoritmus pracuje v cyklech, kdy v kaˇzdém cyklu identifikuje vzory v trénovac´ı mnoˇzinˇe, urˇc´ı významy slov v testovac´ıch datech a vybere nˇekolik nejv´ıce reprezentativn´ıch instanc´ı, které pak pˇridá do trénovac´ı mnoˇziny. Na takto novˇe vzniklé trénovac´ı sadˇe se provede nové trénován´ı algoritmu a celý proces se opakuje.

Jistou modifikac´ı bootstrappingu je Yarowského algoritmus, který nav´ıc obsahuje nˇekteré heuristické metody, mezi nˇeˇz patˇr´ı pˇredpoklad nemˇennosti významu slova pro vˇsechny výskyty v jedné diskuzi, nebo pˇredpoklad nemˇennosti významu slova ve spojen´ı s jiným slovem.

2.3

WordNet

WordNet [5] je sémantický lexikon anglického jazyka vyv´ıjený profesorem Georgem A. Millerem a kol. na Princetonské univerzitˇe od roku 1990. Je tvoˇren tzv. synsety, které reprezentuj´ı podstatná jména, pˇr´ıdavná jména, slovesa a pˇr´ıslovce. Tyto synsety jsou spo-jovány r˚uznými sémantickými vazbami. WordNet kombinuje výhody slovn´ık˚u i thesaur˚u a snaˇz´ı se tak vytvoˇrit lexikon mnohem pouˇzitelnˇejˇs´ım.

Od roku 2006 databáze WordNetu obsahuje asi 150 000 slov organizovaných do v´ıce neˇz 115 000 synset˚u. To vˇsechno je komprimováno do necelých 12 MB dat.

2.3.1 Struktura WordNetu

Kaˇzdý synset obsahuje mnoˇzinu slov nebo slovn´ıch spojen´ı maj´ıc´ı stejný význam. Odliˇsné významy téhoˇz slova jsou um´ıstˇeny v odliˇsných synsetech. Význam kaˇzdého synsetu je charakterizován krátkou glosou. Synsety jsou navzájem propojeny ˇradou sémantických vazeb. Pˇr´ıkladem nˇekterých vazeb v závislosti na typu synsetu m˚uˇze být:

• Podstatn´a jm´ena

– hypernym– Y je hypernym X, kdyˇz kaˇzd´e X je (druh) Y (napˇr. slovo “zv´ıˇre” je hypernym slova “pes”)

(14)

– hyponym – Y je hyponym X, kdyˇz kaˇzd´e Y je (druh) X (napˇr. slovo “st˚ul” je hyponym slova “n´abytek”)

– holonym – Y je holonym X, kdyˇz X je ˇc´ast Y (napˇr. slovo “strom” je holonym slova “vˇetev”)

– meronym– Y je meronym X, kdyˇz Y je ˇc´ast X (napˇr. slovo “klika” je meronym slova “dveˇre”)

• Slovesa

– hypernym – sloveso Y je hypernym slovesa X, kdyˇz aktivita X je (druhem) Y (napˇr. sloveso “sportovat” je hypernym slovesa “bˇehat”)

– troponym – sloveso Y je troponym slovesa X, kdyˇz aktivita Y provád´ı nˇejakým zp˚usobem X (napˇr. sloveso “kráˇcet” je troponym slovesa “j´ıt”)

– d˚usledek – sloveso Y je d˚usledek X, kdyˇz dˇelán´ım X mus´ı být udˇeláno Y (napˇr. sloveso “spát” je d˚usledek slova “chrápat”)

Literály mohou být také spojovány r˚uznými lexikáln´ımi vztahy jako napˇr. vztah ozna-ˇ

cuj´ıc´ı antonymum.

2.3.2 Znaˇcen´ı synset˚u ve WordNetu

Je patrné, ˇze z WordNetu lze z´ıskat mnoho informac´ı. Mezi nejzákladnˇejˇs´ı moˇzné informace vˇsak patˇr´ı výpis význam˚u urˇcitého slova. Tyto významy jsou ve WordNetu pˇresnˇe oznaˇceny a náleˇz´ı jim specifický kód. Tento kód se pouˇz´ıvá pro oznaˇcován´ı význam˚u i v datech, které pouˇz´ıvám. Kód má následujic´ı tvar zápisu:

lemma%ss-type:lex-filenum:lex-id:head-word:head-id,

kdelemmaznaˇc´ı základn´ı tvar slova,ss-typeznaˇc´ı typ synsetu,lex-filenum reprezen-tuje lexikografický soubor obsahuj´ıc´ı synset, lex-id znaˇc´ı konkrétn´ı význam v daném souboru. Zbylé ˇcásti oznaˇcen´ı se pouˇz´ıvaj´ı ve zvláˇstn´ıch pˇr´ıpadech. Pˇr´ıkladem takového znaˇcen´ı m˚uˇze býtbank%1:17:01::.

(15)

Kapitola 3

Strojov´

e uˇ

cen´ı ve zjednoznaˇ

cˇ

nov´

an´ı

slovn´ıch v´

yznam˚

u

Pro zjednoznaˇcˇnován´ı slovn´ıch význam˚u m˚uˇzeme s výhodou pouˇz´ıt metod strojového uˇcen´ı. Metody strojového uˇcen´ı m˚uˇzeme rozdˇelit do dvou základn´ıch skupin. Prvn´ı skupinu tvoˇr´ı metody uˇcen´ı s uˇcitelem, vyˇzaduj´ıc´ı jistá trénovac´ı data, na kterých se “nauˇc´ı” rozpoznávat významy. Druhou skupinou jsou metody uˇcen´ı bez uˇcitele, které ˇzádná taková data nemaj´ı, a mus´ı provést pˇriˇrazen´ı správného významu pouze na základˇe analýzy vstupn´ıch dat. Informace z této kapitoly pocházej´ı z [5] a [3].

3.1

Metody uˇ

cen´ı s uˇ

citelem

Tyto metody tvoˇr´ı algoritmy vyuˇz´ıvaj´ıc´ı mnoˇzinu trénovac´ıch dat. Algoritmy identifikuj´ı vzory v pˇr´ıkladech daných pro jednotlivé tˇr´ıdy významu v´ıcevýznamového slova. Tyto vzory jsou zobecnˇeny do pravidel. Pravidla se pak následnˇe pouˇzij´ı pˇri klasifikaci nových pˇr´ıpad˚u. Typicky se jedná o r˚uzné klasifikátory a klasifikaˇcn´ı algoritmy. Tˇechto algoritm˚u je mnoho a vˇetˇsina z nich vykazuje na poli zjednoznaˇcˇnován´ı slovn´ıch význam˚u dobré výsledky. Mezi nejpouˇz´ıvanˇejˇs´ı metody uˇcen´ı s uˇcitelem patˇr´ı algoritmy podp˚urných vektor˚u, rozho-dovac´ı stromy a seznamy, naivn´ı Bayes˚uv klasifikátor nebo neuronové s´ıtˇe.

3.2

Metody uˇ

cen´ı bez uˇ

citele

Uˇcen´ı bez uˇcitele zahrnuje metody, které se snaˇz´ı ve velké mnoˇzinˇe dat identifikovat vzory. Nemaj´ı pˇritom k dispozici ˇzádná anotovaná data, ani jiné extern´ı znalosti. Vzory jsou pouˇz´ıvány pro rozdˇelen´ı mnoˇziny dat do shluk˚u. Tyto metody nemaj´ı ˇzádné ponˇet´ı o sku-teˇcném rozdˇelen´ı slov do význam˚u. Je proto moˇzné, ˇze mohou naj´ıt odliˇsný poˇcet shluk˚u, neˇz jaký je ve skuteˇcnosti poˇcet význam˚u.

Zde se s výhodou pouˇz´ıvaj´ı r˚uzné druhy aglomerativn´ıho shlukován´ı, které na zaˇcátku vytvoˇr´ı tolik shluk˚u, kolik instanc´ı maj´ı vstupn´ı data. Následnˇe je stanoven zp˚usob mˇeˇren´ı podobnosti instanc´ı a je nastavena prahová hranice. Pokud jsou dva shluky bl´ıˇze neˇz je minimáln´ı vzdálenost urˇcená prahovou hranic´ı, dojde k jejich slouˇcen´ı. Tento cyklus se opakuje do té doby, neˇz obdrˇz´ıme poˇzadovaný poˇcet shluk˚u.

Jinou pouˇz´ıvanou metodou je zjednoznaˇcˇnován´ı slovn´ıch význam˚u pomoc´ı paraleln´ıch text˚u. Tato metoda nevyˇzaduje ˇzádná anotovaná data, nicménˇe data v obou jazyc´ıch mus´ı

(16)

být zarovnána. Taková data se daj´ı bˇeˇznˇe naj´ıt na internetu nebo ve speciáln´ıch kor-pusech (UN Parallel Text, Canadian Hansards). Pomoc´ı zarovnaných text˚u jsou následnˇe objevovány odliˇsnosti mezi významy.

3.3

Naivn´ı Bayes˚

uv klasifik´

ator

Naivn´ı Bayes˚uv klasifikátor je jednoduchý klasifikátor zaloˇzený na Bayesovˇe teorému s pˇ red-pokladem nezávislosti mezi pˇr´ıznaky. Tento klasifikátor m˚uˇzeme s výhodou pouˇz´ıt tam, kde jiné klasifikátory (rozhodovac´ı stromy) selhávaj´ı kv˚uli nemoˇznosti pouˇz´ıt velké mnoˇzstv´ı pˇr´ıznak˚u. Naivn´ı Bayes˚uv klasifikátor m˚uˇze efektivnˇe pracovat i s nˇekolika stovkami aˇz tis´ıci pˇr´ıznaky. Tento klasifikátor je velmi úspˇeˇsný a velmi ˇcasto se vyuˇz´ıvá k r˚uzným úˇcel˚um. Mezi nejˇcastˇejˇs´ı pouˇzit´ı patˇr´ı klasifikace text˚u, zjednoznaˇcˇnován´ı slovn´ıch význam˚u nebo filtrován´ı spamu.

V praxi se klasifikátor pouˇz´ıvá tak, ˇze se podle vzorce stanov´ı pravdˇepodobnosti pro vˇsechny moˇzné významy a z nich se vybere význam s nejvˇetˇs´ı pravdˇepodobnost´ı. Výhodou naivn´ıho Bayesova klasifikátoru je, ˇze mu staˇc´ı pouze malé mnoˇzstv´ı trénovac´ıch dat pro odhadnut´ı potˇrebných pravdˇepodobnost´ı.

3.3.1 Pravdˇepodobnostn´ı model

Pravdˇepodobnostn´ı model pro klasifik´ator je modelem podm´ınˇen´ym:

p(C |F1, . . . , Fn),

kde C je závislá tˇr´ıdn´ı promˇenná a F1, . . . , Fn pˇr´ıznakové promˇenné. Pouˇzit´ım Bayesova

teor´emu m˚uˇzeme tento vztah zapsat jako:

p(C |F1, . . . , Fn) =

p(C)·p(F1, . . . , Fn|C)

p(F1, . . . , Fn)

V praxi nás ˇcasto nezaj´ımá konkrétn´ı hodnota pravdˇepodobnosti, ale jej´ı relativn´ı pomˇer k ostatn´ım pravdˇepodobnostem. Proto m˚uˇzeme zlomek upravit odstranˇen´ım konstanty ve jmenovateli, ˇc´ımˇz se výpoˇcet zjednoduˇs´ı. Upravený vzorec pak bude vypadat následovnˇe:

p(C)·p(F1, . . . , Fn|C)

Tento vztah m˚uˇzeme d´ale upravit na:

p(C, F1, . . . , Fn)

Opakovaným aplikován´ım definice podm´ınˇené pravdˇepodobnosti m˚uˇzeme vzorec upravit na tvar:

p(C, F1, . . . , Fn) = p(C)·p(F1, . . . , Fn|C)

p(C, F1, . . . , Fn) = p(C)·p(F1 |C)·p(F2, . . . , Fn|C, F1)

p(C, F1, . . . , Fn) = p(C)·p(F1 |C)·p(F2 |C, F1)·p(F3, . . . , Fn|C, F1, F2)

Nyn´ı uplatn´ıme pˇredpoklad nezávislosti pˇr´ıznakových promˇenných, který ˇr´ıká, ˇze kaˇzdý pˇr´ıznak Fi je podm´ınˇenˇe nezávislý na kterémkoliv jiném pˇr´ıznaku Fj pro i 6= j. Tuto

(17)

p(Fi |C, Fj) = p(Fi |C)

Proto m˚uˇzeme pˇredch´azej´ıc´ı vzorec pˇrepsat na n´asleduj´ıc´ı tvar:

p(C, F1, . . . , Fn) = p(C)p(F1 |C)·p(F2 |C)·p(F3 |C). . . p(C, F1, . . . , Fn) = p(C) n Y i=1 ·p(Fi |C)

Celkovˇe vzato m˚uˇzeme pravdˇepodobnost toho, ˇze pˇri dan´ych pˇr´ıznac´ıch F1, F2, . . . , Fn

bude jev patˇrit do tˇr´ıdyC, urˇcit n´asleduj´ıc´ım vzorcem:

p(C, F1, . . . , Fn) = 1 Z ·P(C)· n Y i=1 ·p(Fi |C),

kde Z vyjadˇruje jistou konstantu, která je závislá pouze na nepodm´ınˇených pravdˇ epodob-nostech. Ve skuteˇcnosti m˚uˇzeme Z vyjádˇrit jako:

Z = p(F1, . . . , Fn)

Výsledné rozhodován´ı klasifikátoru pak m˚uˇzeme zapsat vztahem:

classif y(f1, . . . , fn) = argmaxcP(C=c)· n

Y

i=1

p(Fi=fi|C =c)

3.3.2 Praktick´e vyuˇzit´ı

Jako pˇr´ıznaky se vˇetˇsinou berou výskyty kl´ıˇcových slov v kontextu v´ıcevýznamového slova. Vˇsechny potˇrebné hodnoty, jako pravdˇepodobnosti výskyt˚u slov, podm´ınˇené pravdˇ epodob-nosti výskyt˚u slov u význam˚u nebo pravdˇepodobnosti výskyt˚u význam˚u, mohou být odhad-nuty z mnoˇziny trénovac´ıch dat.

3.3.3 Pr´azdn´e nebo chybˇej´ıc´ı atributy

Pokud se nˇekteré pˇr´ıznaky u jistého významu v˚ubec nevyskytuj´ı, je zˇrejmé, ˇze pravdˇ epo-dobnost jejich výskytu bude nulová. To m˚uˇze ˇcinit velký problém. Ve výsledném násoben´ı vˇsech pravdˇepodobnost´ı by vyˇsel celkový výsledek roven nule. Problém se ˇreˇs´ı pˇridán´ım malé konstanty µ ke vˇsem pˇr´ıznakovým hodnotám. Tento proces se nazývá Laplaceovo vyhlazován´ı.

3.3.4 Pˇr´ıklad urˇcován´ı významu naivn´ım Bayesovým klasifikátorem

Zde je zpracován jednoduchý pˇr´ıklad pouˇzit´ı naivn´ıho Bayesova klasifikátoru pro zjed-noznaˇcˇnován´ı slovn´ıch význam˚u. Pravdˇepodobnosti výskyt˚u slov a význam˚u jsou odhadnuty z datové sady Senseval-3. Pˇr´ıklad je proveden pro anglický jazyk a demonstruje urˇcován´ı správného významu podstatného jménadisc.

(18)

Mnoˇzina trénovac´ıch dat obsahuje 222 instanc´ı. V pˇr´ıkladˇe budu poˇc´ıtat s hodnotami zaokrouhlenými na ˇsest desetinných m´ıst.

Slovodiscmá podle sémantického lexikonu WordNet 2.1 následuj´ıc´ı významy (ve Word-Netu jsou významy oznaˇceny pomoc´ı speciáln´ıch kód˚u, pro lepˇs´ı pˇrehlednost jsem zvolil vhodná anglická oznaˇcen´ı):

• disc%plateA thin flat circular plate.

• disc%musicSound recording consisting of a disc with continuous grooves.

• disc%computer A memory device consisting of a flat disk covered with a magnetic coating on which information is stored.

• disc%shapeSomething with a round shape like a flat circular plate.

Mým programem byly pro tyto významy v trénovac´ıch datech zjiˇstˇeny následuj´ıc´ıˇcetnosti.

Význam Cetnostˇ Pravdˇepodobnost výskytu významu

disc%plate 63 0,283784

disc%music 81 0,364865

disc%computer 45 0,202703

disc%shape 33 0,148649

celkem 222 1,000000

Tabulka 3.1: ˇCetnosti a pravdˇepodobnosti v´yskyt˚u v´yznam˚u.

Dále je potˇreba vybrat vhodná kl´ıˇcová slova, podle kterých bude klasifikátor rozhodovat. Princip výbˇeru kl´ıˇcových slov je popsán v kapitole 4.5. Tˇechto slov bývá mnoho, ale pro demonstraci naˇseho pˇr´ıkladu jich bohatˇe staˇc´ı jen nˇekolik. Spokoj´ıme se tedy pouze s následuj´ıc´ımi slovy:

floppy, drive, computer, sand, musical, record, year, wolfcraft.

Pro tato slova byly zjiˇstˇeny následuj´ıc´ı podm´ınˇené pravdˇepodobnosti. Tabulka3.2udává pravdˇepodobnosti výskyt˚u kl´ıˇcových slov pro vˇsechny tˇr´ıdy význam˚u.

(19)

Tˇr´ıda v´yznamu

Slovo disc%plate disc%music disc%computer disc%shape floppy 0,000000 0,012346 0,266667 0,000000 drive 0,031746 0,000000 0,155556 0,000000 computer 0,000000 0,037037 0,422222 0,000000 musical 0,000000 0,074074 0,000000 0,000000 record 0,079365 0,617284 0,111111 0,030303 wolfcraft 0,111111 0,000000 0,000000 0,000000

Tabulka 3.2: Podm´ınˇené pravdˇepodobnosti výskyt˚u kl´ıˇcových slov u daných význam˚u.

V tabulce3.2je vidˇet, ˇze nˇekteré hodnoty pravdˇepodobnost´ı jsou nulové. To je zp˚usobeno t´ım, ˇze v trénovac´ıch datech nebyl pro daný význam nalezen ˇzádný výskyt slova.

Nyn´ı se m˚uˇzeme pomoc´ı naivn´ıho Bayesova klasifikátoru pokusit urˇcit správný význam slovadisc v následuj´ıc´ı vˇetˇe:

Operating system decided to eject a floppy disc from the drive.

V této vˇetˇe se nacházej´ı pouze nˇekterá kl´ıˇcová slova a tofloppyadrive. Proto budeme ve vzorci poˇc´ıtat pouze s tˇemito dvˇema slovy.

Pravdˇepodobnost toho, ˇze pro pˇr´ıznaky F1, . . . Fn bude instance zaˇrazena do tˇr´ıdy C,

je podle zjednoduˇsen´eho vzorce d´ana:

p(C|F1, . . . Fn) = p(C)·

Y

i

p(Fi |C)

Uváˇz´ıme-li pak pouze vybraná dvˇe slova, bude vzorec vypadat následovnˇe:

p(C|f loppy, drive) = p(C)·p(f loppy|C)·p(drive|C)

Protoˇze poˇc´ıtáme s pˇr´ıliˇs malými hodnotami a jejich násoben´ım dostaneme hodnoty jeˇstˇe menˇs´ı, je vhodné celý vzorec zlogaritmovat na tvar:

ln(p(C |f loppy, drive)) = ln(p(C)) +ln(p(f loppy |C)) +ln(p(drive|C))

Pˇri dosazován´ı do vzorce nesm´ıme zapomenout oˇsetˇrit nulové hodnoty pravdˇ epodob-nost´ı pˇriˇcten´ım vhodné konstanty. Tuto konstantu jsem zvolil 0,001.

(20)

ln(p(disc%plate | f loppy, drive)) = ln(p(disc%plate)) +

+ ln(p(f loppy | disc%plate)) + + ln(p(drive | disc%plate)) = = (−1,259542) +

+ (−6,907755) + + (−3,449989) = = −11,617286

ln(p(disc%music | f loppy, drive)) = ln(p(disc%music)) +

+ ln(p(f loppy | disc%music)) + + ln(p(drive | disc%music)) = = (−1,008228) +

+ (−4,394423) + + (−6,907755) = = −12,310466

ln(p(disc%computer | f loppy, drive)) = ln(p(disc%computer)) +

+ ln(p(f loppy | disc%computer)) + + ln(p(drive | disc%computer)) = = (−1,596013) +

+ (−1,321755) + + (−1,860749) = = −4,778517

ln(p(disc%shape | f loppy, drive)) = ln(p(disc%shape)) +

+ ln(p(f loppy | disc%shape)) + + ln(p(drive | disc%shape)) = = (−1,906167) +

+ (−6,907755) + + (−6,907755) = = −15,721677

Správný význam slovadiscje reprezentován nejvyˇsˇs´ı z tˇechto hodnot, coˇz je−4,778517, která pˇr´ısluˇs´ı významudisc%computer.

(21)

Kapitola 4

N´

avrh syst´

emu pro

zjednoznaˇ

cˇ

nov´

an´ı slovn´ıch

v´

yznam˚

u

Z kapitoly 3 je zˇrejmé, jak se naivn´ı Bayes˚uv klasifikátor pouˇz´ıvá k ˇreˇsen´ı problému zjed-noznaˇcˇnován´ı slovn´ıch význam˚u. V této kapitole se pokus´ım vysvˇetlit postup pouˇzit´ı to-hoto klasifikátoru v mém systému wsd s d˚urazem na jisté odliˇsnosti proti standardn´ım postup˚um. Je zde popsán celý proces od analýzy dat pˇres výbˇer kl´ıˇcových slov, ladˇen´ı pro-gramu aˇz po koneˇcné urˇcen´ı význam˚u. Nejprve vˇsak ˇctenáˇre seznám´ım s vlastn´ı strukturou pouˇz´ıvaných dat. Struˇcnˇe zde také pop´ıˇsu dalˇs´ı metodu uˇcen´ı s uˇcitelem, která je rovnˇeˇz implementována do systému.

4.1

Pouˇ

z´ıvan´

e datov´

e sady

Pˇri ˇreˇsen´ı problému je nutné si nejprve obstarat vhodná data, na kterých se bude vlastn´ı zjednoznaˇcˇnován´ı provádˇet. Takových dat se dá sehnat relativnˇe mnoho, a to v r˚uzných formátech. Jistý problém vˇsak nastává ve chv´ıli, kdy si pro práci zvol´ıme konkrétn´ı pˇrirozený jazyk. Vˇetˇsina dat je totiˇz v anglickém jazyce. Pro ˇceˇstinu je velmi obt´ıˇzné sehnat vhod-nou datovou sadu. Proto jsem se rozhodl pouˇz´ıt anglický jazyk. Ze vˇsech moˇzných da-tových sad jsem vybral ty, které byly vytvoˇreny v rámci konferenc´ı Senseval-3 a Semeval-1. Vzhledem k dlouholeté tradici tˇechto konferenc´ı lze pˇredpokládat dobrou úroveˇn tˇechto datových sad. Obˇe sady jsou tvoˇreny pro ˇreˇsen´ı problému zjednoznaˇcˇnován´ı pouze vy-braných v´ıcevýznamových slov a obsahuj´ı tyto slovn´ı druhy: podstatná jména, pˇr´ıdavná jména a slovesa. V obou datových sadách jsou rozliˇsena data pro trénován´ı a testován´ı. Data jsou ve formátu XML, jejich zpracován´ı je tedy velmi snadné.

4.1.1 Senseval-3

Data z konference Senseval-3 pocházej´ı z roku 2004 a byla poˇr´ızena pˇres systém Open Mind Word Expert.1Pro zvýˇsen´ı spolehlivosti dat byla kaˇzdá instance kontrolována alespoˇn dvˇema nezávislými zdroji. Tato datová sada obsahuje pˇribliˇznˇe 60 podstatných a pˇr´ıdavných jmen a sloves. Podstatná a pˇr´ıdavná jména jsou anotována pomoc´ı význam˚u pocházej´ıc´ıch

1

Open Mind Word Expert je systém vyuˇz´ıvaj´ıc´ı lidské schopnosti zjednoznaˇcˇnován´ı slovn´ıch význam˚u a dává tak poˇc´ıtaˇc˚um výhody lidských znalost´ı. V´ıce informac´ı lze z´ıskat na [6].

(22)

z WordNetu 1.7.1. Slovesa jsou anotována pomoc´ı definic význam˚u z thesauru Wordsmyth. Vˇsechna data pocházej´ı z Britského národn´ıho korpusu. Z datové sady jsou vyjmuty in-stance obsahuj´ıc´ı slovn´ı spojen´ı s rozpoznávanými slovy. S daty je rovnˇeˇz dodávána mapa význam˚u, která zmenˇsuje mnoˇzinu podobných význam˚u na jeden. Této mapy se vyuˇz´ıvá pˇri vyhodnocován´ı úspˇeˇsnosti. D´ıky této mapˇe m˚uˇzeme r˚uznˇe zohledˇnovat pˇr´ıpady, kdy systém urˇc´ı význam, který sice nen´ı úplnˇe správný, ale patˇr´ı do podobné významové skupiny jako správný význam slova.

4.1.2 Semeval-1

Data pocházej´ıc´ı z konference Semeval-1 jsou velmi podobná dat˚um ze Sensevalu-3. Opˇet jsou zde obsaˇzeny tˇri základn´ı slovn´ı druhy a to podstatná a pˇr´ıdavná jména a slovesa. Data tentokrát pocházej´ı z tisku Wall Street Journal a Brownova korpusu. Zásadn´ı zmˇena oproti dat˚um Senseval-3 je ta, ˇze tv˚urci se tentokrát rozhodli neponechat moˇznost zp˚usobu urˇcován´ı význam˚u zaloˇzeného na jemné granularitˇe. M´ısto klasicky definovaných slovn´ıch význam˚u zde nalezneme pouze jakési významové mnoˇziny, které vznikly slouˇcen´ım nˇekolika skuteˇcných význam˚u. Kaˇzdému v´ıcevýznamovému slovu pak pˇr´ısluˇs´ı nˇekolik významových skupin, které jsou tvoˇreny významy z WordNetu.

4.2

Vyuˇ

zit´ı WordNetu v syst´

emu

Ve vstupn´ı mnoˇzinˇe dat se vyskytuje znaˇcné mnoˇzstv´ı slov. Tato slova ovˇsem nemus´ı být ve svém základn´ım tvaru (lemma). Proto program pracuje napˇr. s anglickými slovy has

a have jako se zcela odliˇsnými slovy. To by mohlo negativnˇe ovlivnit vlastn´ı proces zjed-noznaˇcˇnován´ı, protoˇze by mohlo doj´ıt k výbˇeru jiných kl´ıˇcových slov. Pokud bychom napˇr. vyˇsetˇrovali slovo computerjako jednoho z moˇzných kandidát˚u na kl´ıˇcové slovo, mohlo by doj´ıt k situaci, kdy by pravdˇepodobnost výbˇeru tohoto slova byla oslabena výskyty slova

computers, coˇz jistˇe nechceme.

Proto jsem se rozhodl pˇred vlastn´ı analýzou dat nejprve vˇsechna slova pˇrevést na je-jich základn´ı tvar. Lemma je pro kaˇzdé slovo z´ıskáváno z WordNetu. Pro jeho z´ıskán´ı je ovˇsem potˇreba znát slovn´ı druh slova. Nˇekterá slova totiˇz mohou nabývat podle situ-ace v´ıce slovn´ıch druh˚u. Kaˇzdý slovn´ı druh pak m˚uˇze m´ıt jiné lemmma. Napˇr´ıklad slovo

starting má ve WordNetu pro podstatné jméno lemma starting a pro sloveso lemma

start. Ve vstupn´ıch datech ovˇsem nen´ı uveden slovn´ı druh pro kaˇzdé slovo. Nem˚uˇzeme tedy jednoznaˇcnˇe urˇcit jeho lemma. Bylo by moˇzné pouˇz´ıt speciáln´ıch nástroj˚u pro do-plnˇen´ı slovn´ıho druhu ke kaˇzdému slovu. Tento zp˚usob je vˇsak vzhledem k povaze problému znaˇcnˇe sloˇzitý. Rozhodl jsem se zvolit jednoduˇsˇs´ı zp˚usob. Z WordNetu se zjist´ı vˇsechna lemmata pro dané slovo a vybere se to, které se vyskytuje nejˇcastˇeji. Ve WordNetu jsou uvedeny ˇcetnosti nejˇcastˇeji se vyskytuj´ıc´ıch význam˚u slov. Je pravdˇepodobné, ˇze chybnˇe urˇcená lemmata nebudou m´ıt na funkˇcnost systému nijak velký vliv. Lemmata jsou gen-erována mnou vytvoˇreným programemlemmatizer.2

4.3

Jednoduch´

y algoritmus uˇ

cen´ı s uˇ

citelem

Kromˇe naivn´ıho Bayesova klasifikátoru, který bude popsán dále, je v systému implemen-tován jednoduchý algoritmus zjednoznaˇcˇnován´ı slovn´ıch význam˚u zaloˇzený na metodˇe uˇcen´ı

2

(23)

s uˇcitelem. Tento algoritmus je implementován z d˚uvodu moˇznosti urˇcitého srovnán´ı s nai-vn´ım Bayesovým klasifikátorem. Algoritmus je pˇrevzat z [3], kde je moˇzné také naj´ıt bliˇzˇs´ı informace.

Algoritmus je zaloˇzen na principu tvorby urˇcitých skupin slov pro kaˇzdý význam. Na zaˇcátku algoritmus vytvoˇr´ı tolik skupin, kolik má v´ıcevýznamové slovo význam˚u. N´ a-slednˇe procház´ı vˇsechny instance trénovac´ıch dat. Nejprve se pro kaˇzdou instanci zjist´ı skuteˇcný význam slova. Následnˇe se vloˇz´ı do skupiny slov s pˇr´ısluˇsným významem vˇsechna slova vyskytuj´ıc´ı se v kontextu v´ıcevýznamového slova. Tento postup se opakuje pro vˇsechny instance trénovac´ıch dat. Ve skupinˇe slov je pˇritom kaˇzdé slovo pouze jednou. Algoritmus pak dostane testovac´ı data, u kterých má urˇcit správný význam. Procház´ı postupnˇe vˇsechna slova v kontextu testovac´ı instance. Kaˇzdé skupinˇe slov pak zvýˇs´ı skóre o jedniˇcku, pokud se právˇe zpracovávané slovo ve skupinˇe nacház´ı. Po zpracován´ı vˇsech slov v kontextu al-goritmus vybere správný význam na základˇe nejvyˇsˇs´ıho dosaˇzeného skóre. V pseudo-kódu m˚uˇzeme algoritmus zapsat následuj´ıc´ım zp˚usobem:

For each word Wi in C

For each sense Si in S

If Wi is in SENSE_i_BAG then Si = Si + 1;

correct_sense = max(Si);

kdeC znaˇc´ı kontext, W slovo a S v´yznam slova.

4.4

Princip pr´

ace s naivn´ım Bayesov´

ym klasifik´

atorem

Celý systém pro zjednoznaˇcˇnován´ı je implementován objektovˇe. Bˇeh algoritmu je ˇr´ızen vhodným volán´ım metod r˚uzných objekt˚u. Tento proces má urˇcitý ˇrád, který je potˇreba dodrˇzet.

4.4.1 Naˇcten´ı datov´ych vstup˚u

Po spuˇstˇen´ı programu je vytvoˇren hlavn´ı objektChief, který zahrnuje veˇskeré dalˇs´ı objekty a datové struktury. Následuje naˇcten´ı vˇsech potˇrebných soubor˚u s daty. Tˇechto soubor˚u je nˇekolik a mohou být ve formátu Semeval-1 nebo Senseval-3. Prvn´ım ze soubor˚u je trénovac´ı datová sada. Tento soubor je tvoˇren stovkami aˇz tis´ıci instancemi trénovac´ıch dat. Kaˇzdá instance obsahuje v´ıcevýznamové slovo s celým jeho kontextem, vˇcetnˇe urˇceného správného významu. Podobný formát má testovac´ı datová sada. Ta se liˇs´ı pouze v tom, ˇze neob-sahuje správnˇe doplnˇené významy. Dalˇs´ım souborem je soubor s lemmaty vˇsech slov, která se vyskytuj´ı v trénovac´ıch nebo testovac´ıch datech. Tento soubor je moˇzno vygenerovat pomoc´ı programu lemmatizer. Posledn´ım souborem je soubor se správnými odpovˇed’mi pro testovac´ı data. Soubor s lemmaty ani soubor se správnými odpovˇed’mi nen´ı nezbytný ke správné funkˇcnosti programu.

4.4.2 Anal´yza tr´enovac´ıch dat

Po naˇcten´ı vˇsech soubor˚u program zaháj´ı analýzu trénovac´ıch dat. Nejprve je v hlavn´ım ob-jektuChiefvytvoˇrena kolekce objekt˚uLexelt, která reprezentuje jednotlivá rozpoznávaná lemmata. Kaˇzdý objektLexeltobsahuje mnoho dalˇs´ıch kolekc´ı. Mezi nejvýznamnˇejˇs´ı patˇr´ı

(24)

kolekce objekt˚uSenseItemreprezentuj´ıc´ı význam slova, kolekce objekt˚uLexeltItem reprezen-tuj´ıc´ı konkrétn´ı v´ıcevýznamová slova, vˇcetnˇe jejich kontextu. Dalˇs´ım objektem je Answer, který slouˇz´ı pro práci s výsledky. Po vytvoˇren´ı vˇsech potˇrebných objekt˚u je pro vˇsechny ob-jektyLexeltzavolána metodacreateWordsTable(). Tato metoda vypoˇc´ıtá ˇcetnosti vˇsech slov pro nalezené významy. Následuje volán´ı metodycreateDeviationTable(), která pro vˇsechna slova kaˇzdého objektu Lexelt vypoˇc´ıtá potˇrebné statistické údaje. Tyto údaje jsou následnˇe poskytnuty metodˇesortSignificantWords(), která podle tˇechto vlastnost´ı vybere mezi vˇsemi slovy nejvhodnˇejˇs´ı kandidáty na kl´ıˇcová slova. Metoda selectSigni-ficantWords() následnˇe pro kaˇzdý objekt LexeltItem, patˇr´ıc´ı do mnoˇziny testovac´ıch dat vybere N kl´ıˇcových slov ze seznamu vˇsech moˇzných kandidát˚u. Pro tato kl´ıˇcová slova jsou pak metodou computeWordsProbability() vypoˇc´ıtány potˇrebné pravdˇepodobnosti pro naivn´ı Bayes˚uv klasifikátor.

4.4.3 Urˇcen´ı správného významu slova

Jsou-li provedeny vˇsechny potˇrebné analýzy trénovac´ıch dat, pˇrijde na ˇradu vlastn´ı klasi-fikace. Klasifikaci provád´ı metoda makeBayes(), která vypoˇc´ıtá ohodnocen´ı kaˇzdého v´ y-znamu pro vˇsechny instance testovac´ıch dat. Ohodnocen´ı je poˇc´ıtáno podle výˇse uvedeného vzorce z vektoru pˇr´ıznak˚u tvoˇreného slovy vybranými metodouselectSignificantWords(). Po výpoˇctu ohodnocen´ı pro vˇsechny instance je zavolána metodamakeResult(), která pro kaˇzdou instanci vybere na základˇe nejlepˇs´ıho ohodnocen´ı pˇredpokládaný správný význam. Pokud je programu dodán soubor se správnými výsledky, vyp´ıˇse metodaprintHitRate()

´

uspˇeˇsnost pro vˇsechna zpracovávaná lemmata. Vypsána je také pr˚umˇerná, minimáln´ı a ma-ximáln´ı úspˇeˇsnost. ˇReˇsen´ı je uloˇzeno do souboru metodou saveResult(), která umoˇzˇnuje uloˇzit výsledky jako prostý text nebo ve formátu XML.

4.5

Od slov k vektoru pˇ

r´ıznak˚

u

Naivn´ı Bayes˚uv klasifikátor je pevnˇe daný algoritmus, který dává pro urˇcitý vstupn´ı vektor pˇr´ıznak˚u vˇzdy stejné výsledky. Pˇriˇrazen´ı správného významu slova je tedy velmi závislé na vektoru pˇr´ıznak˚u. ˇSpatná volba pˇr´ıznak˚u m˚uˇze m´ıt zásadn´ı dopad na funkˇcnost celého systému. Je tedy nutné vˇenovat tvorbˇe tohoto vektoru velkou pozornost.

V podobných systémech zaloˇzených na naivn´ım Bayesovˇe klasifikátoru je vˇetˇsinou vektor pˇr´ıznak˚u tvoˇren nˇekolika tis´ıci poloˇzkami. Kaˇzdá poloˇzka reprezentuje jedno kl´ıˇcové slovo. Hodnota poloˇzky vektoru pak znaˇc´ı, jestli se kl´ıˇcové slovo nacház´ı v kontextu v´ıcev´ yznamo-vého slova ˇci nikoliv. Je zˇrejmé, ˇze poˇcet pˇr´ıznak˚u reprezentuj´ıc´ıch slova, která se v kontextu vyskytuj´ı, nebude nijak velký. V pˇr´ıpadˇe tohoto zp˚usobu pouˇzit´ı se stanov´ı vektor pˇr´ıznak˚u pro kaˇzdé urˇcované lemma pouze jednou. Tento vektor je opakovanˇe pouˇz´ıván na vˇsechny instance testovac´ıch dat pro dané lemma.

Já jsem zvolil ponˇekud odliˇsný zp˚usob tvorby vektoru pˇr´ıznak˚u. M˚uj vektor pˇr´ıznak˚u ob-sahuje jen velmi málo poloˇzek (nˇeco okolo 10-ti). Vektor nen´ı tvoˇren globálnˇe pro vˇsechny instance stejného lemmatu, ale je tvoˇren lokálnˇe pro kaˇzdou instanci individuálnˇe. Slova jsou do vektoru pˇr´ıznak˚u vyb´ırána tak, aby se v kontextu v´ıcevýznamového slova vˇzdy vyskytovala. Tento zp˚usob zaruˇc´ı to, ˇze kaˇzdá instance bude charakterizována pˇresnˇe speci-fikovaným vektoremN poloˇzek. Nem˚uˇze tedy nastat pˇr´ıpad, kdy kontext v´ıcevýznamového slova nebude zrovna reprezentativn´ı a dojde k situaci, kdy z nˇekolikatis´ıcového vektoru bude v kontextu obsaˇzeno pouze velmi málo slov nebo dokonce ˇzádné. V pˇr´ıpadˇe, ˇze by v kon-textu nebylo obsaˇzeno ˇzádné kl´ıˇcové slovo, klasifikátor by rozhodoval pouze na základˇe

(25)

pravdˇepodobnost´ı v´yskyt˚u v´yznam˚u.

Z˚ustává tedy otázka, jak vybrat správnˇe N kl´ıˇcových slov pro kaˇzdou instanci tr´ enova-c´ıch dat. Tento výbˇer je ˇreˇsen ve v´ıce kroc´ıch a tvoˇr´ı kl´ıˇcovou ˇcást programu. Obecnˇe ˇreˇceno, program provede ohodnocen´ı vˇsech slov v trénovac´ıch datech a pro kaˇzdé v´ıcevýznamové slovo pak vybere nejvhodnˇejˇs´ı slova z jeho kontextu na základˇe tohoto ohodnocen´ı.

Nejprve jsou vypoˇc´ıtány podm´ınˇené pravdˇepodobosti výskyt˚u slov pro vˇsechny uvaˇzované významy slova. Následnˇe je z tˇechto pravdˇepodobnost´ı urˇceno nˇekolik hodnot, podle kterých se poˇc´ıtá výsledné ohodnocen´ı slova. Prvn´ı z hodnotdev, je smˇerodatná odchylka pravdˇ epo-dobnost´ı výskyt˚u vydˇelená jejich pr˚umˇernou hodnotou. Smˇerodatné odchylky pravdˇ epodob-nost´ı výskyt˚u mohou nabývat pro r˚uzná slova znaˇcnˇe odliˇsných hodnot. Pokud je vydˇel´ıme pr˚umˇernou hodnotou, dojde tak k urˇcité normalizaci a hodnoty lze lépe porovnávat. Dalˇs´ımi hodnotami jsou maximáln´ı pravdˇepodobnost výskytu slova pro pˇr´ısluˇsné významymaxa j´ı odpov´ıdaj´ıc´ı ˇcetnost count.

Z tˇechto hodnot se vypoˇc´ıtá ohodnocen´ı vˇsech slov obsaˇzených v trénovac´ıch datech. Ohodnocen´ı se vypoˇc´ıtává podle následuj´ıc´ıho vzorce:

ohodnocen´ı = X· dev

Dev+Y · max M ax,

kde dev, max jsou hodnoty uvedené výˇse a Dev, M ax jsou jejich maximáln´ı hodnoty v rámci vˇsech slov pro dané lemma. Dˇelen´ı maximáln´ı hodnotou je provádˇeno opˇet kv˚uli normalizaci. X aY jsou vhodnˇe zvolené konstanty. Jejich nastaven´ı se vˇenuje kapitola 4.6. Teoreticky by ohodnocen´ı mˇelo být poˇc´ıtano pro úplnˇe vˇsechna slova. Zvolil jsem ale jistá omezen´ı, která vyb´ıraj´ı pouze urˇcitá vhodná slova, pro která bude poˇc´ıtáno ohod-nocen´ı. Toto omezen´ı je zaloˇzeno na hodnotách dev a count, kde jsem zvolil minimáln´ı hodnoty, pˇri kterých bude pro dané slovo ohodnocen´ı poˇc´ıtáno. Tyto hodnoty jsou opˇet vhodnˇe nastaveny. T´ımto zjednoduˇsen´ım jsem se vyhnul výpoˇct˚um ohodnocen´ı u vˇetˇsiny slov. Vynechaná slova by mˇela ohodnocen´ı velmi malé a jen stˇeˇz´ı by byla vybrána jako kl´ıˇcová.

4.6

Nastavov´

an´ı parametr˚

u syst´

emu

Pro správný bˇeh programu je tˇreba nejprve program vyladit na pouˇz´ıvanou datovou sadu. Ladˇen´ı program˚u prob´ıhá ve formˇe nastavován´ı nˇekolika jeho parametr˚u. Jedná se zejména o délku pouˇzitého vektoru pˇr´ıznak˚uN, dále parametrµvyjadˇruj´ıc´ı konstantu potˇrebnou pro oˇsetˇren´ı nulových hodnot nˇekterých pravdˇepodobnost´ı pˇri rozhodován´ı naivn´ıho Bayesova klasifikátoru, parametryXa Ypotˇrebné pro výpoˇcet ohodnocen´ı slov a parametry urˇcuj´ıc´ı zam´ıtnut´ı slova, kdy nedojde k poˇc´ıtán´ı ohodnocen´ı. Tyto parametry jsem nazvalmin_dev

amin_count. Nastavován´ı vhodných hodnot je provádˇeno empiricky na základˇe úspˇeˇsnosti programu pro r˚uzné hodnoty parametr˚u. Hodnoty tˇechto parametr˚u m˚uˇzou ovlivnit výkon i úspˇeˇsnost programu. Je proto vhodné jim vˇenovat patˇriˇcnou pozornost.

Pˇri nastavován´ı délky vektoru pˇr´ıznak˚u se ukázalo, ˇze nejvhodnˇejˇs´ı délka je 8 poloˇzek. Pˇri menˇs´ı délce docházelo jiˇz k poklesu úspˇeˇsnosti, coˇz je zp˚usobeno t´ım, ˇze poˇcet slov charakterizuj´ıc´ı daný význam je nedostateˇcný. Pˇri zvyˇsován´ı délky vektoru úspˇeˇsnost nejdˇ r´ı-ve chv´ıli stagnovala, a pak zaˇcala rovnˇeˇz klesat. Tento jev je zp˚usoben t´ım, ˇze se do vektoru pˇr´ıznak˚u zaˇc´ınaj´ı dostávat ménˇe významná slova. Zprvu jeˇstˇe tato slova nemaj´ı takový vliv na klasifikaci, ale s jejich vzr˚ustaj´ıc´ım poˇctem zaˇc´ınaj´ı negativnˇe ovlivˇnovat výsledek.

(26)

Vhodné nastaven´ı parametru µ je pro bˇeh systému kl´ıˇcové. Pokud by byl nastaven na pˇr´ıliˇs vysokou hodnotu, byly by klasifikátorem zvýhodˇnovány významy, pro nˇeˇz maj´ı nˇekterá slova nulové pravdˇepodobnosti výskyt˚u. Pokud bychom tento parametr nastavili na pˇr´ıliˇs n´ızkou hodnotu, docházelo by k opaˇcnému jevu a klasifikátor by znevýhodˇnoval významy, pro které maj´ı nˇekterá slova nulovou pravdˇepodobnost výskytu. Tento parametr byl nastaven na hodnotu 0,001.

ParametryXaYjiˇz nemaj´ı takový vliv na úspˇeˇsnost programu. Bˇehem experimentován´ı s jejich nastaven´ım bylo zjiˇstˇeno, ˇze hodnota devmá na úspˇeˇsnost programu vˇetˇs´ı vliv neˇz hodnota max. Parametr X, který vyjadˇruje váhovou hodnotu promˇenné dev, by mˇel být proto nastaven na vyˇsˇs´ı hodnotu neˇz parametr Y vyjadˇruj´ıc´ı váhovou hodnotu promˇenné

max. ParametrXbyl nastaven na hodnotu 20 a parametr Yna hodnotu 12.

Posledn´ımi parametry, které zbývá nastavit jsou hodnoty min_dev a min_count. Tyto hodnoty rozhoduj´ı o zam´ıtnut´ı kandidátn´ıch slov. Pˇri nastavován´ı bylo zjiˇstˇeno, ˇze úspˇeˇsnost programu je na parametr min_dev nejménˇe citlivá. Je to zp˚usobeno t´ım, ˇze pokud nen´ı nastaven do extrémn´ıch hodnot, tak jen zp˚usobuje výpoˇcty ohodnocen´ı u v´ıce kandidátn´ıch slov. Pokud program dokáˇze vybrat z urˇcitého mnoˇzstv´ı kandidátn´ıch slov N kl´ıˇcových slov, tak v pˇr´ıpadˇe zvýˇsen´ı mnoˇzstv´ı kandidátn´ıch slov vybere program pravdˇepodobnˇe stejná kl´ıˇcová slova. Tento parametr m˚uˇze výraznˇeji ovlivˇnovat úspˇeˇsnost, jen pokud je nastavena délka vektoru pˇr´ıznak˚u na velkou hodnotu a poˇcet kandidátn´ıch slov tak nestaˇc´ı k jeho naplnˇen´ı. Parametr min_dev byl nastaven na hodnotu 0,800. Zbývaj´ıc´ı parametr

min_count má na celkovou úspˇeˇsnost programu mnohem vˇetˇs´ı vliv neˇz parametr min_dev. Hodnotadev totiˇz m˚uˇze za jistých okolnost´ı nabývat vysoké hodnoty, i kdyˇz je dané slovo nevýznamné. Tento pˇr´ıpad nastává u slov, která se vyskytuj´ı pouze u jednoho významu a to v malém poˇctu. Pokud se napˇr. slovo planetpˇri urˇcován´ı významu slova bank bude vyskytovat pouze jednou, a to jenom u jednoho významu, vyjde hodnota devvysoká, coˇz zp˚usob´ı velké ohodnocen´ı slova. Je zˇrejmé, ˇze toto slovo nemá m´ıt na klasifikaci ˇzádný vliv. Parametr min_count byl nastaven na hodnotu 1,500, coˇz znamená, ˇze jsou odfiltrována vˇsechna slova, která se vyskytuj´ı v kontextu pouze jednou.

Nyn´ı uvedu nˇekolik tabulek znázorˇnuj´ıc´ıch závislost úspˇeˇsnosti programu na nastavován´ı r˚uzných parametr˚u.

(27)

Hodnota parametru N Uspˇ´ eˇsnost 1 78,4787 % 2 79,7361 % 3 81,0761 % 4 81,5914 % 5 81,7151 % 6 81,7357 % 7 81,8594 % 8 82,1892 % 9 81,9419 % 10 81,9419 % 15 81,7976 % 30 81,7770 %

Tabulka 4.1: Úspˇeˇsnost systému pro r˚uzné hodnoty parametru N, pˇri konstantn´ıch zbylých parametrech. Mˇeˇreno na datové sadˇe Semeval-1.

µ Uspˇ´ eˇsnost

0,1 18,9402 % 0,01 62,8296 % 0,001 64,5030 % 0,0001 64,1734 % 0,00001 63,8945 %

Tabulka 4.2: Úspˇeˇsnost systému pro r˚uzné hodnoty parametru µ, pˇri konstantn´ıch zbylých parametrech. Mˇeˇreno na datové sadˇe Senseval-3.

(28)

Pomˇer parametr˚u X:Y Uspˇ´ eˇsnost 1:2 63,4888 % 1:1 64,0467 % 2:1 64,2748 % 3:1 64,3763 % 5:1 64,3256 % 10:1 64,2495 %

Tabulka 4.3: Úspˇeˇsnost systému pro r˚uzné hodnoty pomˇeru parametr˚u X:Y, pˇri kon-stantn´ıch zbylých parametrech. Mˇeˇreno na datové sadˇe Senseval-3.

Hodnota parametru min_dev Uspˇ´ eˇsnost

0,500 64,1481 % 0,800 64,5030 % 0,900 64,1734 % 1,000 64,1227 % 1,200 64,1481 % 1,500 63,2860 % 2,000 59,8631 %

Tabulka 4.4: Úspˇeˇsnost systému pro r˚uzné hodnoty parametru min dev, pˇri konstantn´ıch zbylých parametrech. Mˇeˇreno na datové sadˇe Senseval-3.

Hodnota parametru min_count Uspˇ´ eˇsnost

0,5 59,6349 % 1,5 64,5030 % 2,5 63,3874 % 3,5 62,5761 % 4,5 60,7759 %

Tabulka 4.5: Úspˇeˇsnost systému pro r˚uzné hodnoty parametru min count, pˇri konstantn´ıch zbylých parametrech. Mˇeˇreno na datové sadˇe Senseval-3.

Ze vˇsech uvedených tabulek je vidˇet, ˇze vhodným nastaven´ım parametr˚u lze doc´ılit zvýˇsen´ı úspˇeˇsnosti programu. Nejzásadnˇejˇs´ı vliv na úspˇeˇsnost programu má parametr µ

(29)

Kapitola 5

Vyhodnocen´ı a v´

ysledky syst´

emu

V této kapitole budou uvedeny nejpouˇz´ıvanˇejˇs´ı metody vyhodnocován´ı systém˚u pro zjed-noznaˇcˇnován´ı slovn´ıch význam˚u. Bude provedeno vyhodnocen´ı mého systému podle stan-dardn´ıch metrik na konferenc´ıch Senseval-3 a Semeval-1. Je zde uveden pˇr´ıklad selhán´ı naivn´ıho Bayesova klasifikátoru na konkrétn´ı instanci datové sady Senseval-3. V pˇr´ıkladˇe se pokus´ım zjistit pˇr´ıˇciny selhán´ı tohoto klasifikátoru. Na závˇer následuje krátký popis systému po technické stránce. Informace o metodách vyhodnocován´ı jsou pˇrevzaty z [2].

5.1

Zp˚

usoby vyhodnocov´

an´ı zjednoznaˇ

cˇ

nov´

an´ı slovn´ıch v´

y-znam˚

u

Pro vyhodnocován´ı systém˚u vykonávaj´ıc´ıch zjednoznaˇcˇnován´ı slovn´ıch význam˚u se pouˇz´ıvá nˇekolik metod. Narozd´ıl od jiných problém˚u z oblasti zpracován´ı pˇrirozeného jazyka zde prozat´ım jeˇstˇe nebyla stanovana ˇzádná pˇresná pravidla, podle kterých by se mˇelo vyhod-nocován´ı ˇr´ıdit. Mnoz´ı výzkumn´ıci nebo skupiny pracuj´ıc´ı v tomto odvˇetv´ı maj´ı stanoveny vlastn´ı zp˚usoby vyhodnocován´ı, které se od zp˚usob˚u jiných skupin liˇs´ı.

5.1.1 Vyhodnocován´ı zaloˇzené na poˇctu správnˇe urˇcených význam˚u

Mezi nejjednoduˇsˇs´ı a zároveˇn nejpouˇz´ıvanˇejˇs´ı zp˚usoby vyhodnocován´ı patˇr´ı metoda vych´ a-zej´ıc´ı z následuj´ıc´ıho vzorce:

´

uspˇeˇsnost = poˇcet správnˇe urˇcených význam˚u celkový poˇcet urˇcovaných slov

Tato metoda ovˇsem pˇrináˇs´ı do vyhodnocován´ı jisté nevýhody. Uvaˇzujme napˇr. následuj´ıc´ı text:

. . . bought an interest in Lydak Corp. . . .

Pˇredstavme si nyn´ı následuj´ıc´ı pˇriˇrazen´ı pravdˇepodobnost´ı vˇsem význam˚um pomoc´ı ˇctyˇr hypotetických systém˚u, které zobrazuje tabulka5.1.

(30)

Syst´em V´yznam 1 2 3 4 (1) monetary 0,47 0,85 0,28 1,00 (2) stake of share 0,42 0,05 0,24 0,00 (3) benefit/advantage/sake 0,06 0,05 0,24 0,00 (4) intellectual curiosity 0,05 0,05 0,24 0,00

Tabulka 5.1: Úspˇeˇsnosti hypotetických systém˚u.

Je patrné, ˇze ani jeden ze zvaˇzovaných hypotetických systém˚u neurˇcil význam slova v uvedené vˇetˇe správnˇe. Správný význam ve vˇetˇe je význam s ˇc´ıslem 2. Vid´ıme, ˇze vˇsechny systémy zvolily význam ˇc. 1. Podle výˇse uvedeného kritéria vyhodnocován´ı tedy maj´ı v uve-deném pˇr´ıpadˇe vˇsechny systémy úspˇeˇsnost 0 %. Pod´ıváme-li se bl´ıˇze na pravdˇepodobnosti pˇriˇrazené jednotlivým význam˚um systémy, vid´ıme, ˇze systém ˇc. 1 pˇriˇradil správnému v´ y-znamu nejvˇetˇs´ı pravdˇepodobnost ze vˇsech systém˚u. Od urˇcen´ı správného významu slova ho nav´ıc dˇelil pouze malý krok. Ostatn´ı systémy vˇzdy silnˇe preferovaly pouze jeden význam, nebo urˇcily velmi podobné pravdˇepodobnosti pro vˇsechny moˇzné významy. Je velmi vhodné, aby systém urˇcitým zp˚usobem vyjadˇroval d˚uvˇeru, kterou jednotlivým význam˚um pˇrikládá. Tato vlastnost je d˚uleˇzitá, pokud bychom chtˇeli výstupy tˇechto systém˚u pouˇz´ıt jako vstupy nˇejakého jiného systému pracuj´ıc´ıho s pravdˇepodobnostmi. V takovém pˇr´ıpadˇe by systém ˇ

c. 1 vyhovoval nejv´ıce.

5.1.2 Vyhodnocován´ı zaloˇzené na kˇr´ıˇzové entropii

Tento problém ˇreˇs´ı zp˚usob vyhodnocován´ı zaloˇzený na kˇr´ıˇzové entropii. Úspˇeˇsnost systému je zde poˇc´ıtána podle následuj´ıc´ıho vzorce:

−1 N N X i=1 log2Ps(csi |wi, contexti),

kdeN je poˇcet testovac´ıch instanc´ı,Psje pravdˇepodobnost pˇriˇrazená správnému významu

csi v´ıcevýznamového slova wi v kontextu contexti systémem s. T´ımto zp˚usobem bude

systému ˇc. 1 pˇriˇrazeno vˇetˇs´ı ohodnocen´ı, protoˇze správnému významu pˇriˇradil velkou prav-dˇepodobnost na rozd´ıl od ostatn´ıch systém˚u. Následuje tabulka5.2s vyhodnocen´ım úspˇeˇ s-nost´ı pomoc´ı tohoto kritéria.

Syst´em Metoda kˇr´ıˇzov´e entropie 1 2 3 4

ohodnocen´ı 1,25 4,32 2,05 ∞

Tabulka 5.2: Ohodnocen´ı hypotetických systém˚u pomoc´ı kˇr´ıˇzové entropie.

Pro interpretaci ohodnocen´ı je potˇreba si uvˇedomit, ˇze nejlepˇs´ı ohodnocen´ı zde pˇ redsta-vuje nejmenˇs´ı z hodnot. Vid´ıme, ˇze se zde ukázal podle oˇcekáván´ı nejúspˇeˇsnˇejˇs´ı systém ˇc. 1. Systém ˇc. 4, který dal správnému významu pravdˇepodobnost rovnu nule, má pˇri tomto zp˚usobu vyhodnocován´ı nejmenˇs´ı ohodnocen´ı.

(31)

Je tˇreba si uvˇedomit, ˇze mnoho systém˚u nen´ı schopno urˇcit pravdˇepodobnost pro kaˇzdý význam. V takovém pˇr´ıpadˇe je nutné pouˇz´ıt nˇejakých alternativn´ıch zp˚usob˚u, které jsou uvedeny napˇr´ıklad v [2].

5.1.3 Granularita rozliˇsov´an´ı v´yznam˚u

Dalˇs´ım problémem vyskytuj´ıc´ım se pˇri vyhodnocován´ı systém˚u je existence r˚uzných s´ e-mantických nebo komunikativn´ıch vazeb mezi jednotlivými významy. Je zˇrejmé, ˇze r˚uzná v´ıcevýznamová slova maj´ı nˇekteré významy podobné. Je proto vhodné významy uspoˇrádat do jisté hierarchické struktury. Ukázkou takové struktury m˚uˇze být napˇr. tabulka 5.3

v´yznam˚u pro anglick´e slovobank.

I Bank -REPOSITORY I.1 Financial Bank

I.1a - the institution I.1b - the building II Bank -GEOGRAPHICAL

II.1 Shoreline

II.2 Ridge/Embankment III Bank -ARRAY/GROUP/ROW

Tabulka 5.3: Hierarchick´a struktura v´yznam˚u slova bank.

Je vhodné pˇri vyhodnocován´ı brát ohled na tento fakt a zavést urˇcitý zp˚usob penalizace reflektuj´ıc´ı toto hierarchické uspoˇrádán´ı. Pokud systém urˇc´ı význam, který patˇr´ı do stejné kategorie nebo podkategorie, mˇela by být penalizace menˇs´ı, neˇz pokud systém urˇc´ı ne-správný význam patˇr´ıc´ı do úplnˇe jiné kategorie. Penalizaci pak m˚uˇzeme provádˇet napˇr. na základˇe penalizaˇcn´ı matice, kterou urˇc´ıme pro kaˇzdé v´ıcevýznamové slovo. Matice pro slovo bankm˚uˇze vypadat následovnˇe:

I.1a I.1b I.2 II.1 II.2 III

I.1a 0 1 2 4 4 4 I.1b 1 0 2 4 4 4 I.2 2 2 0 4 4 4 II.1 4 4 4 0 1 4 II.2 4 4 4 1 0 4 III 4 4 4 4 4 0

Tabulka 5.4: Penalizaˇcn´ı matice pro v´yznamy slova bank.

Rozliˇsován´ı význam˚u na úrovni jemné granularity nijak nezohledˇnuje hierarchickou strukturu vˇsech význam˚u. Pro správné urˇcen´ı významu je nutné urˇcit i jeho konkrétn´ı podskupinu. To vede k výraznému sn´ıˇzen´ı úspˇeˇsnosti systému. Obzvláˇstˇe pak pokud nej-sou pouˇzity dalˇs´ı metody zohledˇnuj´ıc´ı pravdˇepodobnosti, které systém pˇridˇelil jednotlivým význam˚um. Na druhé stranˇe stoj´ı rozliˇsován´ı význam˚u na úrovni hrubé granularity snaˇz´ıc´ı se urˇcitým zp˚usobem zvýhodnit podobnosti nˇekterých význam˚u. ˇCasto se to provád´ı tak, ˇ

ze se ze skuteˇcných existuj´ıc´ıch významových skupin vytvoˇr´ı nové skupiny, které vznikaj´ı slouˇcen´ım nˇekolika skupin p˚uvodn´ıch a reflektuj´ı tak podobnosti nˇekterých význam˚u. Pˇritom

(32)

nen´ı nikde uvedeno do kolika významových skupin se maj´ı p˚uvodn´ı významy slouˇcit. Tento zp˚usob nen´ı tak dokonalý jako napˇr. u penalizaˇcn´ı matice, ale je to urˇcitý krok kupˇredu. S t´ımto zp˚usobem vyhodnocován´ı se m˚uˇzeme setkat i pˇri vyhodnocován´ı výsledk˚u soutˇeˇz´ı v rámci konferenc´ı Senseval-3 a Semeval-1. R˚uzná úroveˇn granularity pˇri rozliˇsován´ı význam˚u má velký vliv na vyhodnocován´ı.

5.1.4 Konference Senseval (Semeval)

Senseval je mezinárodn´ı konference poˇrádaná organizac´ı ACL-SIGLEX zabývaj´ıc´ı se probl´ e-my zjednoznaˇcˇnován´ı slovn´ıch význam˚u. Jej´ım úˇcelem je zkoumán´ı silných a slabých stránek systém˚u zabývaj´ıc´ıch se touto problematikou. Senseval-3 je otevˇrená konference a m˚uˇze se j´ı zúˇcastnit kdokoliv. Poskytuje jednotná data a zp˚usoby jejich vyhodnocován´ı. Letos se v Praze koná jiˇz 4. roˇcn´ık této konference, která nese název Senseval-4/Semeval-1 a jiˇz nen´ı zamˇeˇrena pouze na zjednoznaˇcˇnován´ı slovn´ıch význam˚u. Snaˇz´ı se ˇreˇsit i jiné problémy sémantického zpracován´ı pˇrirozeného jazyka. Mezi nˇekteré zaj´ımavé problémy patˇr´ı napˇr. klasifikace sémantických rol´ı, v´ıceúrovˇnová sémantická anotace katalánˇstiny a ˇspanˇelˇstiny, rozliˇsován´ı metonymi´ı nebo extrakce sémantických struktur. Do soutˇeˇze v rámci této konfer-ence jsem se zapojil i já se svým systémem pˇri ˇreˇsen´ı problému zjednoznaˇcˇnován´ı vybraných v´ıcevýznamových slov pro angliˇctinu.

5.2

Diskuze v´

ysledk˚

u

V této podkapitole se pokus´ım provést zhodnocen´ı systému pro pouˇzité datové sady. Jsou zde uvedeny úspˇeˇsnosti i pro jiné systémy na datové sadˇe Semeval-1.

5.2.1 V´ysledky syst´emu

Systém byl testován na dvou datový sadách pocházej´ıc´ıch z konferenc´ı Senseval-3 a Semeval-1.

Datová sada pro Senseval-3 poskytuje dodateˇcné informace umoˇzˇnuj´ıc´ı vyhodnocován´ı na r˚uzné úrovni granularity. Protoˇze m˚uj systém tyto informace nevyuˇz´ıvá, je provádˇeno pouze vyhodnocován´ı pro jemnou granularitu. U tohoto zp˚usobu bylo dosaˇzeno nejlepˇs´ı ´

uspˇeˇsnosti 64,5030%. Bohuˇzel mi nejsou známy výsledky jiných systém˚u pro tuto datovou sadu, takˇze nen´ı moˇzné provést nˇejaké objektivn´ı srovnán´ı. Uváˇz´ıme-li, ˇze vyhodnocován´ı je provádˇeno tou nejjednoduˇsˇs´ı moˇznou metodou, kdy se pˇri zpracován´ıˇreˇsen´ı neberou v potaz ˇ

zádné pravdˇepodobnosti ani hierarchie význam˚u, je takový výsledek docela oˇcekávaný. Datová sada pro Semeval-1 se od Senseval-3 liˇs´ı t´ım, ˇze umoˇzˇnuje pouze vyhodnocován´ı zaloˇzené na hrubé granularitˇe význam˚u. Systém zde rozhoduje mezi pseudo-skupinami, které jsou vytvoˇreny slouˇcen´ım nˇekolika podobných význam˚u pˇrevzatých ze sémantického lexikonu WordNet. Vyhodnocován´ı zde nen´ı, stejnˇe jako u Senseval-3, zaloˇzeno na zohledˇ no-ván´ı pˇriˇrazené pravdˇepodobnosti správnému významu, ale pouze na pˇriˇrazeném významu. Pro tuto datovou sadu bylo dosaˇzeno pr˚umˇerné úspˇeˇsnosti 82,1892%. Podle oˇcekáván´ı je ´

uspˇeˇsnost systému výraznˇe lepˇs´ı neˇz u pˇredeˇslé datové sady. Na této datové sadˇe byla zaloˇzena i soutˇeˇz v rámci letoˇsn´ı konference Semeval-1, které se systém zúˇcastnil. Protoˇze vyhodnocován´ı konference prob´ıhalo v dobˇe, kdy systém jeˇstˇe nebyl zcela hotov, nebyla tehdy úspˇeˇsnost tak velká. Na soutˇeˇzi obsadil 8. m´ısto z 13 systém˚u s úspˇeˇsnost´ı 80,3%. Následuje tabulka5.5 srovnán´ı úspˇeˇsnost´ı systému v soutˇeˇzi na konferenci Semeval-1.

(33)

Poˇrad´ı Uspˇ´ eˇsnost 1. 88,7 % 2. 86,9 % 3. 86,4 % 4. 85,7 % 5. 85,1 % 6. 85,1 % 7. 83,8 % 8. 80,3 % 9. 79,9 % 10. 79,6 % 11. 74,3 % 12. 53,8 % 13. 52,1 %

Tabulka 5.5: Úspˇeˇsnosti systém˚u pro zjednoznaˇcˇnován´ı vybraných v´ıcevýznamových slov pro angliˇctinu na soutˇeˇzi v rámci konference Semeval-1.

5.2.2 Srovn´an´ı obou implementovan´ych algoritm˚u

Nejprve se zamˇeˇr´ım na srovnán´ı úspˇeˇsnost´ı dvou implementovaných metod. Je to