Multilingual Phoneme Recognizer

(1)

VYSOK ´

E U ˇ

CEN´I TECHNICK ´

E V BRN ˇ

E

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA ˇ

CN´ICH TECHNOLOGI´I

´

USTAV PO ˇ

C´ITA ˇ

COV ´

E GRAFIKY A MULTIM ´

EDI´I

FACULTY OF INFORMATION TECHNOLOGY

DEPARTMENT OF COMPUTER GRAPHICS AND MULTIMEDIA

V´ICEJAZYKOV ´

Y FON ´

EMOV ´

Y ROZPOZN ´

AVA ˇ

C

DIPLOMOV ´

A PR ´

ACE

MASTER’S THESIS

AUTOR PR ´

ACE

Bc. VOJT ˇ

ECH VOBR

AUTHOR

(2)

VYSOK ´

E U ˇ

CEN´I TECHNICK ´

E V BRN ˇ

E

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA ˇ

CN´ICH TECHNOLOGI´I

´

USTAV PO ˇ

C´ITA ˇ

COV ´

E GRAFIKY A MULTIM ´

EDI´I

FACULTY OF INFORMATION TECHNOLOGY

DEPARTMENT OF COMPUTER GRAPHICS AND MULTIMEDIA

V´ICEJAZYKOV ´

Y FON ´

EMOV ´

Y ROZPOZN ´

AVA ˇ

C

MULTILINGUAL PHONEME RECOGNIZER

DIPLOMOV ´

A PR ´

ACE

MASTER’S THESIS

AUTOR PR ´

ACE

Bc. VOJT ˇ

ECH VOBR

AUTHOR

VEDOUC´I PR ´

ACE

Ing. IGOR SZ ¨

OKE

SUPERVISOR

(3)

(4)

(5)

(6)

Abstrakt

C´ılem, této diplomové práce je natrénovat fonémový rozpoznávaˇc s fonémovou sadou, která vznikla spojen´ım fonémových sad jazyk˚u obsaˇzených v databázi SpeechDat-E a zjistit, zda takovýto rozpoznávaˇc bude podávat lepˇs´ı výsledky neˇz rozpoznávaˇce natrénované pouze pro jediný jazyk. Tato práce pojednává o fonémových sadách, principech rozpoznáván´ı jednot-livých foném˚u pomoc´ı rozpoznávaˇc˚u zaloˇzených na neuronových s´ıt´ıch, dále o zp˚usobech roz-poznáván´ı a identifikace mluveného jazyka a také o spojován´ı fonémových sad jednotlivých jazyk˚u. Dále je zde popsán postup trénován´ı fonémového rozpoznávaˇce a rozpoznáván´ı foném˚u.

Kl´ıˇcov´

a slova

Fonémy, IPA, International Phonetic Alphabet, SAMPA, LID, Identifikace jazyka, PRLM, PPRLM, HTK, STK, Rozpoznávan´ı foném, Spojován´ı fonémových sad, Neuronové s´ıtˇe

Abstract

Aim, of this master thesis is training of phoneme recognizer with phoneme set, which have been made by merging of several phoneme sets, which are containted in SpeechDat-E data-base and find out if this kind of recognizer will have better results than recognizers which were trained on one language. This work also deals with phoneme sets, principles of phoneme recognition using recognizers based on artifical neural networks, language identification and merging of given phoneme sets. Also is described process of training phoneme recognizer and phoneme recognition.

Keywords

Phonemes, IPA, International Phonetic Alphabet, SAMPA, LID, Language identification, PRML, PPRLM, HTK, STK, Phoneme recognizing, Merging of phoneme sets, Neural ne-tworks

Citace

Vojtˇech Vobr: V´ıcejazykový fonémový rozpoznávaˇc, diplomová práce, Brno, FIT VUT v Brnˇe, 2007

(7)

V´ıcejazykov´

y fon´emov´

y rozpozn´

avaˇc

Prohl´

aˇsen´ı

Prohlaˇsuji, ˇze jsem tuto diplomovou pr´aci vypracoval samostatnˇe pod veden´ım pana Ing. Igora Sz¨okeho

. . . . Vojtˇech Vobr 22. kvˇetna 2007

Podˇekov´

an´ı

Chtˇel bych podˇekovat svému vedouc´ımu Igoru Szökemu za cenné rady a také Pavlu Matˇejkovi za pomoc pˇri identifikaci jazyka.

Tato práce vznikla jako ˇskoln´ı d´ılo na Vysokém uˇcen´ı technickém v Brnˇe, Fakultˇe in-formaˇcn´ıch technologi´ı. Práce je chránˇena autorským zákonem a jej´ı uˇzit´ı bez udˇelen´ı oprávnˇen´ı autorem je nezákonné, s výjimkou zákonem definovaných pˇr´ıpad˚u.

(8)

Obsah

1 Uvod´ 3

2 Rozpoznáván´ı foném˚u 5

2.1 Hl´aska, Fon´em, Alofon . . . 5

2.1.1 Rozdˇelen´ı hl´asek . . . 5

2.1.2 International Phonetic Alphabet (IPA) . . . 6

2.1.3 SAM Phonetic Alphabet (SAMPA) . . . 6

2.2 Fonémové rozpoznávaˇce . . . 7

2.3 Pˇr´ıprava sign´alu . . . 7

2.3.1 Rozdˇelen´ı na r´amce a pˇredzpracov´an´ı . . . 8

2.3.2 Anal´yza s pomoc´ı banky filtr˚u . . . 8

2.4 Neuronov´e s´ıtˇe . . . 10

2.4.1 Umˇel´y neuron . . . 10

2.4.2 Tˇr´ıvrstvá dopˇredná neuronová s´ıt’ . . . 11

2.4.3 Tr´enov´an´ı s´ıt´ı . . . 12

2.5 Rozpoznáván´ı foném˚u . . . 13

2.5.1 Dekod´er . . . 13

3 Prostˇred´ı a pouˇzité nástroje 15 3.1 HTK . . . 15 3.1.1 HCopy . . . 15 3.1.2 HLEd . . . 16 3.1.3 HResults . . . 16 3.2 STK . . . 16 3.2.1 SFeaCat . . . 16 3.2.2 SVite . . . 16 3.2.3 SNet . . . 17 4 Trénován´ı 18 4.1 Pˇr´ıprava dat . . . 18

4.1.1 Zjiˇstˇen´ı fon´em˚u v dan´em jazyce . . . 18

4.1.2 Parametrizace . . . 19

4.2 Tr´enov´an´ı s´ıt´ı . . . 20

4.2.1 Konfigurace tr´enov´an´ı . . . 21

4.2.2 Spuˇstˇen´ı tr´enov´an´ı . . . 22

4.2.3 Postup tr´enov´an´ı . . . 22

4.3 Zjiˇstˇen´ı úspˇeˇsnosti fonémového rozpoznávaˇce . . . 22

4.3.1 Pˇr´ıprava na rozpozn´av´an´ı . . . 23

(9)

4.3.2 Rozpoznáván´ı a výpoˇcet úspˇeˇsnosti . . . 25

4.4 Upravy nutn´´ e pro trénován´ı v´ıcejazykového rozpoznávaˇce . . . 26

4.4.1 Upravy ve f´´ azi pˇr´ıprav . . . 26

4.4.2 Upravy ve f´´ azi tr´enov´an´ı . . . 27

4.4.3 Upravy pˇ´ ri rozpozn´av´an´ı . . . 27

4.5 Pouˇzit´e parametry . . . 28

5 Spojen´ı fonémových sad 29 5.1 Fonémové sady jednotlivých jazyk˚u . . . 29

5.1.1 Ceˇˇ stina . . . 30 5.1.2 Mad’arˇstina . . . 30 5.1.3 Slovenˇstina . . . 31 5.1.4 Polˇstina . . . 31 5.1.5 Ruˇstina . . . 32 5.2 Spojen´ı sad . . . 32

5.3 Upravy spojen´´ e fon´emov´e sady . . . 33

5.4 V´ysledky rozpozn´avaˇce . . . 34

6 Identifikace jazyka 36 6.1 Jazykov´y model . . . 37

6.2 Identifikace jazyka . . . 37

(10)

Kapitola 1

´

Uvod

Posledn´ı dobou se do popˇred´ı zájmu dostávaj´ı aplikace zaloˇzené na rozpoznáván´ı ˇreˇci ˇ

ci hledán´ı kl´ıˇcových slov v souvislé ˇreˇci. Mezi vyuˇzit´ı rozpoznáván´ı jazyka m˚uˇze patˇrit napˇr´ıklad systém na t´ısˇnové lince, který volaj´ıc´ıho po nˇekolika slovech pˇrepoj´ı na správného operátora ovládaj´ıc´ıho daný jazyk. Hledán´ı kl´ıˇcových slov je také velmi d˚uleˇzité, mezi apli-kacemi vyuˇz´ıvaj´ıc´ı toto hledán´ı m˚uˇzeme nalézt ovládán´ı software v poˇc´ıtaˇci pomoc´ı hlasu, hlasové vytáˇcen´ı ˇc´ısel v mobiln´ım telefonu ˇci r˚uzná dalˇs´ı usnadnˇen´ı od telefonn´ı ústˇredny ovládané hlasem po ovládán´ı pˇr´ısluˇsenstv´ı auta aby se ˇridiˇc mohl plnˇe vˇenovat ˇr´ızen´ı.

Obˇe tyto aplikace mohou být zaloˇzeny na fonémovém rozpoznávaˇci, ze kterého je výstup v pˇr´ıpadˇe identifikace jazyka nasmˇerován do fonotaktických jazykových model˚u pro r˚uzné jazyky, ze kterých dostaneme pravdˇepodobnost jazyka. V pˇr´ıpadˇe vyhledáván´ı kl´ıˇcových slov mohou být na výstupu z fonémového rozpoznávaˇce pouˇzity specializované vyhledávac´ı algoritmy pro vyhledán´ı daných slov. Klasické vyhledávac´ı algoritmy nelze pouˇz´ıt napˇr´ıklad proto, ˇze vyhledávaˇc mus´ı brát v úvahu, ˇze fonémový rozpoznávaˇc má jistou m´ıru ˇspatnˇe roz-poznaných foném˚u a proto se ˇretˇezec rozpoznaných foném˚u m˚uˇze liˇsit od pˇredpokládaného výsledku. Tato práce se zabývá fonémovými rozpoznávaˇci zaloˇzenými na neuronových s´ıt´ıch a identifikac´ı jazyka s pouˇzit´ım právˇe takovýchto rozpoznávaˇc˚u.

D˚uvodem proˇc vytvoˇrit v´ıcejazykový fonémový rozpoznávaˇc je napˇr´ıklad nároˇcnost trénován´ı rozpoznávac´ıho systému. Kvalitn´ı natrénován´ı rozpoznávaˇce na daný jazyk je ˇ

casovˇe i výpoˇcetnˇe nároˇcná ˇcinnost, která potˇrebuje i dostateˇcnˇe velkou databázi ˇreˇci v daném jazyce. Spojen´ım v´ıce jazyk˚u z´ıskáme vˇetˇs´ı databázi, takˇze budeme moci lépe natrénovat i fonémy, které jsou v jednom jazyce málo pouˇz´ıvané. Tyto fonémy nemaj´ı v dané jazykové databázi dostatek záznam˚u pro kvalitn´ı natrénován´ı, ale spojen´ım v´ıce jazykových databáz´ı jiˇz m˚uˇzeme dostat dostatek dat pro jejich kvalitn´ı natrénován´ı. Dalˇs´ım zaj´ımavým pˇr´ınosem v´ıcejazykového fonémového rozpoznávaˇce je i moˇznost rozpoznáván´ı neznámých (nenatrénovaných) jazyk˚u, protoˇze rozpoznávaˇc byl trénován na velkém mnoˇzstv´ı dat r˚ uz-ných jazyk˚u a má vˇetˇs´ı ˇsanci správnˇe rozpoznat fonémy i z neznámého jazyka.

Dalˇs´ım d˚uvodem je opˇet výpoˇcetn´ı a pamˇet’ová nároˇcnost ve v´ıcejazykových rozpozn´ ava-ˇ

c´ıch, kdy je v klasickém pˇr´ıpadˇe jeden rozpoznávaˇc pro kaˇzdý jazyk. V pˇr´ıpadˇe v´ıcejazykového fonémového rozpoznávaˇce, který by rozpoznával vˇsechny jazyky najednou by se mohla sn´ıˇzit tato nároˇcnost a pˇr´ıpadnˇe tento uˇsetˇrený výkon pouˇz´ıt na zkvalitnˇen´ı rozpoznáván´ı.

Tato diplomová práce navazuje na semestráln´ı práci, ve které byly popsány teore-tické základy fonémového rozpoznávaˇce a navrhnuta spojená fonémová sada. C´ılem této fonémové práce je nauˇcit fonémové rozpoznávaˇce s novou fonémovou sadou, tuto fonémovou sadu dále upravit tak, aby byly rozpoznány fonémy s co nejvˇetˇs´ı úspˇeˇsnost´ı a dále tuto vy-tvoˇrenou fonémovou sadu otestovat na nˇejaké aplikaci, napˇr´ıklad rozpoznáván´ı jazyka.

(11)

Ve druhé kapitole bude popsán princip funkce fonémových rozpoznávaˇc˚u a popis celého procesu rozpoznáván´ı, dále popis pouˇz´ıvaných fonémových abeced a také základy o tvorbˇe ˇreˇci. Tˇret´ı kapitola popisuje prostˇred´ı a nástroje, které byly pouˇzity pˇri trénován´ı a roz-poznáván´ı. Ve ˇctvrté kapitole je popsán postup, jakým byly natrénovány s´ıtˇe pro jednotlivé jazyky i úpravy, které byly nutné pro natrénován´ı rozpoznávaˇce se spojenou fonémovou sadou. Dalˇs´ı, pátá kapitola, se vˇenuje fonémovým sadám jednotlivých jazyk˚u a také spo-jen´ı tˇechto jazykových sad. ˇSestá kapitola popisuje identifikaci jazyka a dosaˇzené výsledky. Posledn´ı sedmou kapitolou této práce je závˇer, ve kterém je sepsáno zhodnocen´ı této práce a dosaˇzených výsledk˚u.

(12)

Kapitola 2

Rozpozn´

av´

an´ı fon´

em˚

u

Rozpoznáván´ı foném˚u provád´ıme z nˇekolika d˚uvod˚u. Mezi nejzaj´ımavˇejˇs´ı úkoly vyuˇz´ıvaj´ıc´ı rozpoznáván´ı foném˚u patˇr´ı vyhledáván´ı kl´ıˇcových slov, identifikace jazyka ˇci indexace a vyhledáván´ı ve zvukových datech. Kvalita tˇechto aplikac´ı do znaˇcné m´ıry závis´ı právˇe na kvalitˇe tohoto rozpoznáván´ı [1].

V této kapitole bude popsán foném, fonémové sady, bude také popsán postup pˇr´ıpravy zvukového signálu pro rozpoznávaˇc, princip neuronových s´ıt´ı, které v rozpoznávaˇci pln´ı ´

ulohu klasifikátoru a nakonec princip rozpoznáván´ı zvukových dat pomoc´ı tohoto roz-poznávaˇce.

2.1 Hl´

aska, Fon´

em, Alofon

Nejmenˇs´ı ˇcásti ˇreˇci, na kterou lze ˇreˇc rozdˇelit jsou hlásky. Kaˇzdá hláska je urˇcitý segment ˇreˇci, který má urˇcité typické vlastnosti, napˇr´ıklad stejnou frekvenci. Fonémem je taková hláska, která je schopna rozliˇsovat r˚uzná slova mezi sebou, pˇri zmˇenˇe nˇekterého fonému ve slovˇe se tedy zmˇen´ı význam daného slova, nebo se z nˇej stane nesmyslné slovo. Poˇcet foném˚u v jednotlivých jazyc´ıch je omezen, obvyklý rozsah je od 12 do 60 foném˚u, napˇr´ıklad v ˇceˇstinˇe je celkem 36 r˚uzných foném˚u a angliˇctina pouˇz´ıvá 40 foném˚u.

Alofon jedno z moˇzných zvukových vyjádˇren´ı urˇcitého fonému. Výslovnost foném˚u bývá ovlivˇnována pozic´ı fonému ve slovˇe ˇci okoln´ıch fonémech. Pˇr´ıkladem alofonu v ˇceˇstinˇe m˚uˇze být napˇr´ıklad výslovnost p´ısmene n ve slovech banka [baNka] a noc /nots/. Aˇckoliv se jedná o dvˇe r˚uzné hlásky, neexistuj´ı v ˇceˇstinˇe dvˇe r˚uzná slova, která by byla rozliˇsována pouze zámˇenou tˇechto dvou hlásek, nejsou to tedy nezávislé fonémy, ale [N] je v tomto pˇr´ıpadˇe alofonem /n/. Existuj´ı jazyky, ve kterých jsou tyto hlásky rozliˇsovány, pˇr´ıkladem mohou být v angliˇctinˇe slova sun /s2n/ a sung /s2N/.

Pro rozliˇsen´ı zda se jedná o nezávislé fonémy nebo jde o alofony se obvykle nacház´ı tzv. minimáln´ı páry, které se liˇs´ı právˇe v daných hláskách. Pˇr´ıkladem takovéhoto minimáln´ıho páru mohou být slova b´ıt /bi:t/ a p´ıt /pi:t/, pro rozliˇsen´ı foném˚u /b/ a /p/. Obvykle jednomu fonému odpov´ıdá jeden grafém (nejmenˇs´ı jednotka psaného jazyka), i kdyˇz se i zde najde nˇekolik vyj´ımek, napˇr´ıklad ˇceské p´ısmeno c jsou dva fonémy /ts/.

2.1.1 Rozdˇelen´ı hl´asek

Hlásky mohou být rozdˇeleny podle nˇekolika vlastnost´ı. Napˇr´ıklad podle frekvenˇcn´ıho spek-tra dané hlásky, zp˚usobu ˇci m´ıstˇe kde se hláska vytváˇr´ı v hlasovém ústroj´ı, délce trván´ı

(13)

hlásky ˇci jiných obdobných vlastnostech. Jako výchoz´ı rozdˇelen´ı hlásek slouˇz´ı rozdˇelen´ı na souhlásky a samohlásky.

Souhlásky jsou hlásky, které jsou charakterizovány ˇsumem, který vzniká urˇcitým posta-ven´ım ˇci pohybem mluvidel. Pˇri vyslovován´ı souhlásek je v cestˇe vzduchu v´ıce pˇrekáˇzek, napˇr´ıklad ménˇe otevˇrená ústa neˇz v pˇr´ıpadˇe samohlásek, d´ıky tˇemto pˇrekáˇzkám mohou vznikat r˚uzné turbulence, coˇz vytváˇr´ı ˇsum. Mezi hlavn´ı rysy, pomoc´ı kterých se souhlásky dˇel´ı do skupin je rozdˇelen´ı podle m´ısta artikulace, tj. m´ısta, které má s danou souhláskou co do ˇcinˇen´ı (bilabiáln´ı, labiodentáln´ı, lingvolabiáln´ı, interdentáln´ı, dentáln´ı, alveolárn´ı, po-stalveoráln´ı, retroflexivn´ı, palatáln´ı, velárn´ı, uvulárn´ı, faryngáln´ı, epiglotáln´ı, glotáln´ı) a rozdˇelen´ı podle zp˚usobu artikulace, tj. zp˚usobu jakým je souhláska vyslovována (frikativy, explozivy, afrikáty, nazály, aproximanty, vibranty, verberanty).

Samohlásky jsou naproti tomu hlásky, které jsou charakterizovány urˇcitým tónem. Mezi hlavn´ı rysy, kterými lze popsat samohlásky patˇr´ı otevˇrenost, poloha jazyka a tvar rt˚u. Otevˇrenost´ı se mysl´ı úhel, mezi spodn´ım a horn´ım patrem, je ˇcasté dˇelen´ı na otevˇrené, polootevˇrené, polozavˇrené a zavˇrené. Podle otevˇrenosti je také brána vertikáln´ı poloha jazyka, kdy u otevˇrených samohlásek je jazyk n´ıˇze neˇz u zavˇrených samohlásek. Horizontáln´ı poloha jazyka má na výslovnost samohlásek také vliv, tento zp˚usob dˇel´ı samohlásky na pˇredn´ı, stˇredn´ı a zadn´ı.

2.1.2 International Phonetic Alphabet (IPA)

V pˇrekladu Mezinárodn´ı Fonémová Abeceda je systém pro standardizovaný a jedineˇcný zápis zvuk˚u jakéhokoliv mluveného jazyka a je dennˇe pouˇz´ıván lingvisty, pˇrekladateli, uˇciteli ciz´ıch jazyk˚u a jinými [3].

Základn´ım c´ılem IPA je poskytovat jeden symbol pro kaˇzdý zvuk nebo ˇcást ˇreˇci. IPA tedy pouˇz´ıvá kombinace p´ısmen jen v pˇr´ıpadˇe, ˇze zapisovaný zvuk lze povaˇzovat za sekvenci nˇekolika jiných zvuk˚u. Kaˇzdý symbol (p´ısmeno) lze ale nav´ıc modifikovat pomoc´ı znak˚u diakritiky nebo suprasegmentáln´ıch znak˚u. Ve výsledné nynˇejˇs´ı podobˇe má tedy IPA 107 základn´ıch symbolu a 55 modifikátor˚u. Vznikly i rozˇs´ıˇren´ı IPA, které zahrnuj´ı i vlastnosti které pˇr´ımo neovlivˇnuj´ı výsledné znˇen´ı jazyka, napˇr´ıklad skˇr´ıpán´ı zub˚u ˇci ˇsiˇslán´ı.

Symboly zvolené pro reprezentován´ı souhlásek byly vˇetˇsinou zvoleny podle výslovnosti ve vˇetˇsinˇe Evropy (pokud se schodovaly), pˇr´ıkladem mohou být souhlásky b, d, f, g, k, l, m, n, p, s, t, v, z, zbylé odpov´ıdaj´ı zvuk˚um, které reprezentuj´ı daná p´ısmena v r˚uzných jazyc´ıch. Samohlásky z latinské abecedy (a, e, i, o, u) odpov´ıdaj´ı výslovnosti tˇechto samohlásek ve ˇspanˇelˇstinˇe.

Vyuˇzit´ı IPA je napˇr´ıklad ve slovn´ıc´ıch ciz´ıch slov, kde je pomoc´ı IPA uvádˇena výslovnost ciz´ıch jazyk˚u. Vˇetˇsinou ale pro jednoduchost ˇcten´ı tˇechto slovn´ık˚u jsou symboly nahra-zovány obdobami z daného jazyka a napˇr´ıklad v ˇceských slovn´ıc´ıch se zápis IPA pouˇz´ıvá pouze pro znaky které nejsou v ˇceˇstinˇe.

Pˇr´ıklady zápisu slov pomoc´ı IPA mohou být napˇr´ıklad v ˇceˇstinˇe slovo vyˇcerpávaj´ıc´ı /vitSErpa:vaji:tsi:/ zat´ımco ve slovenˇstinˇe slovo vyˇcerpávali se zap´ıˇse jako /vitSerpa:vaLi/.

2.1.3 SAM Phonetic Alphabet (SAMPA)

Tato fonémová abeceda byla vytvoˇrena mezi lety 1988-91 skupinou výzkumn´ık˚u ˇreˇci z nˇ e-kolika Evropských zem´ı [4]. Hlavn´ım c´ılem této abecedy je vytvoˇrit mezinárodn´ı standard pro strojovˇe ˇcitelné fonémové zápisy pro úˇcely mezinárodn´ı spolupráce na výzkumu ˇreˇci. Aby bylo zaruˇceno ˇze nebudou vznikat nejasnosti pˇri r˚uzných kódován´ıch, je pro znaky SAMPA povoleno vyuˇz´ıvat pouze znaky s hodnotami 37-126 v ASCII. Ve stávaj´ıc´ı podobˇe

(14)

má SAMPA vˇsechny potˇrebné symboly pro zápis foném˚u vˇsech d˚uleˇzitých Evropských ja-zyk˚u.

Bohuˇzel se ale zápisy nˇekterých symbol˚u mohou v jednotlivých jazyc´ıch liˇsit a tak napˇr´ıklad symbol /e/ v ˇceˇstinˇe nemus´ı odpov´ıdat symbolu /e/ ve slovenˇstinˇe. Z tohoto d˚uvodu je nutné pˇri práci s v´ıce SAMPA zjistit nejlépe jejich mapován´ı na IPA která je pro kaˇzdý jazyk stejná.

Vˇetˇsinou symboly které byly v IPA malými p´ısmeny, tak jsou reprezentovány stejnými malými p´ısmeny i v SAMPA. Zbylé symboly jsou reprezentovány ostatn´ımi znaky v daném rozmez´ı ASCII, tyto znaky vˇetˇsinou alespoˇn ˇcásteˇcnˇe pˇripom´ınaj´ı odpov´ıdaj´ıc´ı symbol v IPA.

Pro odstranˇen´ı nejednoznaˇcnost´ı mezi r˚uznými národn´ımi SAMPA sadami byla vy-tvoˇrena sada X-SAMPA ve které je dáno pˇresné mapován´ı vˇsech IPA symbol˚u na X-SAMPA symboly a proto i pomoc´ı X-SAMPA lze teoreticky vyjádˇrit jakýkoliv svˇetový jazyk jako v pˇr´ıpadˇe sady IPA.

Pˇr´ıklady zápisu slov pomoc´ı SAMPA dáme stejné jako v pˇr´ıpadˇe IPA, tedy v ˇceˇstinˇe slovo vyˇcerpávaj´ıc´ı /vitSerpa:vaji:tsi:/ a ve slovenˇstinˇe slovo vyˇcerpávali /vitSerpa:vaLi/. Za zm´ınku stoj´ı, ˇze i kdyˇz vˇetˇsina schodných p´ısmen urˇcuje stejné fonémy, tak fonémy /e/ a /E/, které jsou v sadˇe IPA zapsány r˚uznými znaky, jsou v SAMPA zapsány schodnˇe p´ısmenem e. Je to zp˚usobeno d´ıky tomu, ˇze kaˇzdý jazyk má SAMPA sadu m´ırnˇe poupravenou aby pokud moˇzno jazyku vyhovovala co nejlépe.

2.2 Fon´

emov´

e rozpozn´

avaˇ

ce

Existuje nˇekolik druh˚u fonémových rozpoznávaˇc˚u, zaloˇzených na r˚uzných principech. Mezi nejznámˇejˇs´ı a nejpouˇz´ıvanˇejˇs´ı patˇr´ı rozpoznávaˇce zaloˇzené na dynamickém borcen´ı ˇcasové osy (DTW), dále pak rozpoznávaˇce pouˇz´ıvaj´ı skryté Markovovy modely (HMM) a nakonec také rozpoznávaˇce, které byly pouˇzity i v této práci, zaloˇzené na neuronových s´ıt´ıch.

Rozpoznávaˇce zaloˇzené na neuronových s´ıt´ıch maj´ı výhodu v tom, ˇze jsou schopné m´ıt na vstupu vˇetˇs´ı poˇcet parametr˚u, neˇz napˇr´ıklad u rozpoznávaˇc˚u se skrytými Markovovými modely, kde by velký poˇcet parametr˚u byl sice také moˇzný, ale také by takovéto uˇcen´ı bylo o dost sloˇzitˇejˇs´ı. Jelikoˇz mohou m´ıt na vstupu v´ıce parametr˚u, maj´ı tyto rozpoznávaˇce také vˇetˇs´ı mnoˇzstv´ı relevantn´ıch dat, která se vztahuj´ı k právˇe dekódovanému signálu, coˇz m˚uˇze vést pouze k lepˇs´ım výsledk˚um.

V dalˇs´ıch sekc´ıch jsou popsány jednotlivé ˇcásti procesu uˇcen´ı rozpoznávaˇce a následného rozpoznáván´ı foném˚u. Budou také popsány základn´ı principy trénován´ı neuronových s´ıt´ı.

2.3 Pˇ

r´ıprava sign´

alu

Pˇred zpracován´ım signálu neuronovou s´ıt´ı je potˇreba signál upravit tak, aby pokud moˇzno obsahoval informace relevantn´ı pro rozpoznáván´ı, aby tˇechto informac´ı nebylo moc, coˇz znamená aby nevhodné ˇci nepotˇrebné informace byly odstranˇeny. Dále je signál vhodné upravit do vhodného formátu, se kterým bude moci rozpoznávaˇc dobˇre pracovat. Tento proces omezen´ı mnoˇzstv´ı informac´ı v ˇreˇcovém signálu se nazývá parametrizac´ı.

Filtrován´ı informac´ı v signálu se provád´ı na základˇe psycho-akustických model˚u, které se snaˇz´ı napodobit vlastnost´ı lidského ucha. Tyto modely také vedou ke zmenˇsen´ı poˇctu informac´ı, které mus´ı zpracovat následuj´ıc´ı stupeˇn. Výstupn´ı signál pˇripravený pro dalˇs´ı zpracován´ı by tedy mˇel obsahovat taková data, která vn´ımá lidské ucho, dále by pokud

(15)

moˇzno tato data mˇela být nezávislá na vlastnostech konkrétn´ıho prostˇred´ı, coˇz znamená co nejménˇe ˇsumu, a také je vhodná jejich nezávislost na mluvˇc´ım. Obsaˇzené informace také na sobˇe mˇeli být co nejménˇe závislé (nekorelované) a také by nemˇely být obsaˇzeny redundantn´ı informace. V následuj´ıc´ıch podsekc´ıch bude popsány jednotlivé kroky parametrizace signálu.

2.3.1 Rozdˇelen´ı na r´amce a pˇredzpracov´an´ı

Signál je pˇred jeho zpracován´ım vhodné rozdˇelit na pomˇernˇe krátké ˇcasové úseky, ve kterých by mˇel být signál v´ıceménˇe stacionárn´ı abychom jej mohli dále jednoduˇse zpra-covat. Výsledkem tohoto rozdˇelen´ı signálu jsou rámce a jejich vlastnosti jsou mimo jiné udány i vlastnostmi lidského hlasového ústroj´ı. Obvyklý odstup rámc˚u od sebe ˇcin´ı obvykle okolo 10 ms, s délkou jednoho rámce 25 ms. Jelikoˇz je délka rámce delˇs´ı neˇz odstup rámc˚u, tak jednotlivé rámce se mezi sebou pˇrekrývaj´ı, coˇz mezi tˇemito rámci zp˚usobuje pomˇernˇe hladké pˇrechody. Na druhou stranu ale toto pˇrekrýván´ı rámc˚u klade vˇetˇs´ı výpoˇcetn´ı nároky neˇz v pˇr´ıpadˇe, pokud by se rámce nepˇrekrývali.

Dále je nutné pˇred dalˇs´ım zpracován´ım upravit signál do vhodné podoby. Prvn´ı pouˇ z´ı-vanou úpravou je odstranˇen´ı stejnosmˇerné sloˇzky ze zdrojového signálu. Toto se provád´ı hlavnˇe z toho d˚uvodu, ˇze napˇr´ıklad konverze signálu z analogové do digitáln´ı podoby mohla tuto sloˇzku pˇridat a tato sloˇzka by mohla být vlivem nepˇresnost´ı napˇr´ıklad pˇri výpoˇctu energi´ı spektra.

Dále se pˇred hlavn´ım zpracován´ım signálu ˇcasto provád´ı preemfáze signálu, kterou pro-vedeme aplikován´ım diferenciáln´ı rovnice prvn´ıho ˇrádu na kaˇzdý rámec signálu. Tato rovnice vypadá takto

s0_n= sn− k sn−1 (2.1)

, kde snjsou jednotlivé vzorky signálu v daném rámci a k se nazývá koeficientem preemfáze

a m˚uˇze nab´yvat hodnot 0 <= k < 1.

Nakonec je jeˇstˇe potlaˇcen signál na okraj´ıch rámc˚u, aby v daný ˇcas nejv´ıce relevantn´ı signál byl nejsilnˇejˇs´ı a aby také nedocházelo k pˇr´ıpadnému zkreslován´ı signálu okraj´ıch rámce, kde byl signál oˇr´ıznut. K tomuto se nejˇcastˇeji, d´ıky jednoduchosti jeho výpoˇctu, pouˇz´ıvá Hammingovo okno, které je aplikováno na kaˇzdý vzorek z daného rámce

w(n) = (0.54 − 0.46 cos 2Πn

N − 1) (2.2)

, kde N je poˇcet vzork˚u v dan´em oknˇe. Pr˚ubˇeh Hammingovy funkce jde vidˇet na obr´azku 2.1

2.3.2 Anal´yza s pomoc´ı banky filtr˚u

Jak vyplývá z psycho-akustického modelu, jsou frekvence které rozpoznává lidské ucho rozloˇzeny nelineárnˇe pˇres celé spektrum zvukového signálu. Z poznatk˚u také vyplývá, ˇze napodoben´ım tohoto chován´ı pˇri zpracován´ı signálu vede k lepˇs´ım výsledk˚um pˇri roz-poznáván´ı. Tato metoda je také pouˇz´ıvána z d˚uvodu, ˇze je jednoduˇsˇs´ı neˇz obdobné metody s podobnými výsledky. Nevýhodou této metody ale je, ˇze jednotlivé amplitudy banky filtr˚u jsou vysoce korelované a proto je nutné pouˇz´ıt cepstráln´ı transformace abychom mohli data pouˇz´ıt dále.

Pro implementaci banky filtr˚u je nutné rámec se signálem ˇreˇci pˇretransformovat pomoc´ı Fourierovy transformace do frekvenˇcn´ı oblasti. Dále výsledky této transformace korelujeme

(16)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0

Obr´azek 2.1: Hammingova funkce

s trojúheln´ıkovými filtry Melovského mˇeˇr´ıtka (rovnice 2.3). Znamená to tedy, ˇze kaˇzdý koefi-cient Fourierovy transformace vynásob´ıme odpov´ıdaj´ıc´ı hodnotou filtru a výsledky uloˇz´ıme. Nákres banky filtr˚u je na obrázku 2.2.

Φ = 2595 log₁₀( f

700+ 1) (2.3)

Obr´azek 2.2: Banka filtr˚u s Melovsk´ym rozloˇzen´ım

Následnˇe se výstup z banky filtr˚u zlogaritmuje a pomoc´ı diskrétn´ı kosinové transformace (DCT), která v tomto pˇr´ıpadˇe slouˇz´ı jako náhrada za inverzn´ı Fourierovu transformaci, se pˇrevede na hodnoty, které jsou napˇr´ıklad vhodné jako vstup pro neuronovou s´ıt’. Tyto hodnoty jsou nazývány Mel frequency cepstral coefficients (MFCC) a jsou pouˇz´ıvány pro reprezentován´ı zvuk˚u.

(17)

2.4 Neuronov´

e s´ıtˇ

e

Neuronové s´ıtˇe pouˇz´ıvané v poˇc´ıtaˇcových aplikac´ıch maj´ı inspiraci v reálném svˇetˇe, napˇr´ıklad centráln´ı nervovou soustavou a samozˇrejmˇe také mozkem. Neuronové s´ıtˇe jsou schopné se uˇcit a mˇenit své chován´ı v závislosti na vstupech a poˇzadovaných reakc´ıch na tyto vstupy. Stejnˇe jako v pˇr´ırodˇe se tyto s´ıtˇe sestávaj´ı z mnoha jednoduchých výpoˇcetn´ıch jednotek (neurony), které v závislosti na jejich propojen´ı mohou ˇreˇsit i sloˇzité úkoly se schopnost´ı upravovat svoje chován´ı.

V pˇr´ıpadˇe fonémových rozpoznávaˇc˚u pln´ı neuronové s´ıtˇe funkci klasifikátoru, kdy podle aktuáln´ıch vstupn´ıch dat urˇc´ı na výstupu pravdˇepodobnost foném˚u, kterým by mohla od-pov´ıdat vstupn´ı data. Tato data ze mus´ı dále dekódovat pro z´ıskán´ı nejpravdˇepodobnˇejˇs´ıho fonému a tento proces bude popsán v následuj´ıc´ı sekci.

Biologické neurony se skládaj´ı z tˇela neuronu, nazývaného sóma, pak nˇekolika stovek aˇz tis´ıc dendrit˚u, coˇz jsou vstupy neuronu dlouhé nˇekolik milimetr˚u. Nakonec má jeˇstˇe biolo-gický neuron výstup nazývaný také axon, který m˚uˇze dosahovat délky aˇz nˇekolik des´ıtek centimetr˚u. Rozhran´ı mezi dendritem jednoho neuronu a anonem druhého se nazývá syna-pse. Velikost signálu na vstupu neuronu závis´ı na axonu, ze kterého signál pˇrenáˇs´ı a také na synaptické váze daného dendritu a anoxu. V sómˇe se signály z jednotlivých dendrit˚u seˇctou a pokud jejich celková hodnota pˇresáhne urˇcitý práh, je vyslán krátký impuls, který se axonem ˇs´ıˇr´ı. Po vyslán´ı tohoto impulsu se neuron doˇcasnˇe usp´ı, pokud ale celkový souˇcet vˇsech dendrit˚u je dostateˇcnˇe velký i po opˇetovném probuzen´ı, impuls se poˇsle znovu a celá procedura se opakuje. Neutron je schopný se uˇcit t´ım, ˇze upravuje váhy jednotlivých synaps´ı, coˇz zp˚usobuje jiný pˇrenos signál˚u z r˚uzných axon˚u.

Kaˇzdá neuronová s´ıt’ tedy dostane na vstup hodnoty a podle urˇcité transformaˇcn´ı funkce je pˇretransformuje na výstupn´ı hodnoty. Pokud je za sebou nˇekolik vrstev neuron˚u, jsou takovéto s´ıtˇe schopné vyjádˇrit r˚uzné sloˇzité, nelineárn´ı funkce u kterých je jejich pˇresné matematické vyjádˇren´ı ˇcasto nemoˇzné nebo je pˇresný matematický model natolik sloˇzitý, ˇ

ze je velmi nároˇcný na výpoˇcetn´ı výkon. V pˇr´ıpadˇe tˇechto funkc´ı sice správnˇe nauˇcená neuronová s´ıt’ také neposkytne pˇresný výsledek, ale i tak je výsledek spoˇc´ıtán dostateˇcnˇe pˇresnˇe a rychle neˇz by to bylo moˇzné u klasických výpoˇcetn´ıch metod.

2.4.1 Umˇel´y neuron

Umˇelý neuron je napodobeninou biologického neuronu a je základn´ı jednotkou neuronových s´ıt´ı. Umˇelý neuron má nˇekolik vstup˚u, které odpov´ıdaj´ı biologickým dendrit˚um, a kaˇzdý z tˇechto vstup˚u má také jistou váhu. Tˇelo neuronu v umˇelém neuronu funguje jako suma vˇsech vstup˚u a výstup této sumy jde na výstup neuronu, který odpov´ıdá axonu. Tento výstup je také ˇcasto pozmˇenˇen funkc´ı, která se nazývá aktivaˇcn´ı funkc´ı. Forma této funkce m˚uˇze být r˚uzná a nˇekteré z nich budou popsány dále. Jeden neuron je schopen klasifikovat vstupn´ı vektor podle lineárn´ı funkce do dvou tˇr´ıd.

Mˇejme neuron s n vstupy, se vstupy x1 aˇz xn a v´ahami odpov´ıdaj´ıc´ıch vstup˚u w1 aˇz

wn. Takov´yto neuron pot´e reprezentuje funkce

y = ϕ(

n

X

i=1

wixi) (2.4)

, kde y je hodnota, která by se mˇela objevit na výstupu neuronu a ϕ je pˇrechodová funkce. Nákres umˇelého neuronu je na obrázku 2.3.

(18)

Obrázek 2.3: Nákres umˇelého neuronu

Aktivaˇcn´ı funkce mohou být rozdˇeleny na tˇri typy a tˇemi jsou nespojitá (skoková) aktivaˇcn´ı funkce, po ˇcástech lineárn´ı funkce a nakonec spojitá aktivaˇcn´ı funkce.

Nespojitá aktivaˇcn´ı funkce mˇen´ı skokovˇe hodnotu pˇri dosaˇzen´ı urˇcité aktivaˇcn´ı hra-nice. Výsledkem je, ˇze hodnota y bude moci nabývat dvou, maximálnˇe tˇr´ı stav˚u, pokud zvol´ıme moˇznost ˇze y bude moci být rovno nule a tak výsledek m˚uˇze leˇzet na hranici obou tˇr´ıd. Jinak v pˇr´ıpadˇe, ˇze y = −1 bude vstupn´ı vektor patˇrit do jedné tˇr´ıdy a v pˇr´ıpadˇe y = 1 do druhé.

Po ˇcástech lineárn´ıfunkce nemá skokovou zmˇenu hodnoty, ˇcást této funkce je lineárn´ım pˇrechodem mezi dvˇema stálými stavy. D´ıky tomuto m˚uˇze výstup udávat jisté rozmez´ı mezi tˇr´ıdami, kde mohou vstupn´ı vektory patˇrit do obou tˇr´ıd, kde pravdˇepodobnˇejˇs´ı je samozˇrejmˇe ta, ke které je výstup bl´ıˇze. Takˇze se dá napˇr´ıklad ˇr´ıci, ˇze pokud je y < 0 spadá vstupn´ı vektor do prvn´ı tˇr´ıdy a v pˇr´ıpadˇe y >= 0 do druhé.

Posledn´ı spojitá aktivaˇcn´ı funkce bývá ˇcasto reprezentována sigmoidou y = 1 1+e(−λu),

kde u je suma váˇzených vstup˚u, a tato funkce obvykle má nejv´ıce pozvolný pˇrechod mezi jistým zaˇrazen´ım vstupu do urˇcité tˇr´ıdy.

Uˇcen´ı neuronu prob´ıhá nastavován´ım vah jednotlivých vstup˚u. Tyto váhy mohou být mˇenˇeny náhodnˇe a pokud se výsledek nezlepˇs´ı, vyzkouˇs´ı se jiná kombinace, nebo z hlediska rychlosti lepˇs´ı varianta, kdy se váhy jednotlivých vstup˚u systematicky modifikuj´ı v závislosti na m´ıˇre chyby na výstupu neutronu.

Váhy v prvn´ım kroku uˇcen´ı jsou nastavené náhodnˇe, váhy v dalˇs´ıch kroc´ıch se vypoˇc´ıtaj´ı podle vzorce

~

w(k + 1) = ~w(k) + p(d(k) − y(k))~x(k) (2.5) , vektor w udává váhy jednotlivých vstup˚u, k je krokem uˇcen´ı, p je koeficientem uˇcen´ı a urˇcuje rychlost, jakou se daný neutron uˇc´ı, d a y jsou poˇzadovaná výstupn´ı hodnota neuronu a výstupn´ı hodnota neuronu, která byla vypoˇc´ıtána a nakonec vektor x, který obsahuje vstupn´ı hodnoty.

Uˇcen´ı neuronu je témˇeˇr schodné s uˇcen´ım jednovrstvých neuronových s´ıt´ı, ve kterých se uˇc´ı kaˇzdý neuron samostatnˇe a nen´ı ovlivˇnován ostatn´ımi.

2.4.2 Tˇr´ıvrstvá dopˇredná neuronová s´ıt’

Tato neuronová s´ıt’ je schopna pˇribliˇznˇe vyjádˇrit jakoukoli nelineárn´ı funkci, prvn´ı vrstva má na starosti pouze kopii vstupu, o výsledek se staraj´ı pouze posledn´ı dvˇe vrstvy. Pro

(19)

trénován´ı neuronových s´ıt´ı se nejˇcastˇeji pouˇz´ıvaj´ı algoritmy se zpˇetným ˇs´ıˇren´ım chyby, kdy se po proveden´ı výpoˇctu spoˇc´ıtá chyba od pˇredpokládaného ˇreˇsen´ı a tato chyba se poˇsle zpˇet s´ıti, která podle n´ı vhodnˇe pozmˇen´ı své váhy a prahy. Urˇcitý trénovac´ı algoritmus se vyb´ırá na základˇe úlohy, kterou má daná s´ıt’ ˇreˇsit a podle toho, zda se má s´ıt’ uˇcit a adaptovat na nové parametry.

Obrázek 2.4: Nákres moˇzné tˇr´ıvrstvé neuronové s´ıtˇe

2.4.3 Tr´enov´an´ı s´ıt´ı

Základn´ı zp˚usoby uˇcen´ı neuronových s´ıt´ı se dˇel´ı na uˇcen´ı s uˇcitelem a uˇcen´ı bez uˇcitele. Pˇri uˇcen´ı s uˇcitelem je srovnáván výstup neuronové s´ıtˇe s poˇzadovaným výstupem vzhle-dem ke vstupu neuronové s´ıtˇe a podle velikosti chyby o jakou se výstup od poˇzadovaného výstupu liˇs´ı se uprav´ı váhy mezi jednotlivými neutrony tak, aby se velikost chyby sn´ıˇzila. U uˇcen´ı bez uˇcitele nejsou k dispozici poˇzadované výstupn´ı hodnoty, tedy nejde zjistit ve-likost chyby oproti poˇzadovanému ˇreˇsen´ı. V tomto pˇr´ıpadˇe je s´ıt’ schopna se nauˇcit, aby na podobné vstupn´ı hodnoty odpov´ıdala podobnými výstupn´ımi hodnotami. Proto tedy s´ıtˇe uˇcené s pomoc´ı uˇcitele klasifikuj´ı vstupy do r˚uzných skupin, zat´ımco s´ıtˇe bez uˇcitele vytváˇr´ı shluky podobných hodnot.

Nejˇcastˇeji pouˇz´ıvaným algoritmem pro trénován´ı dopˇredných neuronových s´ıt´ı je metoda zpˇetného ˇs´ıˇren´ı chyby. Tato metoda se skládá z nˇekolika krok˚u, kterými jsou

Na vstup neuronové s´ıtˇe dát trénovac´ı vzorek

Porovnat výstup s´ıtˇe s pˇredpokládaným výstupem a spoˇc´ıtat chybu v jednotlivých výstupn´ıch neuronech

Upravit váhy kaˇzdého neuronu v závislosti na vypoˇc´ıtané chybˇe

Rozdˇelit chybu neuron˚um v pˇredchoz´ı vrstvˇe tak, ˇze vˇetˇs´ı chybu dáme neuron˚um pˇripojených pomoc´ı vstup˚u s vˇetˇs´ı váhou, jelikoˇz pravdˇepodobnˇe maj´ı i vˇetˇs´ı pod´ıl na chybˇe.

Opakovat pˇredchoz´ı kroky dokud nedojdeme ke vstupn´ı vrstvˇe. Bliˇzˇs´ı popis jednotliv´ych krok˚u lze nal´ezt napˇr´ıklad v [6].

(20)

2.5 Rozpozn´

av´

an´ı fon´

em˚

u

Po nauˇcen´ı neuronových s´ıt´ı rozpoznávat námi zadané fonémy, jiˇz m˚uˇzeme provést roz-poznáván´ı foném˚u z dat. Data, které proˇsla parametrizac´ı poˇsleme na rozpoznán´ı neuronové s´ıti, jej´ımˇz výstupem bude matice pravdˇepodobnost´ı foném˚u v závislosti na ˇcase (rámc´ıch). Výsledek rozpoznán´ı lze vidˇet na obrázku 2.5. Tato data, také nazývaná matice posterior˚u, jsou následnˇe zpracována dekodérem, který vybere nejlepˇs´ı moˇznou posloupnost foném˚u.

Obr´azek 2.5: Matice posterior˚u

2.5.1 Dekod´er

Dekodér, který zpracovává tyto informace se skládá z fonémové smyˇcky (obr. 2.6), která udává moˇznou posloupnost foném˚u, které za sebou mohou následovat a kaˇzdý foném v této smyˇcce je nav´ıc reprezentován HMM modelem. Tento HMM model je procházen za pomoci Viterbiho algoritmu [5] a je vˇzdy rozpoznán nejpravdˇepodobnˇejˇs´ı moˇzný foném.

!NULL SLOVOCONENIVESLOVNIKU a b c !NULL a b c

(21)

Kaˇzdý model (foném v krouˇzku) pˇridává jistou penalizaci, pomoc´ı které se vhodnˇe vyváˇz´ı pomˇer mezi pˇridanými a smazanými fonémy. Správným nastaven´ım lze dosáhnout lepˇs´ı ´

uspˇeˇsnosti pˇri rozpoznáván´ı. Pokud jsou data rozpoznána nˇekterým z model˚u, je odpov´ıdaj´ıc´ı foném rozpoznán a zapsán na výstup. Výsledkem je tedy jiˇz seznam rozpoznaných foném˚u a pro obrázek 2.5 m˚uˇze vypadat napˇr´ıklad takto

pau spk pau n a_u e_u r a: t e_u n t l e v~e z~J i:

(22)

Kapitola 3

Prostˇ

red´ı a pouˇ

zit´

e n´

astroje

Veˇskeré práce pˇri trénován´ı fonémových rozpoznávaˇc˚u a identifikaci jazyka byly provádˇeny v prostˇred´ı poˇc´ıtaˇcové s´ıtˇe FIT VUT Brno, proto se i veˇskeré cesty a postupy budou vztaho-vat k tomuto prostˇred´ı. Pro trénován´ı bylo pouˇzito nˇekolik nástroj˚u, jakými jsou napˇr´ıklad nástroje z HTK pro pˇr´ıpravu dat pro uˇcen´ı a rozpoznáván´ı s´ıt´ı i jejich následné vyhod-nocen´ı úspˇeˇsnosti, dále pak nástroje vyvinuté pˇr´ımo skupinou pro zpracován´ı ˇreˇci na FIT VUT Brno, pomoc´ı kterých byly s´ıtˇe trénovány, aˇz po nástroje pro distribuované výpoˇcty SGE, umoˇzˇnuj´ıc´ı provést trénován´ı s´ıt´ı na v´ıce poˇc´ıtaˇc´ıch najednou. V následuj´ıc´ıch sekc´ıch budou tyto jednotlivé toolkity a nástroje podrobnˇe popsány.

3.1 HTK

Hidden Markov Model Toolkit je sada nástroj˚u vyvinutá na univerzitˇe v Cambridge. Jak jiˇz z názvu této sady nástroj˚u vyplývá, je urˇcena pˇreváˇznˇe pro výstavbu a manipulaci se skrytými Markovovy modely. Tato sada obsahuje nástroje které potˇreba pro proveden´ı celého procesu rozpoznáván´ı ˇreˇci, to znamená od základn´ıho zpracován´ı vstupn´ıho signálu, pˇres vytvoˇren´ı jazykových model˚u, trénován´ı a následného testován´ı a rozpoznáván´ı, aˇz po nástroje, které nám pˇrehlednˇe reprezentuj´ı dosaˇzené výsledky. Pˇreváˇznˇe je tato sada pouˇz´ıvána pro rozpoznáván´ı ˇreˇci, ale jde pouˇz´ıt i k jiným úˇcel˚um, napˇr´ıklad byla pouˇzita u výzkumu syntézy ˇreˇci nebo rozpoznáván´ı p´ısma.

Nástroje z této sady jsou v naˇsem pˇr´ıpadˇe pouˇz´ıvány k parametrizaci vstupn´ıch dat, a také pˇri rozpoznáván´ı a vytváˇren´ı výsledné konfusn´ı matice. Také formát zpracovávaných dat, mezi které patˇr´ı napˇr´ıklad mlf soubory s popisem jednotlivých zvukových soubor˚u, nebo pak i parametrizované soubory jsou v nativn´ım formátu tohoto toolkitu.

V dalˇs´ıch podsekc´ıch budou popsány jednotlivé pouˇzité nástroje z tohoto toolkitu a jejich význam v rámci rozpoznávaˇce. Celý toolkit je detailnˇe popsán v knize o HTK [2], ze které jsou ˇcerpány i následuj´ıc´ı informace.

3.1.1 HCopy

Jak vypov´ıdá z názvu, je tento nástroj urˇcen pˇreváˇznˇe ke kop´ırován´ı soubor˚u a dat. Bez speciáln´ıho nastaven´ı tento program kop´ıruje pouze celé soubory, pokud se ale správnˇe nastav´ı, je schopen provádˇet spoustu r˚uzných manipulac´ı s kop´ırovanými soubory, jako napˇr´ıklad jejich dˇelen´ı na ˇcásti ˇci spojován´ı soubor˚u. Dále tento nástroj um´ı pˇrevádˇet vstupn´ı data do r˚uzných formát˚u a také um´ı parametrizovat vstupn´ı data podle zvoleného nastaven´ı, coˇz je i d˚uvod, proˇc je tento nástroj pouˇz´ıván v naˇsem prostˇred´ı.

(23)

3.1.2 HLEd

Tento nástroj slouˇz´ı k editován´ı label soubor˚u, které obsahuj´ı fonémové pˇrepisy jednotlivých datových soubor˚u. Tento editor také m˚uˇze slouˇzit k editaci MLF soubor˚u, coˇz je zkrat-kou Master Label File, kdy tento soubor sdruˇzuje jednotlivé label soubory do jediného, coˇz je vhodné zejména pro dalˇs´ı zpracován´ı. Tento editor lze ovládat dávkovˇe s pomoc´ı pˇredpˇripravených skript˚u, které popisuj´ı jak se má editor chovat.

3.1.3 HResults

HResuls je nástroj pro analýzu výsledk˚u rozpoznávaˇce. Tato analýza se provád´ı vˇetˇsinou tak, ˇze se rozpoznávaˇc spust´ı na nˇejaká dobˇre známá data a výsledek rozpoznávaˇce se následnˇe porovná se správným referenˇcn´ım pˇrepisem. Toto porovnán´ı je provádˇeno právˇe t´ımto nástrojem, který spoˇc´ıtá rozd´ıly mezi výsledky z rozpoznávaˇce a origináln´ım pˇrepisem. Výsledkem tohoto nástroje je nakonec konfusn´ı matice, která udává, které fonémy se za co rozpoznali a také jejich úspˇeˇsnost. Také je vypoˇctena celková úspˇeˇsnost rozpoznávaˇce váhovým zpr˚umˇerován´ım úspˇeˇsnost´ı jednotlivých foném.

3.2 STK

Tento toolkit byl vyvinut na skupinou pro zpracován´ı ˇreˇci na FIT VUT Brno. Je urˇcen pro trénován´ı rozpoznávaˇc˚u a následné rozpoznáván´ı ˇreˇci s pomoc´ı skrytých Markovových model˚u. Tento toolkit je ˇcásteˇcnˇe kompatibiln´ı s toolkitem HTK. Nástroje z tohoto tool-kitu jsou také vyuˇz´ıvány pˇri trénován´ı i následném ovˇeˇrován´ı funkce v´ıcejazykového roz-poznávaˇce, kdy napˇr´ıklad pomoc´ı nástroje SFeaCat pˇrevedeme vstupn´ı fea soubory na výstupn´ı soubory, ve kterých jsou vypoˇc´ıtány pravdˇepodobnosti jednotlivých foném˚u v daném souboru. Dále budou popsány pouˇzité nástroje z této sady i program SNet, který tuto sadu ˇ

cásteˇcnˇe vyuˇz´ıvá a byl také vyvinut na FIT VUT Brno.

3.2.1 SFeaCat

Tento program provád´ı zadané maticové a vektorové operace nad vstupn´ımi daty. V naˇsem pˇr´ıpadˇe t´ımto nástrojem provád´ıme forward pass, kdy podle zadané transformace pˇrevedeme fea soubory na lop soubory, které v naˇsem pˇr´ıpadˇe obsahuj´ı matici posterior˚u. Pro z´ıskán´ı foném˚u mus´ı být tyto soubory jeˇstˇe dekódovány programem SVite. Pro tuto transformaci je nutné tomuto programu pˇredat upravený soubor vah vytvoˇrený pˇri uˇcen´ı s´ıt´ı nástrojem SNet.

3.2.2 SVite

Je obdobou programu HVite z toolkitu HTK. Pomoc´ı algoritmu zaloˇzeném na Viterbiho algoritmu dekóduje vstupn´ı soubory, které byly dˇr´ıve pˇredzpracovány programem SFea-Cat. Pro toto dekódován´ı je potˇreba vytvoˇrit vstupn´ı s´ıt’ udávaj´ıc´ı moˇzné posloupnosti rozpoznávaných foném˚u i sadu HMM pro rozpoznán´ı daných foném˚u. Výstupem programu je seznam dekódovaných foném˚u podle toho, jak byly rozpoznány. Kvalitu rozpoznáván´ı lze v pˇr´ıpadˇe rozpoznáván´ı foném˚u ovlivˇnovat napˇr´ıklad nastaven´ım parametru model-penalty.

(24)

3.2.3 SNet

Tento program nen´ı sice v STK obsaˇzen, ale jelikoˇz z tohoto toolkitu vycház´ı, byl zaˇrazen do stejné sekce. Tento nástroj byl vyvinut také na FIT VUT v Brnˇe pro potˇreby distri-buovaného trénován´ı neuronových s´ıt´ı s c´ılem nahradit sadu na trénován´ı neuronových s´ıt´ı QuickNet, která distribuované trénován´ı neumoˇzˇnovala.

Paralelizace trénován´ı neuronových s´ıt´ı byla dosaˇzena d´ıky rozdˇelen´ı trénovac´ıch dat, kdy kaˇzdý trénovac´ı klient spoˇc´ıtá svoji ˇcást a serveru po uˇcen´ı zaˇsle data udávaj´ıc´ı nové poˇzadované váhy. Server tato data pˇrijme od vˇsech klient˚u, spoj´ı je a vˇsem klient˚um zaˇsle nové váhy pro dalˇs´ı trénován´ı.

Tento nástroj je s jedn´ım poˇc´ıtaˇcem na kterém m˚uˇze prob´ıhat uˇcen´ı stejnˇe rychlý jako QuickNet, v pˇr´ıpadˇe v´ıce poˇc´ıtaˇc˚u docház´ı k odpov´ıdaj´ıc´ımu zkrácen´ı trénovac´ı doby, napˇr´ıklad v pˇr´ıpadˇe pˇeti poˇc´ıtaˇc˚u na kterých se trénovalo bylo doc´ıleno aˇz ˇctyˇrnásobného zkrácen´ı trénovac´ı doby. V´ıce informac´ı o tomto programu se lze doˇc´ıst v [7].

(25)

Kapitola 4

Tr´

enov´

an´ı

V následuj´ıc´ıch sekc´ıch bude popsán postup pro natrénován´ı a zjiˇstˇen´ı úspˇeˇsnosti nauˇcen´ı s´ıt´ı pro jednotlivé jazyky s pouˇzit´ım nástroj˚u popsaných v pˇredchoz´ı kapitole. Následnˇe budou také popsány rozd´ıly pˇri trénován´ı s´ıt´ı se spojenou fonémovou sadou, kdy budou pouˇzita data vˇsech jazyk˚u najednou. Celý postup trénován´ı a ovˇeˇren´ı je rozdˇelen na nˇekolik krok˚u, mezi hlavn´ı kroky patˇr´ı pˇr´ıprava dat na trénován´ı, vlastn´ı trénován´ı a nakonec ovˇeˇren´ı úspˇeˇsnosti trénován´ı.

4.1 Pˇ

r´ıprava dat

Pro pˇr´ıpraven´ı dat byl vytvoˇren skript v koˇrenovém adresáˇri projektu s názvem priprava.sh. Tento skript provede úpravu vstupn´ıch dat tak, aby byla vhodná pro trénován´ı. Veˇskeré cesty v této sekci, s vyj´ımkou pˇredchoz´ıho skriptu, se budou vztahovat k adresáˇri train v hlavn´ım adresáˇri projektu.

Na zaˇcátku máme k dispozici nˇekolik soubor˚u, které jsou souˇcást´ı databáze Speech-Dat. Tˇemito soubory v pˇr´ıpadˇe ˇceˇstiny napˇr´ıklad jsou cz/train_raw.cz.scp, který ob-sahuje seznam soubor˚u pro trénován´ı a crossvalidaci neuronových s´ıt´ı, dále pak soubor cz/test_raw.cz.scp, který obsahuje seznam soubor˚u, které budou pouˇzity pro následné ovˇeˇren´ı úspˇeˇsnosti rozpoznávaˇce na datech, která jeˇstˇe nevidˇel. Spojen´ım tˇechto dvou sou-bor˚u by mˇel vzniknout seznam vˇsech soubor˚u v ˇceské databáz´ı SpeechDat-E. Posledn´ım, ale dá se ˇr´ıci ˇze nejd˚uleˇzitˇejˇs´ım souborem je soubor cz/sz_phn_align.cz.mlf, který obsa-huje ke kaˇzdému souboru obsaˇzenému v daných seznamech soubor˚u jeho fonetický pˇrepis i s udanými ˇcasy, kdy se jaký foném v souboru vyskytuje.

V dalˇs´ıch podsekc´ıch bude popsán postup zpracován´ı tˇechto soubor˚u a vytvoˇren´ı sou-bor˚u potˇrebných pro dalˇs´ı fáze procesu rozpoznáván´ı. Celý tento postup je implementován ve skriptu zm´ınˇeném výˇse, m˚uˇze se ale také provést manuálnˇe krok po kroku.

4.1.1 Zjiˇstˇen´ı fon´em˚u v dan´em jazyce

Pro natrénován´ı rozpoznávaˇce potˇrebujeme i seznam foném˚u trénovaného jazyka. Tento seznam vytvoˇr´ıme ze souboru cz/sz_phn_align.cz.mlf, ve kterém mus´ı být obsaˇzeny veˇskeré pouˇzité fonémy. Z popisu mlf souboru je vidˇet, ˇze fonémy jazyka jsou ve tˇret´ım sloupci, ˇcehoˇz vyuˇzijeme a tyto fonémy z´ıskáme pomoc´ı jednoduchého skriptu v shellu, který se nacház´ı pod jménem get_phonemes.sh.

#!/bin/sh

(26)

cat $1/sz_phn_align.$1.mlf | cut -s -f 3 -d ' ' |

sort -u > $1/${1}_phonemes

Jak je vidˇet z tohoto kódu, skript jako parametr oˇcekává název jazyka, u kterého chceme z´ıskat seznam foném˚u. Celá funkˇcnost tohoto skriptu spoˇc´ıvá v tom, ˇze skript vyp´ıˇse fonémy ve tˇret´ım sloupci daného mlf souboru a tento seznam foném˚u pomoc´ı programu sort setˇr´ıd´ı a pomoc´ı pˇrep´ınaˇce -u zaruˇc´ı, ˇze na výstupu dostaneme seznam jedineˇcných foném. Výsledek se následnˇe uloˇz´ı do adresáˇre jazyka s názvem jazyka následovaného pˇr´ıponou _phonemes. Tento seznam lze jiˇz pouˇz´ıt pro trénován´ı nebo pro zjiˇstˇen´ı úspˇeˇsnosti roz-poznáván´ı.

4.1.2 Parametrizace

C´ılem je vytvoˇrit pˇredzpracované soubory (v naˇsem pˇr´ıpadˇe s pˇr´ıponou .fea), ze kterých se následnˇe rozpoznávaˇc uˇc´ı, ˇci ovˇeˇruje nauˇcené informace. Tyto soubory jsou vyrobeny ze vstupn´ıch dat z databáze SpeechDat, která jsou obvykle v raw formátu, coˇz jsou vesmˇes pouze nahraná a jinak dále neupravovaná data. K pˇrevodu tˇechto dat pouˇzijeme program HCopy, který byl popsán dˇr´ıve.

Vytvoˇren´ı seznam˚u

Abychom mohli ale pˇrevod provést, potˇrebujeme upravit výchoz´ı seznam soubor˚u napˇr. cz/train_raw.cz.scp. Tento soubor totiˇz obsahuje pouze jména dat z databáze Spe-echDat, pro pˇrevod ale potˇrebujeme i druhý sloupec se jmény pˇrevedených fea soubor˚u. Toho doc´ıl´ıme napˇr´ıklad jednoduchým shellovým skriptem s vyuˇzit´ım nástroje sed. Skript se nazývá fea_list.sh a má za úkol vytvoˇrit seznamy pro HCopy, které vyuˇzijeme pˇri parametrizaci soubor˚u, a také seznam pouze fea soubor˚u, který vyuˇzijeme pˇri trénován´ı. Následuj´ıc´ı kód obsahuje pouze polovinu obsahu skriptu, pro vytvoˇren´ı seznam˚u pro test je kód obdobný.

sed -e 's/$.*$SPEECHDAT$.*$\.$...$$/\1SPEECHDAT\2.\3 \1fea\2.fea/'\ $1/train_raw.$1.scp > $1/train_raw_fea_$1.list

cat $1/train_raw_fea_$1.list | cut -f 2 -d ' '> $1/train_fea_$1.list Pˇr´ıprava adres´aˇr˚u

Jelikoˇz HCopy pˇri kop´ırován´ı oˇcekává jiˇz vytvoˇrenou adresáˇrovou strukturu pro výstupn´ı soubory, mus´ıme nejprve pˇred kop´ırován´ım tyto adresáˇre vytvoˇrit. Pomoc´ı nástroj˚u cat, cut a sort nejprve z p˚uvodn´ıch seznam˚u soubor˚u vyrob´ıme seznam potˇrebných adresáˇr˚u pro vytvoˇren´ı. Výsledný seznam jedineˇcných adresáˇr˚u je sloˇzen pouze z ˇcást´ı, které se u jednotlivých jazyk˚u a soubor˚u mohou liˇsit. Jeden ˇrádek v tomto výsledném seznamu bude napˇr´ıklad ve tvaru cz/fixed3cs/block00/ses0000. Pro zjednoduˇsen´ı pouˇzit´ı, je celá procedura obsaˇzena ve skriptu mk_dirs.sh a výsledný seznam je v pˇr´ıpadˇe ˇceského jazyka uloˇzen v souboru cz/cz_dirs. Následnˇe tento skript zavolá perlovský skript mk_dirs.pl, který podle seznamu vytvoˇr´ı adresáˇre ve zvoleném výstupn´ım adresáˇri fea soubor˚u, coˇz je v naˇsem pˇr´ıpadˇe /net/matylda2/projekty/PhnRec/fea.

(27)

Parametrizace soubor˚u

Po vytvoˇren´ı vˇsech potˇrebných seznam˚u soubor˚u pro pˇrevod i po vytvoˇren´ı potˇrebných adresáˇr˚u, jiˇz m˚uˇzeme provést parametrizaci soubor˚u. Pro pouˇzit´ı programu HCopy nám jiˇz chyb´ı pouze konfiguraˇcn´ı soubor, pomoc´ı kterého se budou soubory upravovat. Tento konfiguraˇcn´ı soubor jde nalézt pod cestou conf/CTS_HCopy_vax.conf v koˇrenovém adresáˇri projektu. Je jsou zde r˚uzná nastaven´ı, poˇc´ınaje od vstupn´ıho a výstupn´ıho formátu pˇres doln´ı a horn´ı frekvenci signálu aˇz po velikost okna, která bude pouˇzita. Nˇekteré z nastaven´ı zde pop´ıˇseme:

SOURCEKIND je typ zdrojov´eho souboru

SOURCEFORMAT je formát zdrojového souboru, jelikoˇz máme pouze raw data bez hlaviˇcky

SOURCERATE rychlost dat na vstupu

TARGETFORMAT je formát výstupn´ıho souboru TARGETKIND je typem výstupn´ıho souboru

LOFREQ, HIFREQ doln´ı a horn´ı uvaˇzovaná frekvenˇcn´ı hranice pˇrevádˇeného zvuku USEHAMMING udává zda chceme pˇri pˇrevodu pouˇz´ıt na jednotlivé rámce

Hammin-govo okno

USEPOWER udává pouˇzit´ı výkonu nam´ısto amplitudy pˇri Fourierovˇe transformaci TARGETRATE je poˇzadovaný odstup jednotlivých rámc˚u

WINDOWSIZE velikost pouˇzit´eho Hammingova okna

Kdyˇz máme vytvoˇren i konfiguraˇcn´ı soubor, m˚uˇzeme koneˇcnˇe spustit pˇrevod, který prove-deme jiˇz zm´ınˇeným pˇr´ıkazem HCopy ze sady HTK.

HCopy -C ../conf/CTS_HCopy_vax.conf -S cz/train_raw_fea_cz.list

Z d˚uvodu vyt´ıˇzen´ı procesoru a s´ıtˇe pˇri tomto pˇrevodu je lepˇs´ı ale vytvoˇrit skript, který tento pˇr´ıkaz obsahuje (v naˇsem pˇr´ıpadˇe se skript nazývá hcopy.sh) a spustit ho na výpoˇcetn´ıch bladech pˇr´ıkazem

qsub -t 1 -q all.q@@blade,all.q@ulrika,all.q@svatava hcopy.sh

, který zajist´ı spuˇstˇen´ı tohoto skriptu na nˇekterém z uvedených poˇc´ıtaˇc˚u. Nyn´ı jiˇz nezbývá nic jiného neˇz ˇcekat na úspˇeˇsné dokonˇcen´ı parametrizace soubor˚u.

4.2 Tr´

enov´

an´ı s´ıt´ı

Uˇcen´ı neuronových s´ıt´ı prob´ıhalo za pomoci toolkitu STK a nˇekolika skript˚u pro usnadnˇen´ı a rozloˇzen´ı zátˇeˇze pˇri uˇcen´ı na nˇekolik blad˚u. Vˇetˇsina program˚u a skript˚u potˇrebných pro nauˇcen´ı se nacház´ı v adresáˇri bin koˇrenového adresáˇre, a pokud nebude uvedeno jinak, tak se veˇskeré cesty budou vztahovat právˇe k tomuto adresáˇri. Vlastn´ı trénován´ı prob´ıhá pomoc´ı programu SNet, který byl popsán v sekci o toolkitu STK. V následuj´ıc´ıch podsekc´ıch bude popsána konfigurace nutná pro spuˇstˇen´ı trénován´ı i poˇrad´ı skript˚u a co se stane, neˇz dojde ke spuˇstˇen´ı trénován´ı pomoc´ı programu SNet.

(28)

4.2.1 Konfigurace tr´enov´an´ı

Konfigurace se sestává z úpravy dvou soubor˚u. Jedn´ım z tˇechto soubor˚u je Local_sets.pm, který obsahuje obecnˇe pouˇz´ıvané funkce v pouˇzitých skriptech a také nastaven´ı cest k pouˇzitým program˚um. Pro správnou funkˇcnost skript˚u je tedy tˇreba nastavit správnˇe alespoˇn ˇctyˇri z adresáˇr˚u na zaˇcátku souboru. Promˇenné tˇechto adresáˇr˚u se nazývaj´ı $tmp_local, kde je uloˇzena cesta k adresáˇri, do kterého budeme ukládat pomocná data, $HTK_path, coˇz je cesta k program˚um ze sady HTK, dále v promˇenné $PU_path je uvedena cesta k adresáˇri, ve kterém jsou obsaˇzeny nástroje z QuickNet a posledn´ı promˇennou, kterou je nutné správnˇe nastavit je $SNET_dir, které obsahuje cestu k pouˇz´ıvaným skript˚um pro trénován´ı a je ji tedy nutné nastavit na aktuáln´ı adresáˇr, coˇz je v naˇsem pˇr´ıpadˇe adresáˇr bin v adresáˇri projektu.

Druhým souborem, který je potˇreba upravit pro trénovan´ı je soubor s konfigurac´ı pro rozpoznáván´ı jazyka, a v pˇr´ıpadˇe ˇcestiny má tento soubor název auto_train/train_cz.conf. Tento konfiguraˇcn´ı soubor je perlovským skriptem a mˇel by tedy dodrˇzovat jeho syntaxi. Poloˇzky z tohoto konfiguraˇcn´ıho souboru, které by mˇely být správnˇe nastaveny jsou tyto:

$lang udává zpracovávaný jazyk, dopln´ı se do ostatn´ıch promˇenných tak, aby vznikly cesty, které se vztahuj´ı ke správnému jazyku

$OUT_DIR je výstupn´ı adresáˇr, ve kterém se bude nacházet nauˇcená s´ıt’ rozpoznávaˇce $file je název souboru, ve kterém se bude nauˇcená s´ıt’ nacházet (bude m´ıt nav´ıc

pˇr´ıponu .Weights)

$list udává soubor, ve kterém je seznam fea soubor˚u urˇcených pro uˇcen´ı s´ıtˇe $mlf obsahuje mlf soubor k danému jazyku

$phn_set je cesta k souboru s fon´emy dan´eho jazyka

$sge_opt jsou parametry pro qsub, v naˇsem pˇr´ıpadˇe seznam povolen´ych poˇc´ıtaˇc˚u, na kter´ych se m˚uˇze uˇcit

$trainsent udává poˇcet soubor˚u ze seznamu, které pouˇzijeme pro trénován´ı s´ıt´ı $cvsent udává poˇcet soubor˚u, které jsou pouˇzity pro crosvalidaci, obvykle okolo 10% $transform_Merg udává transformaˇcn´ı funkci na vstupu neuronové s´ıtˇe, v naˇsem pˇr´ıpadˇe je to 240 neuron˚u na vstup˚u dále dvˇe skryté vrstvy po 800 neuronech a poˇcet výstupn´ıch odpov´ıdá poˇctu foném˚u daného jazyka

$mlp_arch_Merg udává poˇcty neuron˚u v jednotlivých vrstvách neuronové s´ıtˇe Abychom mohli trénován´ı jednoduˇse spustit na v´ıce poˇc´ıtaˇc´ıch najednou, je nutno jeˇstˇe vytvoˇrit jednoduchý skript, který následnˇe spust´ı trénován´ı. Pˇr´ıkladem takového skriptu je napˇr´ıklad auto_train/train_cz.sh, jehoˇz celá funkˇcnost spoˇc´ıvá ve spuˇstˇen´ı perlovského skriptu SplitContext_v2_train.pl a pˇredán´ı parametr˚u s konfiguraˇcn´ım sou-borem train_cz.conf a poˇctu klient˚u, na kterých budeme naráz trénovat.

(29)

4.2.2 Spuˇstˇen´ı tr´enov´an´ı

V pˇr´ıpadˇe, ˇze jiˇz máme nastavené veˇskeré potˇrebné konfiguraˇcn´ı soubory, m˚uˇzeme odeslat poˇzadavek na trénován´ı na SGE. Toto provedeme pˇr´ıkazem auto_train/sub_train.sh, kterému jako parametr pˇredáme název trénovaného jazyka. Tento skript je velmi jedno-duchý, jeho obsah vypadá takto

#!/bin/sh

qsub -q all.q@@blade,all.q@svatava,all.q@ulrika -l long_job_08=5\ /net/matylda2/projekty/PhnRec/bin/auto_train/train_$1.sh

Jak je ze skriptu vidˇet, pro odeslán´ı se pouˇzije pˇr´ıkaz qsub, s parametry na omezen´ı trénovac´ıch poˇc´ıtaˇc˚u na skupinu blad˚u a dále servery svatava a ulrika, dále ˇze trénován´ı cel-kem potˇrebuje pˇet volných slot˚u pro úlohy trvaj´ıc´ı déle neˇz osm hodin a posledn´ım paramet-rem je dˇr´ıve vytvoˇrený skript, který následnˇe spust´ı dalˇs´ı skript SplitContext_v2_train.pl.

4.2.3 Postup tr´enov´an´ı

Po spuˇstˇen´ı skriptu SplitContext_v2_train.pl, tento skript zkontroluje parametry pro trénován´ı a vytvoˇr´ı výstupn´ı adresáˇre pro nauˇcenou s´ıt’. Následnˇe pomoc´ı skriptu SNN_norm, který je v adresáˇri udaném promˇennou $SNET_dir provede normalizaci vstupn´ıch soubor˚u. Po dokonˇcen´ı této normalizace se pomoc´ı skriptu SNN2_initNN vytvoˇr´ı výchoz´ı neuronová s´ıt’ rozpoznávaˇce. Nyn´ı kdyˇz je jiˇz vˇse pˇripraveno, tak se spust´ı dalˇs´ı skript, tentokrát SNN2_train_all, který se postará o rozeslán´ı ˇcást´ı dat na jednotlivé poˇc´ıtaˇce na kterých se bude trénovat.

Tento skript ovˇeˇr´ı dalˇs´ı parametry pˇredané v konfiguraˇcn´ım souboru a následnˇe ze se-znamu vstupn´ıch soubor˚u vytvoˇr´ı trénovac´ı a krosvalidaˇcn´ı seznam. Tyto velikost tˇechto seznam˚u je zvolena v konfiguraˇcn´ım souboru popsaném v sekci o konfiguraci trénován´ı. Dále jsou tyto vytvoˇrené seznamy rozdˇeleny na takový poˇcet d´ıl˚u, na kolika poˇc´ıtaˇc´ıch se bude trénován´ı provádˇet. Následnˇe se jeˇstˇe podle tˇechto novˇe vytvoˇrených soubor˚u vytvoˇr´ı pro kaˇzdého trénovac´ıho klienta na m´ıru také mlf soubory, které obsahuj´ı pouze soubory obsaˇzené v pˇr´ısluˇsné ˇcásti seznamu.

Po vytvoˇren´ı seznam˚u se za pomoci programu qsub spust´ı trénovac´ı klienti, jejichˇz kód se nacház´ı ve skriptu SNN2_train_client. Po spuˇstˇen´ı tˇechto klient˚u, se také jeˇstˇe spust´ı server programu SNet, který bude obstarávat spuˇstˇené klienty.

Klienti si z d˚uvod˚u, aby pˇri trénován´ı nepˇretˇeˇzovali s´ıt’, zkop´ıruj´ı potˇrebné soubory pro trénován´ı do lokáln´ıho odkládac´ıho adresáˇre a spust´ı se klientské ˇcásti programu SNet pro trénován´ı s´ıt´ı. Po natrénován´ı se pomoc´ı krosvalidaˇcn´ı sady zjist´ı, zda nedoˇslo k pˇretrénován´ı s´ıt´ı, výsledky se odeˇslou serveru a zaˇcne se trénovat nová iterace. Toto se opakuje dokud se s´ıtˇe výraznˇe nezlepˇsuj´ı ve výsledc´ıch uˇcen´ı.

4.3 Zjiˇ

stˇ

en´ı ´

uspˇ

eˇ

snosti fon´

emov´

eho rozpozn´

avaˇ

ce

Po úspˇeˇsném natrénován´ı fonémového rozpoznávaˇce nás zaj´ımá, jak si tento rozpoznávaˇc vede na datech, která jeˇstˇe nikdy pˇredt´ım nespatˇril. Z tohoto d˚uvodu se budeme snaˇzit pomoc´ı jiˇz natrénovaných s´ıt´ı rozpoznat data z testovac´ıch seznam˚u, a následnˇe z toho, co se nám rozpoznalo za fonémy a co se mˇelo rozpoznat, zjist´ıme úspˇeˇsnost rozpoznáván´ı a také napˇr´ıklad i jaké fonémy se mezi sebou ˇcasto pletou a tud´ıˇz nemus´ı m´ıt moc velkou ´

(30)

Skript, pomoc´ı kterého spust´ıme celý postup rozpoznáván´ı se nacház´ı v koˇrenovém ad-resáˇri pod jménem dekoduj.sh. Proces rozpoznáván´ı je rozdˇelený na nˇekolik ˇcást´ı, mezi ty hlavn´ı ˇcásti samozˇrejmˇe patˇr´ı pˇr´ıprava dat na rozpoznáván´ı a vlastn´ı rozpoznáván´ı a výpoˇcet úspˇeˇsnosti. Kroky které provád´ı rozpoznávac´ı skript budou podrobnˇe popsány v následuj´ıc´ıch podsekc´ıch.

4.3.1 Pˇr´ıprava na rozpozn´av´an´ı

Veˇskerá pˇr´ıprava se sestává z vytvoˇren´ı lop soubor˚u z fea soubor˚u pomoc´ı nástroje SFeaCat a také z vytvoˇren´ı rozpoznávac´ı s´ıtˇe a definice HMM.

Vytvoˇren´ı lop soubor˚u

Abychom mohli spustit program SFeaCat, potˇrebujeme nejprve upravit soubor s váhami nauˇcené s´ıtˇe. Tento soubor se v pˇr´ıpadˇe ˇceˇstiny nacház´ı v adresáˇri data/out_cz/Weights/ a nazývá se train_cz.weights. U tohoto souboru budeme upravovat jeho konec, kdy zamˇen´ıme nˇekolik jeho ˇrádk˚u, které vypadaj´ı pˇribliˇznˇe takto

~j 'NNetXformInstance' <Input> <VecSize> 240 <NumLayers> 2 <Layer> 1 ~x 'tr_Tcontext31_Ham_15dct16_allBand' <Layer> 2 ~x 'normalization' <VecSize> 45 ~x 'NNetXform'

za tyto n´asleduj´ıc´ı ˇr´adky. ~o <InputXform> <VecSize> 45 <NumLayers> 4 <Layer> 1 ~x 'tr_Tcontext31_Ham_15dct16_allBand' <Layer> 2 ~x 'normalization' <Layer> 3 ~x 'NNetXform' <Layer> 4 <Log> 45

T´ımto udáme SFeaCatu, jak má vypadat výsledný lop soubor, napˇr´ıklad ˇze hodnoty ve výstupn´ım souboru maj´ı být logaritmické. V poloˇzkách VecSize a Log se udává poˇcet foném˚u daného jazyka. Je vhodné zachovat p˚uvodn´ı soubor a proto tento upravený soubor uloˇz´ıme pod jiným jménem, v naˇsem pˇr´ıpadˇe train_cz.vahy a je ve uloˇzen stejném adresáˇri jako p˚uvodn´ı soubor.

Následnˇe je také vhodné rozdˇelit seznam trénovac´ıch fea soubor˚u na v´ıce ˇcást´ı, protoˇze pˇrevod na lop soubory je vcelku výpoˇcetnˇe nároˇcný a proto ho spust´ıme na v´ıce poˇc´ıtaˇc´ıch

(31)

najednou. Rozdˇelen´ı provedeme s pomoc´ı jednoduchého skriptu v perlu train/split_file.pl, který jako parametry oˇcekává název rozdˇelovaného souboru a poˇcet ˇcást´ı, na kolik chceme tento soubor rozdˇelit. Tento skript následnˇe spoˇc´ıtá poˇcet ˇrádk˚u v zadaném souboru a následnˇe vytvoˇr´ı výstupn´ı soubory, které maj´ı stejné jméno jako vstupn´ı soubor následované pˇr´ıponou _ˇc´ıslo, kde ˇc´ıslo udává ˇcást tohoto souboru. Kaˇzdý výstupn´ı soubor je naplnˇen stejným mnoˇzstv´ım dat, jedinou vyj´ımkou m˚uˇze být posledn´ı soubor, který nav´ıc m˚uˇze obsahovat i nˇekolik soubor˚u, které zbyly pokud nebyl poˇcet ˇrádk˚u ve vstupn´ım souboru beze zbytku dˇelitelný poˇctem vytváˇrených soubor˚u.

Poté co jiˇz máme upravený soubor s váhami i rozdˇelený seznam soubor˚u, m˚uˇzeme spustit SFeaCat. Abychom ho mohli spustit distribuovanˇe v prostˇred´ı SGE, vytvoˇr´ıme si jednoduchý skript, který vypadá pˇribliˇznˇe následovnˇe:

#!/bin/sh LNG=cz mkdir $work_dir/feacat$SGE_TASK_ID /net/matylda2/projekty/PhnRec/bin/SFeaCat\ -S $rec_tmp_dir/test_fea_$LNG.list_$SGE_TASK_ID\ -H $rec_tmp_dir/out_$LNG/Weights/train_$LNG.vahy\

-l $work_dir/feacat$SGE_TASK_ID -y lop --startfrmext=15 --endfrmext=15 touch $rec_tmp_dir/run_feacat_cz_${SGE_TASK_ID}_done

Nen´ı to pˇresná podoba výsledného skriptu, hodnoty $work_dir a $rec_tmp_dir jsou totiˇz pˇri vytváˇren´ı skriptu nahrazeny celými cestami. Ostatn´ı promˇenné shellu, v naˇsem pˇr´ıpadˇe $SGE_TASK_ID, která udává identifikaˇcn´ı ˇc´ıslo úlohy a podle které vybereme i správný seznam soubor˚u, tak i námi nastavená $LNG jsou zamˇenˇeny za správné hodnoty aˇz pˇri bˇehu skriptu.

Ze skriptu lze vyˇc´ıst, ˇze nejdˇr´ıve vytvoˇr´ıme adresáˇr, kam budeme ukládat výstupn´ı lop soubory a následnˇe spust´ıme program SFeaCat s parametry, které udávaj´ı seznam zpra-covávaných soubor˚u, upravený soubor s váhami, podle kterého se bude pˇrevádˇet, dále výstupn´ı adresáˇr a pˇr´ıponu výstupn´ıch soubor˚u. Posledn´ı dva parametry pˇridávaj´ı kon-text na zaˇcátek a konec vˇety tak, aby se mohly rozpoznat i fonémy na okraji. Tyto hodnoty by mˇely být stejné jako nastaven´ı pˇri trénován´ı s´ıt´ı.

Posledn´ı ˇrádek skriptu má za úkol vytvoˇrit soubor, podle kterého jde jednoduˇse poznat, ˇ

ze pˇrevod skonˇcil. Toto je nutné z toho d˚uvodu, ˇze se jednotlivé kroky rozpoznáván´ı mus´ı provádˇet po sobˇe, protoˇze data z této fáze budou vyuˇzita v dalˇs´ıch kroc´ıch a pokud by se jeˇstˇe nestihla vytvoˇrit, tak by byl výsledek chybný. Rozpoznávac´ı skript tedy ˇceká, aˇz se v tomto pˇr´ıpadˇe objev´ı soubory ze vˇsech spuˇstˇených trénovac´ıch skript˚u a aˇz poté pokraˇcuje dále.

Pˇred ˇcek´an´ım na ukonˇcen´ı pˇrevodu mus´ıme ale nejprve tyto skripty odeslat do SGE, coˇz provedeme pˇr´ıkazem

qsub -t 1:5 -q all.q@@blade,all.q@svatava,all.q@ulrika\ -l long_job_03=5 run_feacat_cz.sh

, jehoˇz parametry udávaj´ı, ˇze se má spustit celkem pˇet instanc´ı na daných poˇc´ıtaˇc´ıch, a budou spuˇstˇeny aˇz bude volných alespoˇn pˇet slot˚u pro úlohy trvaj´ıc´ı okolo tˇr´ı hodin. Posledn´ım parametrem je samozˇrejmˇe název naˇseho vytvoˇreného skriptu, který chceme spustit.

(32)

Po dokonˇcen´ı pˇrevodu jeˇstˇe mus´ıme vytvoˇrit seznam novˇe vytvoˇrených lop soubor˚u, v pˇr´ıpadˇe ˇceˇstiny tento seznam pojmenujeme cz_lop.list. Jeho vytvoˇren´ı nejsnáze pro-vedeme s pomoc´ı pˇr´ıkazu ls -R, který vyp´ıˇse obsah daného adresáˇre ˇci daných adresáˇr˚u, následovaného cestou k feacat adresáˇr˚um. Bohuˇzel toto ale nevytvoˇr´ı seznam s cestami jak potˇrebujeme pro rozpoznávaˇc, proto jeˇstˇe výstup z pˇr´ıkazu ls uprav´ıme malým skriptem v perlu, který k jednotlivým soubor˚um dodá správné cesty.

Vytvoˇren´ı HMM definic a fon´emov´e smyˇcky

Pˇred spuˇstˇen´ım rozpoznávaˇce jeˇstˇe mus´ıme vytvoˇrit dva dalˇs´ı soubory. Tˇemito soubory jsou soubor HMM definic, ve kterém jsou definovány fonémy a jednotlivé stavy a pˇrechody pˇri jejich rozpoznáván´ı a fonémovou smyˇcku, ve které jsou definovány moˇzné pˇrechody mezi jednotlivými fonémy.

K vytvoˇren´ı souboru HMM definic potˇrebujeme pouze seznam foném, který máme jiˇz vytvoˇren v adresáˇri se vstupn´ımi daty, staˇc´ı tedy zavolat skript pro vytvoˇren´ı tˇechto definic, který se nacház´ı v adresáˇri decode/NETS. Spuˇstˇen´ı tohoto skriptu i s parametry vypadá následovnˇe

decode/NETS/create_CI_hmmmodel_for_NNposteriors.pl train/cz/cz_phonemes\ cz_phonemes_CI_1st.hmmdefs 1 NULL

Prvn´ım parametrem je soubor se seznam foném˚u daného jazyka, druhým parametrem je jméno výstupn´ıho souboru ve kterém chceme m´ıt uloˇzeny výsledné definice, dalˇs´ım parame-trem je poˇcet stav˚u, které má model pro jeden foném a posledn´ım parametrem je pˇr´ıpadný název souboru se statistikami (v naˇsem pˇr´ıpadˇe o nˇej nemáme zájem, proto je parametr NULL).

Dalˇs´ım souborem, který potˇrebujeme vytvoˇrit je fonémová smyˇcka, která urˇcuje sled foném, který m˚uˇze být na výstupu rozpoznán. Postup pro vytvoˇren´ı této smyˇcky je ob-dobný jako v pˇr´ıpadˇe HMM definic, pro jeho vytvoˇren´ı je potˇreba také fonémová sada poˇzadovaného jazyka a také ˇsablona, podle které se tato smyˇcka vytvoˇr´ı. Spuˇstˇen´ı tohoto skriptu m˚uˇze vypadat takto

decode/NETS/make_net_phnrec.sh train/cz/cz_phonemes cz_lang.net\ decode/NETS/phn_rec_net_prototype.net decode/NETS/tmp/

Prvn´ım parametrem tohoto skriptu je opˇet seznam foném˚u daného jazyka, druhým je taktéˇz jméno výstupn´ıho soubor se s´ıt´ı. Tˇret´ı parametr je jiˇz odliˇsný a v tomto pˇr´ıpadˇe je to ˇsablona, podle které bude výsledná s´ıt vytvoˇrena. Posledn´ım parametrem je odkládac´ı ad-resáˇr, ve kterém budou uloˇzeny pomocné soubory, které jsou nutné pˇri vytváˇren´ı s´ıtˇe.

4.3.2 Rozpoznáván´ı a výpoˇcet úspˇeˇsnosti

Nyn´ı kdyˇz jsou pˇripraveny vˇsechny potˇrebné soubory m˚uˇzeme jiˇz provést proces rozpoznáván´ı a následného vytvoˇren´ı konfusn´ı matice, ze které m˚uˇzeme vyˇc´ıst úspˇeˇsnost jednolivých foném˚u i celkovou úspˇeˇsnost rozpoznáván´ı. Rozpoznáván´ı z pˇripravených lop soubor˚u vy-tvoˇr´ı mlf soubor, kde sled i ˇcasy rozpoznaných foném˚u z testovac´ıch soubor˚u by v ideáln´ım pˇr´ıpadˇe mˇely být schodné jako v p˚uvodn´ım mlf souboru. Rozpoznáván´ı se provád´ı pomoc´ı nástroje SVite z STK toolkitu. Pˇr´ıklad vyvolán´ı tohoto programu i s parametry je zde SVite -A -D -T 1 -P HTK \