(2) 大 和 田 賢一. 審査委員: 小町 守 准教授. (主指導教員). 三浦 幸也 教授. (副指導教員). 片山 薫 准教授. (副指導教員).
(3) 統計 的機械翻 訳 にお ける グ ラフ伝搬 を用 いた未知語対 訳辞書構築 の改 善* 大 和 田 賢一. 内容梗概 統 計 的機 械 翻 訳 で は,翻 訳 元 に あ た る原 言 語 の 文 と翻 訳 先 に あ た る 目 的 言 語 の 文 か らな る 対 訳 文 を大 量 に 集 め た 大 規 模 対 訳 コー パ ス か ら,フ 訳 確 率 を 学 習 して,翻. レー ズ の 翻 訳 候 補 と翻. 訳 モ デ ル を 構 築 しな け れ ば な ら な い.統 計 的機 械 翻 訳 シ ス テ. ム 全 般 に 存 在 す る 問 題 の 一 つ と して,対 訳 コ ー パ ス に お け る 未 知 語 の 問 題 が あ る. 翻 訳 モ デ ル の 学 習 に用 い る 対 訳 コ ー パ ス 中 に 存 在 しな い単 語 が,シ. ステ ム の最適 化. に 用 い る開 発 セ ッ トや 評 価 に 用 い る テ ス トセ ッ トの 中 に 出 現 す る と,そ の 単 語 は 未 知 語(Out-of-Vocabularyword)と. して 処 理 され る こ とに な る.そ. して,未 知 語 が. そ の ま ま 英 語 文 中 に 出 現 す る とい っ た 処 理 が 未 知 語 に対 し て な さ れ る こ とが あ る. そ の よ う な 場 合,未. 知 語 の 存 在 は翻 訳 シ ス テ ム の 性 能 を 損 ね う る.対 訳 コ ー パ ス の. サ イ ズ が 大 き くな い場 合 や,開. 発 セ ッ トや テ ス トセ ッ ト と同 じ ドメ イ ン の 対 訳 コ ー. パ ス が 存 在 しな い た め に 異 な る ドメ イ ンの コー パ ス で 学 習 しな け れ ば な ら な い よ う な 場 合 に は,未 知 語 の 問 題 は よ り深 刻 に な り う る. 未 知 語 の 数 を 減 らす た め に は 対 訳 コー パ ス を 大 き くす れ ば 良 い と考 え ら れ るが, 大 規 模 で 質 の 良 い 対 訳 コ ー パ ス を構 築 す る こ と は難 し く,そ の よ うな 対 訳 コ ー パ ス を 持 つ 言 語 ペ ア や ドメ イ ン は 限 定 され て い る.一 方 で,単 言 語 コー パ ス や,同. 一 の 言 語 の み か らな る 単. じ ドメ イ ン の 内 容 に つ い て 異 な る 言 語 で 書 か れ て い る 対 照 コー. パ ス な ど は,対 訳 コ ー パ ス と比 較 す れ ば よ り容 易 に 入 手 可 能 で あ る と考 え られ る. そ の よ う な 状 況 下 に お い て,対 訳 コー パ ス か ら学 習 さ れ た 翻 訳 モ デ ル と組 み 合 わ せ て 単 言 語 コー パ ス や 対 照 コ ー パ ス を 用 い る こ とで,未. 知 語 に 対 して 翻 訳 候 補 と翻 訳. 確 率 を取 得 す る こ とを 試 み る,対 訳 辞 書 構 築(bilinguallexiconinduction)と れ る研 究 の 領 域 が,統. 計 的 機 械 翻 訳 の 分 野 で 発 展 して き た.. *首 都 大 学 東 京 大 学 院 シ ス テ ム デ ザ イ ン研 究 科 情 報 通 信 シ ス テ ム 学 域 修 士 論 文,学 修 番 号14890505, 2016年2月24日.. 呼ば.
(4) 対 訳 辞 書 構 築 手 法 の 基 本 的 な考 え 方 は,コ ー パ ス に お け る単 語 の 共 起 情 報 と そ れ に基 づ く単 語 間 の 類 似 度 を用 い て,未. 知 語 に 類 似 して い る単 語 の 翻 訳 情 報 を 未 知 語. に誘 導 す る,と い う も の で あ るが,特. に 近 年 で は,グ. ラ フ構 造 を 用 い た ラベ ル 伝 搬. ア ル ゴ リズ ム に よ っ て 対 訳 辞 書 構 築 を 行 う い くつ か の 研 究 が 取 り組 ま れ て き て い る.そ. こ で は,単 語 を ノ ー ド と見 倣 し単 語 間 の類 似 度 を ノ ー ド間 の エ ッ ジ の 重 み と. す る よ うな グ ラ フ構 造 を考 え,翻 訳 が 既 知 で あ る よ うな 単 語 に相 当 す る ラベ ル 有 り ノー ドか ら未 知 語 に対 応 す る ラ ベ ル無 し ノー ドへ と ラ ベ ル を 伝 搬 させ る こ と に よ っ て,未 知 語 の 翻 訳 候 補 と翻 訳 確 率 を取 得 す る こ とを 実 現 して い る.一 般 に グ ラ フ に よ る ラ ベ ル 伝 搬 手 法 は,相 対 的 に 少 な い 数 の ラベ ル 有 りノ ー ドか ら多 くの ラベ ル 無 し ノ ー ドへ と ラ ベ ル を 伝 搬 させ る手 法 で あ り,先 行 研 究 で は 単 言 語 コ ー パ ス 等 に お け る 単 語 を グ ラ フ 中 の ラベ ル 無 し ノー ド と して 利 用 す る こ とに よ っ て,対 訳 辞 書 構 築 へ の この 手 法 を適 用 して い る. 本 研 究 で は,未 知 語 に 対 す る グ ラ フベ ー ス の 対 訳 辞 書 構 築 手 法 を改 善 す る こ とを 試 み た.具 体 的 に は,こ れ まで 単 語 の 表 現 と して 用 い られ て きた 共 起 情 報 に 基 づ く 疎 な ベ ク トル と は 異 な る ベ ク トル 表 現 を 用 い る こ と,そ. して 先 行 研 究 と は 異 な る. グ ラ フ構 造 を用 い て ラ ベ ル 伝 搬 を行 う こ とに取 り組 ん だ.そ. れ らの 提 案 手 法 を,フ. レ ー ズ ベ ー ス 統 計 的 機 械 翻 訳 シ ス テ ム を用 い た 日本 語 か ら英 語 へ の 翻 訳 実 験 に 適 用 し,取 得 さ れ た 未 知 語 対 訳 辞 書 に 関 して 評 価 を 行 っ た.そ. して そ の 評 価 結 果 を 分 析. し,グ ラ フ ベ ー ス の 対 訳 辞 書 構 築 手 法 の性 質 に っ い て 考 察 を 加 え た.. 鱒11.
(5) ImprovingBilingualLexiconInductionfor Out-of-VocabularyWordsinStatisticalMachine TranslationUsingGraph-propagation* KenichiOhwada. Abstract. Statisticalmachinetranslationneedstoconstructatranslationmodelby learningPhrasetranslationcandidatesanditstranslationprobabilitiesfrorna parallelcorpusconsistingofaIargeamountofbilingualsentenceswhicharepairs ofsourcela,nguage,ssentenceandtargetlanguage,ssentence.Theoccurrence ofunknownwordsinaparallelcorpusstillremainsalargeproblelnillgeneral SMTsystems.Ifwordsnotfoundintheparallelcorpusoccurinthedevset foroptimizationofthesystelnorthetestsetfol・evaluationofthesystem,the wordsaretreatedasunknown(Out-of」Vocabulary:00V)words.00Vwords areusuallycopiedtothetargetsentence,soutputwithoutanychangebythe systems.Inthatcase,theoccurenceofOOVwordsharmstheperformanceof thetranslationsysteln.Ifasizeofaparallelcorpusisn,tlargeenoughorthe domainofdevandtestsetsandthedomainofparallelcorpusaredifferent,the problemofOOVwordsbecomessevere. ToreducethenumberofOOVwords,weoughttoincreasethesizeofthe parallelcorpus.However,constractingahigh-qualitylarge-scaleparallelcorpusisdi田cult,andthelanguagesandthedomainswhichhavesuchparallel corpusarelimited.Ontheotherhand,monolingualcorpusconsistingofthe sentencesinasinglelanguageorcomparablecorpusconsistingofbilingualtexts fromsamedomainwrittenbydifferentlanguagesareeasilyavailablecompared. *Master,sThesis. ,DepartmentofInformationandCommunicationSystems,GraduateSchooI. ofSystemDesign,TokyoMetropolitanUniversity,StudentID14890505,February24,2016.. iii.
(6) withparallelcorpora.Undersuchcondition,ataskcalledBilingualL,exicon Inductionhasbeendeveloped,whichtriestoachievethetranslationsofOOV wordsbyusingamonolingualorcomparablecorpuswiththetranslationmodel learnedfromtheparallelcorpus. ThebasisofBilingualLexiconInductionmethodsistheuseofco-occurence informationofwordsinamonolingualcorpusandthesimilaritiesbetweenthat words,andtheinductionofthetranslationinformationofthewordssimilarto OOVwords.Recently,graph-basedlabelpropagationalgorithmsareappliedto theBilingualLexiconInductiontask.、Vordsareregardedasnodesinthegraph andsimilaritiesbetweenwordsaretreatedastheweightsoftheedgesofthe nodes.Fromlabelednodeswhosetranslationcandidatesanditsprobabilities areknowninthephrase-table,thelabelsarepropagatedtotheunlabelednodes correspondingtoOOVwords,andwecangetthetranslationcandidatesandits probabilitiesofOOVwords.Ingeneral,graph-basedlabelpropagationisthe methodwhichpropagatesthelabelsfromrelativelysmalleramountoflabeled nodestolargeramountofunlabelednodes.Inpreviouswork,byusingwords inalargemonolingualcorpusasadditionalunlabelednodesinthegraph,a graph-basedmethodwasappliedtotheBilingualLexiconInductionsetting. Inthisresearch,Iaddresstheimprovementsofthegraph-1)asedBilingual LexiconInductionmethodsfbrOOVwords.Inparticular,Iuseadensevec. torbasedondistributionalrepresentationofawordinsteadofasparsevector basedonco-occurenceinformationofawordinacorpususedinpreviouswork. Futhermore,Itrytousedifferentgraphstructuresfrompreviouswork. .Iap-. plyproposedmethodstotheJapanese-to-Englishtranslationexperimentsusing phrase-basedSMTsystem,andevaluatetheperformanceofBilingualLexicon InductionforOOVwords.Then,Iconsidertheevaluationresultsandthenatureofgraph-basedBilingualLexiconInductionmethods.. iv.
(7) 目次. は. じ め に. 1. 第2章. 関 連 研 究. 3. 第3章. 統 計 的 機 械 翻 訳. 5. 第1章. に 関 す る そ の 問 題 点. 5. 統 計 的 機 械 翻 訳.................... 5. 3.1. と 未 知 語. 3.1.1翻. 訳. モ デ ル. と 言 語 モ デ ル.......... 6. 3.1.2デ. コ ー. ド.................. 6. 3.1.3評. 価. と 最 適 化...。............ 7. 3.2. 第4章. 未 知 語. に 関 す る 問 題 点................ 9. グ ラ フ ベ ー ス の ラ ベ ル 伝 搬 を 用 い た 対 訳 辞 書 構 築. 4.1. 文 脈 ベ. 4.2. 類 似 度 の 計 算.................... ク. .9. ト ル の 構 築................ 11. 4.3. グ ラ フ 構 築..................... 11. 4.4. ラ ベ ル 伝 搬........_........... 12. 4.5. PBSMTへ. の 組 み 込 み............... ..15 だ0 1よ. 第5章. 提 案 手 法 を 用 い た ノ ー. 5.2. 低 頻 度 語. ノ ー. 5.3. グ ラ フ 構 造. ドの ベ. ク ト ル 表 現....... ρ0 -⊥. 分 散 表 現. ρ 0 ー←. 5.1. に 関 す る 改 善 手 法........... V. 78 1⊥. ラ フ........... 7-←. 5.3.1mutualk-NNグ. ド の 削 除...............
(8) 第6章 6.1. 実 験. 18. 実 験 設 定................... 18. 6.1.1コ. ー パ ス............... 18. 6.1.2ベ. ー ス. 6.1.3グ. ラ フ ベ ー スBH.......... 6.1.4提. ラ イ ンPBSMTシ. 案 手 法. 19 19. に 関 す る 設 定........ ρU. り白. ρU. 00. 評 価 尺 度................... 20. 実 験 結 果................... 21. 6.3.1ノ. ー. 6.3.2低. 頻 度 語. 6.3.3グ. ドの ベ ク ノ ー. ラ フ構 造 mutualk-NNグ. 第7章. 18. ス テ ム.. トル 表 現 に 関 す. る 結 果. 21. ドの 削 除 に 関 す. る 結 果. 22. に 関 す. 23. る 結 果...... ラ フ を 用. おわ りに. い た 結 果. .23. 24. 参考文献. 25. vi.
(9) 第1章. は じめ に. 統 計 的 機 械 翻 訳(StatisticalMachineTranslation:SMT)に 語 に お け る あ る フ レー ズ が,も. 方の言. う一 方 の 言 語 に お け る あ る フ レ ー ズ へ と翻 訳 さ れ. る確 率 は,大 規 模 な 対 訳 コー パ ス(parallelcorpus)か ス と は,翻 訳 を 行 い た い2つ. お い て,一. の 言 語 に 関 して,一. ら学 習 さ れ る.対 訳 コ ー パ. 方 が も う一 方 の 翻 訳 に な っ て い. る よ う な 文 の 対 が 集 め ら れ た も の で あ る.学 習 に用 い る コ ー パ ス と テ ス トに 用 い る コ ー パ ス は 異 な る 物 で な けれ ば な ら な い の で,学 在 し な い 単 語 が,テ. 習 に用 い た 対訳 コーパ ス に 存. ス トセ ッ トに お け る入 力 文 中 に 存 在 す る と,そ の 単 語 は 未 知 語. (Out-of-『Vocabulary:00V)と. して 処 理 され る.一 般 的 に,SMTシ. ステ ム にお け. る未 知 語 は 元 の 言 語 に お け る そ の 単 語 を そ の ま ま 出 力 す る 等 の 処 理 を さ れ る た め, 未 知 語 の 存 在 は翻 訳 シ ス テ ム の 性 能 を 損 ね る.従 っ て,未. 知語 の翻 訳 を可能 にす る. こ と は翻 訳 の 品 質 の 改 善 に 繋 が り得 る. 未 知 語 の 数 を 減 ら す た め の 最 も 直 接 的 な 方 法 は,対 く す る こ と で あ る.し. か し な が ら,質. 訳 コー パ ス の 規 模 を大 き. の 良 い 大 規 模 対 訳 コー パ ス を作 成 す る こ. と は 難 し い.更. に は,規. 考 え づ ら い.対. 訳 コ ー パ ス の 作 成 が 難 し い 作 業 で あ る 一 方 で,単. (monolingualcorpus)は. 模 を 大 き く し て も未 知 語 が 全 く無 く な る と い う こ と は 言 語 コー パ ス. 常 に大 量 に 作 成 され 続 け て い る.ま た,コ ンパ ラ ブ ル コー. パ ス(comparablecorpus)と1乎. ばれ る,各 文 が 対 訳 に な っ て い る訳 で は な い が 同 じ. 分 野 や 領 域 の 内 容 に つ い て 異 な る言 語 で 記 述 して い る よ う な コ ー パ ス も,対 訳 コ ー パ ス と比 較 す れ ば 入 手 が 容 易 で あ る.そ の よ う な 単 言 語 コ ー パ ス や コ ン パ ラ ブ ル コー パ ス を 利 用 して 未 知 語 に 対 す る翻 訳 を取 得 す る こ とは,SMTに. お け る研 究 課. 題 と して 存 在 して き た.そ れ は,対 訳 辞 書 構 築(bilinguallexiconinduction:BLI) と呼 ば れ る,単 言 語 コー パ ス や コ ン パ ラ ブル コー パ ス か ら未 知 語 に 対 す る翻 訳 を 取 得 す る た め の 手 法 で あ る. この 論 文 で は,グ ラ フ 伝 搬 ア ル ゴ リズ ム を用 い たBLI手 訳 を獲 得 しend-to-endのSMTシ. 法 に よ っ て,未 知 語 の 翻. ス テ ム の 性 能 を 向 上 させ る手 法 に対 す る 改 善 を. 提 案 す る.こ の 手 法 は,分 布 仮 説 に 基 づ くフ レ ー ズ の ベ ク トル 表 現 と,そ の ベ ク ト ル 間 の 類 似 度 計 算 に よ っ て,コ. ー パ ス 中 の フ レ ー ズ の 関 係 を 表 現 す る グ ラ フ を構 築. し,そ の グ ラ フ構 造 を 通 して,翻 訳 が 既 知 で あ る フ レー ズ か ら,未 知 語 に 対 す る対. 1.
(10) 訳 辞 書(翻. 訳 とそ の 翻 訳 確 率)を. 誘 導 す る.私 は,こ の 手 法 に お け る ベ ク トル 表 現. と グ ラ フ構 造 に 関 す る 改 善 策 を 提 案 し,そ れ らが 未 知 語 単 語 の 対 訳 辞 書 を効 果 的 に 構 築 し う る こ と を 実 験 に よ っ て 検 証 した. この 研 究 の 貢 献 は 以 下 の 通 りで あ る. ・ これ ま で のBLI研. 究 に お い て 試 され て 来 な か っ た 分 散 表 現 に基 づ くノ ー ド. の ベ ク トル 表 現 を グ ラ フ ベ ー ス の ラベ ル 伝 搬 手 法 に適 用 し,そ の 効 果 を 検 証 す る. ・ グ ラ フ 中 か ら低 頻 度 語 を 除 去 す る こ と と,先 行 研 究 と は 異 な る グ ラ フ構 造 を 適 用 す る こ と の,ラ ベ ル 伝 搬 手 法 に 与 え る効 果 を検 証 す る. ・ これ ら の 結 果 を 分 析 し,BLI手. 法 の 性 質 につ いて 考 察 す る.. こ の 論 文 は 以 下 の よ う に構 成 さ れ る.第2章 にBLIの SMTの. 関 連 研 究 に つ い て ま とめ,第3章 説 明 を 中 心 にSMTの. つ い て 説 明 す る.第6章. で は今 回実験 で用 いた フ レーズ ベ ー ス. 概 説 を行 い,未 知 語 が 翻 訳 シ ス テ ム の 性 能 を どの よ. う に 損 ね う る か を 説 明 す る.第4章 伝 搬 を 用 い たBLI手. で グラ フ伝 搬 を用 い た手 法 を 中心. で は,今 回 の 実 験 で の 比 較 対 象 と した,グ. 法 の 詳 細 を 述 べ,第5章. で それ を改 善 す るた め の提 案 手 法 に. に お い て 実 験 設 定,評 価 尺 度,そ. そ の 分 析 を 行 う.最 後 に,第7章. して 実 験 の 結 果 を 提 示 し,. で 全 体 の ま とめ を 行 い,論 文 を 締 め く く る.. 2. ラフ.
(11) 第2章. 関連研 究. 既 知 の 対 訳 辞 書 を シ ー ドと して,そ コ ー パ ス を 用 い る こ と に よ っ て,新 と を 目 的 と す る,対 RaPP(1995)[6]に 起 す る2つ. の シ ー ドと,単 言 語 コー パ ス や コ ンパ ラ ブ ル た な フ レー ズ に対 す る対 訳 辞 書 を構 築 す る こ. 訳 辞 書 構 築(BLI)と. 呼 ば れ る 研 究 領 域 が 存 在 す る.BLIは,. よ っ て 研 究 が 始 め られ た.こ の 研 究 で は,あ. る言語 にお い て共. の 単 語 は,別 の 言 語 に お け る そ れ らの 単 語 の 翻 訳 も共 起 す るで あ ろ う,. と い う仮 定 に 基 づ き,そ れ らの 共 起 と類 似 度 を 利 用 して 翻 訳 を獲 得 す る こ とを 試 み た.BLIの. 研 究 は そ の 後,KoehnandKnight(2002)[7],Martolletal.(2009). [5]に よ っ て 進 め ら れ た.KoehnandKnight(2002)[7]は,単. 言 語 コーパ ス のみ. か ら単 語 の 対 訳 辞 書 を 構 築 す る こ とを 試 み 成 果 を 上 げ た が,こ. れ らの 研 究 は,一 般. 的 で あ っ た り高 い頻 度 で 出 現 した りす る 単 語 に 対 す る翻 訳 の 誘 導 の み に,そ 範 囲 が 限 定 さ れ て い た.Martonetal.(2009)[5]で. の適 用. は,文 脈 が 単 語 の 意 味 を 構 成. す る と い う分 布 仮 説 に 基 づ き,単 語 の 分 布 的 プ ロ フ ァイ ル(DistributionalProfile: DP)を. 作 成 す る.そ. measure)を. こで は,文 脈 語 との 共 起 情 報 に基 づ く関 連 性 尺 度(association. 用 い て 単 語 の ベ ク トル を 作 成 し,そ の ベ ク トル 間 の 類 似 度 を測 る 類 似. 度 尺 度(similaritymeasure)を. 用 い て,未 知 語 の 翻 訳 を 持 っ て い る よ うな 言 い 換 え. を 獲i得す る こ と を試 み た.IrvineandCallison-Burch(2013)[3]は,コ ル コ ー パ ス を 用 い て,未. ンパ ラ ブ. 知 語 に つ い て 翻 訳 候 補 が 実 際 に翻 訳 に成 り う る か ど う か の. 分 類 問 題 と して こ の 問 題 を定 義 し,類 似 度 等 の 素 性 を用 い て こ の 分 類 問 題 を解 い て い る. 近 年 で は,そ. の よ う なBLIに. 対 して,ラ. ベ ル を グ ラ フ構 造 に 沿 っ て 伝 搬 させ る. こ とで,翻 訳 を 持 た な い 単 語 ま た は フ レー ズ に 対 す る翻 訳 を 取 得 す る,グ ア ル ゴ リズ ム ベ ー ス の 手 法 を 適 用 す る こ とが 試 み られ て き た.そ Martonetal.(2009)[5]ら. ラ フ伝 搬. れ ら の 手 法 で は,. の よ う に,単 語 ま た は フ レ ー ズ を 共 起 情 報 を元 に した. 関 連 性 尺 度 を成 分 とす る ベ ク トル と して 表 現 し,そ れ らの 間 の 類 似 度 を 利 用 して い る.そ. こで は 一 般 に,単 語 ま た は フ レ ー ズ に 対 応 す るベ ク トル は,グ. 各 ノ ー ド と して 表 現 され,ノ て 付 与 され る.ま た,既. ラ フにお け る. ー ド間 の エ ッ ジ に は そ れ ら の 間 の 類 似 度 が 重 み と し. 知 の 翻 訳 は ラ ベ ル と見 倣 さ れ,そ. の ラ ベ ル を グ ラ フ構 造 に. 沿 っ て 伝 搬 させ る グ ラ フ伝 搬 ア ル ゴ リズ ム に よ り,未 知 語 に 対 す る ラベ ル,す. 3. なわ.
(12) ち 翻 訳 確 率 分 布 を 得 る こ と が 目 的 と さ れ る.Tamuraetal.(2012)[10]やIrvine andCallison-Burch(2013b)[4】 ム を 用 い て,未 で は,対. ら は,シ. ー ド とな る対 訳 と グ ラ フ伝 搬 ア ル ゴ リズ. 知 語 に 対 す る 対 訳 辞 書 を 構 築 し て い る.Razmaraetal.(2013)[1]. 訳 コ ー パ ス に よ っ て 得 ら れ た 既 知 の 対 訳 辞 書 を,単. て 構 築 さ れ た グ ラ フ 構 造 を 用 い て 伝 搬 さ せ る こ と で,未 を 一 定 程 度 得 る こ と に 成 功 し て い る.こ の 単 語(unigram)に. 言 語 コー パ ス に基 づ い. 知 語 に 対 す る翻 訳 確 率 分 布. れ ら の 研 究 は,単. 純 な 未 知 語,つ. 対 す る 翻 訳 を 取 得 す る こ と に 専 念 し て お り,二. な る フ レ ー ズ(bigram)や. ま り一 つ. つ の単 語 か ら. そ れ 以 上 の 長 さ の フ レー ズ に 対 す る翻 訳 を取 得 す る こ と. を 通 じ て 翻 訳 モ デ ル 全 体 を 拡 張 す る こ と に は 取 り組 ん で こ な か っ た.Salujaetal. (2014)[2】. ら は,bigramに. こ の 問 題 に 取 り組 み,ま. 対 す る翻 訳 を持 っ た 言 い換 え を 見 つ け る こ と に よ っ て た,目. 的 言 語 側 の フ レ ー ズ の 類 似 度 を も考 慮 し な が ら ラ ベ. ル の 伝 搬 を 行 う構 造 化 ラ ベ ル 伝 搬(StructuredLabelPropagation:SLP)ア. ル ゴ. リ ズ ム を こ の 領 域 に 導 入 し た. グ ラ フ ベ ー ス の ラ ベ ル 伝 搬 ア ル ゴ リ ズ ム は,ZhuandGhahramani.(2002)〔11] に よ っ て ま ず 提 案 さ れ た.こ. の ア ル ゴ リ ズ ム は 一 般 に,少. 数 の ラベ ル 付 き ノ ー ド と. 多 くの ラ ベ ル 無 し ノ ー ド に よ っ て 構 成 さ れ る グ ラ フ を 用 い て,既. 知 の ラベ ル の 情 報. を ラ ベ ル 無 し ノ ー ドへ と 伝 搬 さ れ る こ と に よ っ て 新 た な ラ ベ ル を 得 る 手 法 で あ り, 半 教 師 有 り学 習 手 法 の 一 種 で あ る.詳 の 遷 移 確 率 を 表 す 行 列 と,ノ. し くは 後 述 す る が,類. ー ドに 対 す る ラ ベ ル を 表 す 行 列 の 間 の 演 算 と し て こ の. ア ル ゴ リ ズ ム は 記 述 で き る.BLIの. 領 域 に お い て,Razmaraetal.(2013)[1]ら. は,TalukdarandCrammer(2009)[12]に (MAD)ア. 似 度 に 基 づ く ノ ー ド間. よ っ て 提 案 さ れ たmodifiedAdsorption. ル ゴ リ ズ ム を 用 い て 翻 訳 確 率 の 伝 搬 を 行 っ て お り,前. al.(2014)【2]ら. は,Liuetal.(2012)[13]が. 提 案 し たSLPを. 述 の 通 りSalujaet 用 いて 目的言語 側 の. 情 報 も 組 み 込 ん だ 形 で の 翻 訳 確 率 の 伝 搬 を 実 現 し て い る. そ の 他 のBLIに (2009)[9]ら. 関 連 す る 分 野 の 研 究 と し て は,AlexandrescuandKirchhoff. が,あ. る言 語 で 類 似 して い る 文 は 別 の 言 語 に お い て 類 似 した 翻 訳 を持. っ と い う 仮 定 に 基 づ い て,グ こ と をSMTに. 導 入 し,Callison-Burchetal.(2006)[8]で. 2つ の 言 語 以 外 の 第3の 得 か ら,未. ラフベー スの手 法 に よって文 の 間 の類似 度 を決定 す る は,翻. 訳 に直 接 関 わ る. 言 語 を ピ ボ ッ ト言 語 と し て 用 い る こ と に よ る 言 い 換 え の 取. 知 語 に 対 す る 翻 訳 を 抽 出 す る 手 法 を 提 案 し て い る.. 4.
(13) 第3章. 統計 的機 械翻訳 と未知 語 に関す るその 問題点. 3.1統. 計 的機 械 翻 訳. 統 計 的 機 械 翻 訳(StatisticalMachineTranslation:SMT)は,翻 で 記 述 す る よ う な 知 識 に基 づ く機 械 翻 訳 や,既. 訳 ルー ル を人手. 存 の翻 訳例 を用 い て新 た な入 力文 に. 対 す る翻 訳 を 生 成 す る用 例 に 基 づ く機 械 翻 訳 とは 異 な り,大 規 模 な 対 訳 コー一パ ス か ら翻 訳 ル ー ル を 自 動 で 学 習 す る こ と に よ っ て,シ ま ずSMTシ. ス テ ム に つ い て 概 説 を行 い,SMTシ. うに 定 義 さ れ,ど. ス テ ム を 構 築 す る.こ. の 章 で は,. ス テ ム に お け る未 知 語 が ど の よ. の よ うに シ ス テ ム の 性 能 を 損 ね う るか,と. い う こ とにつ いて説 明. す る.. 3.1.1翻 SMTは. 訳 モ デ ル と言 語 モ デ ル そ の 初 期 に お い て,雑. 音 の あ る通 信 路 モ デ ル(noisychannelmodel)と. して そ の 定 式 化 が な さ れ た[19].翻 語 を 原 言 語,翻 的 言 語 文eへ. 訳 を行 う2つ の 言 語 の 内,翻 訳 元 に な る方 の 言. 訳 先 に な る方 の 言 語 を 目 的 言 語 と呼 ぶ.あ と翻 訳 され る確 率P(elf)が. る原 言語 文 ∫ が あ る 目. 最 大 に な る よ う な δ を 求 め る こ とに よ っ. て,最 良 の 翻 訳 文 を 生 成 す る こ とがSMTの. 目的 で あ る.そ の よ う な 目 的 言 語 文 の. 選 択 の 式 は,ベ イ ズ の 定 理 を 用 い て 以 下 の よ うに 変 形 で き る.. e一 ㎎ 避xP¢1∫)一 ㎎ 〆(嬬 こ こ で,既 知 の 原 言 語 文 に 関 す る確 率P(f)は. るeか. ・). この 問 題 に お い て は定 数 で あ る た. め,最 後 の 式 の 分 母 は 無 視 す る こ とが 可 能 で あ る.そ と呼 ば れ,あ. ㈲(3・. の 時,P(fle)は. ら ∫ が 生 成 さ れ る確 率 を 表 し,P〔e)は. 翻訳モデル. 言 語 モ デ ル と呼 ば れ,. 翻 訳 結 果 で あ る εの 目 的 言 語 と して の確 か ら し さ(流 暢 さ)を 表 現 す る モ デ ル で あ る.こ. こで,翻. 訳 モ デ ル のfとeが. 本 来 と逆 に な っ て い る の が,雑. 路 モ デ ル と され る理 由 で あ り,あ るeが. 音 の あ る通 信. 雑 音 の あ る通 信 路 を 通 っ て あ る ∫ へ とエ. ン コ ー ド され て い る とい う仮 定 の 元,fをeへ れ る,と い う形 で の 定 式 化 が な され て い る. 5. とデ コ ー ドす る こ とで 翻 訳 が 出 力 さ.
(14) 翻 訳 モ デ ル は,今 お い て は,あ. 回 実 験 で 用 い た フ レ ー ズ ベ ー ス統 計 的 機 械 翻 訳(PBSMT)に. る 原 言 語 フ レ ー ズ が あ る 目 的 言 語 フ レー ズ へ と翻 訳 さ れ る確 率 を与 え. る も の で あ り,対 訳 文 中 の 単 語 間 の 単 語 ア ラ イ メ ン トを 用 い て 対 訳 コー パ ス か ら学 習 さ れ る.そ. こで は,単 語 ア ラ イ メ ン トか ら ヒ ュ ー リス テ ィ クス を 用 い て フ レー ズ. の ペ ア を 抽 出 す る 段 階 と,コ ー パ ス に お け る 出 現 頻 度 を 用 い て 抽 出 さ れ た フ レー ズ ペ ア に翻 訳 確 率 を付 与 す る段 階 を経 て,フ れ る.一 方 言 語 モ デ ル は,目. 作成 さ. 的 言 語 文 の み の コ ー パ ス か ら,目 的 言 語 文 に 対 して 確. 率 を 付 与 す る た め のn-gramモ. 3.1.2デ. レー ズ テ ー ブ ル(phrasetable)が. デ ル 等 が 学 習 され る.. コー ド. あ る 入 力 文fに. 対 して 式(3.1)に. に お け る デ コ ー ドで あ る.そ. お け る 目的 言 語 文 ε を 出 力 す る こ とが,SMT. の 際,あ. る 出 力 結 果eを. 導 出 し う る全 て の 生 成 過 程. の 確 率 の 和 を 翻 訳 に 与 え る確 率 と し,そ れ が 最 大 とな る よ う な ε を 翻 訳 結 果 と し た い が,そ. の よ う な 過 程 は 非 常 に 多 く,現 実 的 に は不 可 能 で あ る た め,ビ ー ム 探 索. (beamsearch)等. の 候 補 の 枝 刈 りを用 い た 近 似 的 な探 索 手 法 に よ っ て,翻. 訳結 果 を. 出 力 す る.. 3.1.3評. 価 と最 適化. 各 モ デ ル の パ ラ メ ー タ は,訓 練 セ ッ トと呼 ば れ る大 規 模 対 訳 デ ー タ を用 い て 学 習 さ れ,テ. ス トセ ッ ト と呼 ば れ る対 訳 デ ー タ に お け る原 言 語 文 を デ コー ド した 翻 訳 結. 果 を 用 い て,翻 訳 シ ス テ ム の 性 能 が 評 価 さ れ る.評 価 に は 自動 評 価 と人 手 評 価 が あ り,自 動 評 価 で は,テ. ス トセ ッ トに お け る 目的 言 語 文 と翻 訳 結 果 を 照 ら し合 わ せ る. こ と に よ っ て 評 価 値 が 算 出 さ れ,人 手 評 価 で は,異 な る シ ス テ ム の翻 訳 結 果 を 人 が 比 較 す る こ と に よ っ て シ ス テ ム の 優 劣 が 決 定 さ れ る.人 手 評 価 に は コ ス トが か か る た め,一 般 的 に機 械 翻 訳 シ ス テ ム の 評 価 は 自動 評 価 に よ っ て 行 わ れ る こ との 方 が 多 く,そ の 尺 度 と して はBLEU(bilingualevaluationunderstudy)[18]等. の値 が用. い られ る. 現 在 のSMTで. は,式(3.1)に. お け る 目的 言 語 文 の 選 出 を,様. 6. 々な素 性 の重 み 付.
(15) け 線 形 和 に よ る 対 数 線 形 モ デ ル(loglinearmodel)に. ε一a・91naxP(elf)一 こ こで,ん(f,e)は て 組 み 込 まれ,そ. ㎎1…. よ っ て 定 式 化 し て い る.. Σ驚. 辮. き))(3・2). 素 性 ベ ク トル と呼 ば れ る.翻 訳 モ デ ル や 言 語 モ デ ル は 素 性 と し の 他 に も文 の 長 さ等 の い くつ か の 素 性 が 追 加 され て,そ. が 素 性 ベ ク トル の 各 成 分 に な っ て い る.ω. れ らの値. は 素 性 ベ ク トル と 同 じ次 元 数 の 重 み ベ ク. トル で あ り,各 素 性 に 対 す る重 み が 各 成 分 に な っ て い る.こ. こ で 分 母 はeに. 依存せ. ず に決 定 され る た め デ コ ー ド時 に 分 母 は無 視 す る こ とが で き,素 性 ベ ク トル と重 み ベ ク トル の 線 形 和 に よ っ て モ デ ル が 表 現 され る.こ の 重 み ベ ク トル の 各 成 分 で あ る パ ラ メ ー タ を 学 習 す る た め に 行 わ れ るの が,最. 適 化 で あ る.テ. ス トセ ッ ト と類 似 し. た 対 訳 デ ー タ を 開 発 セ ッ ト と して 用 い て,開 発 セ ッ トの 原 言 語 文 を デ コ ー ド した 結 果 を 目 的 言 語 文 と照 合 す る こ とでBLEUス. コ ア等 の 評 価 値 を算 出 し,そ の 評 価 値. が 良 い 値 に な る よ う に 素 性 の 重 み を学 習 す る こ とが 一 般 的 で あ る.MERT(エ 率 最 小 化 学 習:minimumerrorratetraining)[20]と. ラー. 呼 ば れ る学 習 法 で は,翻 訳 結. 果 の エ ラー 率 に 基 づ く損 失 関 数 を 定 義 し,そ れ を最 小 化 す る よ う に パ ラ メ ー タ を 決 定 す る.. 3.2未. 知 語 に関 す る問題 点. 対 訳 コー ・ …パ ス か ら の 学 習 に 基 づ くSMTで. は,学 習 に 用 い る 対 訳 コー パ ス に 出 現. して い な い 単 語 や フ レー ズ は,00V(Out-of-vocabulary)と. して,つ. ま りコーパ. ス 中 に 出 現 しな い 未 知 語 と して扱 わ れ,翻 訳 モ デ ル に お い て 適 切 な 翻 訳 候 補 と そ の 翻 訳 確 率 を 付 与 す る こ とが で き な い.一 般 的 に そ の よ うな 単 語 や フ レー ズ は,原 言 語 文 に お け る形 を そ の ま ま翻 訳 結 果 に お い て 出 力 す る とい っ た 処 理 が な さ れ,例. え. ば 日本 語 か ら英 語 へ の 翻 訳 で は 英 語 文 中 に 日本 語 の 単 語 が そ の ま ま 出 現 す る と い う こ と に な り,こ の こ とは 自 動 評 価 に お い て も人 手 評 価 に お い て も,シ ス テ ム の 性 能 を損 ね う る.仮 に 未 知 語 に 対 す る あ る程 度 正 しい 翻 訳 候 補 とそ の 確 率 を 翻 訳 モ デ ル に追 加 す る こ とが で き れ ば,そ れ は 言 語 モ デ ル に よ っ て 補 正 され,結 正 しい翻 訳 を 生 み 出 し う るか も しれ な い.従 っ て,未. 7. 果 と して よ り. 知 語 に対 す る 対 応 は 翻 訳 の 品.
(16) 質 を 向 上 さ せ る可 能 性 を 持 っ. 未 知 語 の 数 を減 ら す た め に は,対 訳 コ ー パ ス の 規 模 を 大 き く して 単 語 や フ レ ー ズ の カ バ レー ジ を 上 げ る こ とが 有 効 で あ る.し か しな が ら,対 訳 コー パ ス を構 築 す る こ とに は 困 難 が 伴 う.文 書 間 が 翻 訳 に な っ て い る よ う な 対 訳 デ ー タ が 存 在 した と し て も,文 単 位 の ア ラ イ メ ン ト,す な わ ち どの 文 同 士 が 対 訳 に な っ て い る か は 自 明 で は な く,大 規 模 な 対 訳 コー パ ス の 構 築 に お い て そ の よ う な ア ライ メ ン トを 自動 で と る手 法 も存 在 す るが,そ. の 精 度 は常 に高 い 訳 で は な い.ま た,文 書 と して は 対 訳 に. な っ て い て も,文 単 位 の 対 訳 は そ もそ も決 定 で き な い と い う場 合 も あ る.そ の よ う な 理 由 か ら,高 い 質 を持 つ 大 規 模 な 対 訳 デ ー タ の 存 在 は,言 語 ペ ア や ドメ イ ン に 関 して 限 定 され て い る.一 方 で,単 一 の 言 語 の 文 か ら構 成 さ れ る単 言 語 コ ー パ ス は 既 に大 量 に 存 在 し,ま た そ の 元 とな る単 言 語 の 言 語 デ ー タ は常 に生 成 され 続 け て い る. 特 に,Webの. 発 展 に よ っ て 大 量 の 言 語 デ ー タ が 常 に 生 み 出 さ れ て お り,単 言 語 の. デ ー タ の 利 用 可 能 性 は高 ま り続 け て い る と言 え るだ ろ う.そ られ,単. 言 語 コ ー パ ス や,対. ル コー パ ス を用 い て,限 豊 か に す るた め の,対. う した 状 況 に 動 機 付 け. 訳 に は な っ て い な い が 語 彙 を 共 有 して い る コ ンパ ラ ブ. 定 され た 量 の 対 訳 コー パ ス に よ っ て 得 られ た 翻 訳 モ デ ル を. 訳 辞 書 構 築 手 法 がSMTの. 8. 分 野 で研 究 さ れ る よ う に な っ た..
(17) 第4章. グ ラ フベー スの ラベル伝搬 を用 いた対 訳辞書. 構築 こ の 章 で は,私. が 今 回 の 研 究 で ベ ー ス ラ イ ン と し て 比 較 対 象 に し,提. 用 す る 土 台 と な っ た,RazmaraetaL(2013)[1]の. 手 法 を 中 心 と し て,グ. ス の ラ ベ ル 伝 搬 ア ル ゴ リ ズ ム を 用 い たBLI手. 4.1文 BLI手. 案 手 法 を適 ラ フベ ー. 法 に つ い て 詳 細 に 説 明 す る.. 脈 ベ ク トル の構 築 法 の 目 的 は,主. に 未 知 語 に 対 す る翻 訳 候 補 と そ の 翻 訳 確 率 を得 る た め に,. 翻 訳 候 補 と翻 訳 確 率 が 既 知 で あ る よ う な 単 語 ま た は フ レ ー ズ(以 下 で は 基 本 的 に 単 語 を想 定 す る)か ら,そ れ ら を ラ ベ ル と して 伝 搬 させ る こ とで あ る.そ ル ー ル が 既 知 の 単 語,各. 未 知 語,そ. と見 倣 して グ ラ フ を 構 築 す る.そ. こで,翻. 訳. して 単 言 語 コー パ ス 中 の そ の 他 の 単 語 を ノ ー ド の グ ラ フ に お け る ノ ー ド間 の エ ッ ジ は,一. 般に. ノー ドに 対 応 す る フ レ ー ズ の 間 の 類 似 度 と して 定 義 さ れ る. まず,肌1に. 用 い る単 言 語 コー パ ス を用 い て,各 単 語 に 関 す る何 らか の 表 現 を作. 成 す る.Razmaraetal.〔2013)[1]で. はMartolle七al.(2009)[5]に. 倣 っ て,文 脈. に よ っ て 単 語 の 意 味 が 構 成 さ れ る とい う分 布 仮 説 に基 づ き,単 語 の 分 布 的 プ ロ フ ァ イ ル(DP)を. 構 築 す る.始. め に文 脈 語 との 共 起 情 報 を カ ウ ン ト し,そ の 共 起 カ ウ ン. トに基 づ い て 計 算 さ れ る関 連 性 尺 度(aSSOCiationmeasure)が. 計 算 さ れ,そ. の値が. 各 成 分 と な る よ う な ベ ク トル を 単 語 の 表 現 と して 作 成 す る.文 脈 語 は,表 現 を 作 成 し た い 単 語 か ら固 定 さ れ た 窓 サ イ ズ 以 内 に 出 現 す る単 語 と して 定 義 され,当. 該 単語. と あ る文 脈 語 が 単 言 語 コ ー パ ス 内 で 何 回 一 緒 に 出 現 した か を 共 起 カ ウ ン トと して 集 計 す る.そ の 段 階 で 単 語 は 文 脈 語 を用 い た 共 起 ベ ク トル と して 表 現 され て い る.文 脈 ベ ク トル の 作 成 に お け る 文 脈 語 の 選 び 方 に は,文 脈 語 を そ の 相 対 位 置 に よ っ て 区 別 す る もの と区 別 しな い もの が あ る.例 え ば,Razmaraetal.(2013)[1]は を位 置 に よ っ て 区 別 せ ず,Salujaetal.(2014)[2]で. 文脈語. は左 右 の み が 区 別 さ れ,そ. れ. ぞ れ の 中 で の 位 置 で は 区 別 さ れ な い.文 脈 語 を 相 対 位 置 に よ っ て 区 別 し な い 場 合, そ の 文 脈 ベ ク トル の 次 元 数 は,単 言 語 コー パ ス 中 の 単 語 の 異 な り数 に 等 し くな る. 単 語 と文 脈 語 の 関 係 を 図4.1に. 示 す.. 9.
(18) 注 目している単 語. 文脈 語 一一 一一一 一一. 図4.1文. : ,潔. 一. 文脈窓. 脈窓 サ イズが左 右2ず っ の場合 の単語 と文 脈語 の 関係. 関 連 性 尺 度 と して は,相 互 情 報 量(PointwiseMutualInformation:PMI),条 付 き確 率(ConditionalProbability:CP)等. 件. が,共 起 カ ウ ン トと各 単 語 や 各 文 脈 語. 自 体 の 出現 回 数 の カ ウ ン ト,そ して そ れ らの 総 和 を利 用 す る こ と に よ っ て 計 算 す る こ とが 可 能 で あ り,そ れ らの 関 連 性 尺 度 を ベ ク トル の 各 次 元,す. なわ ち各 文脈 語 に. っ い て 計 算 し,共 起 カ ウ ン トを そ の 関 連 性 尺 度 で 置 き換 え た ベ ク トル が,単 布 的 な 意 味 表 現 で あ るDPと. して用 い られ る.. DP@)={〈A(u,ω)>1ω. こ こ で,uは. あ る 単 語,A(・,・)は 関 連 性 尺 度,Vは. ∈ γ}. 条 件 付 き確 率 の 計 算 式 を示 す.. 10. (4.1). 語 彙 を 表 す.文 脈 語 の 異 な り. 数 は 語 彙 数 に 等 し く,そ の 全 て に つ い て 関 連 性 尺 度 を計 算 した もの がDPで 以 下 にPMIと. 語 の分. あ る..
(19) P(u,ω)PM. (4.2). 」1(U,W)=log2P( u)P(ω). (4.3). OP(u,ω)ニP(ωlu). PMIは. 負 の 値 に も な り得 る が,後 述 す る実 験 で は 負 に な る 場 合 に は 値 を0と. るpositive-PMIを. 用 い る[21].あ. 数 は 限 られ て い るの で,ほ. す. る単 語 が コー パ ス 中 で 共 起 す る文 脈 語 の 異 な り. とん どの ω に 対 してpositive-PMIの. 値 は0と. な り,結. 果 と して 非 常 に疎 な ベ ク トル が 作 成 され る.. 4.2類. 似 度 の 計算. グ ラ フ 中 の 各 ノ ー ドに 対 応 す る単 言 語 コ ー パ ス 中 の 単 語 に つ い て ベ ク トル を 作 成 し た 後,そ. れ ら を 用 い て 単 語 間 の 類 似 度 を 測 定 す る.そ. る ノ ー ド間 の エ ッ ジ の 重 み と し て 用 い ら れ る.類 度,Ll-Norm,Jellsen-ShalmollDivergellce等. 4.3グ. の類似 度 は グ ラ フにお け. 似 度 尺 度 と し て は,コ. サ イ ン類似. が 先 行 研 究 で は 用 い ら れ て い る.. ラ フ構 築. これ ま で 述 べ て き た 通 り,グ. ラ フ ベ ー ス のBLIに. お け る グ ラ フ と は,単. 語を. ノ ー ド と し,そ れ らの 間 の 類 似 度 を ノー ド間 の エ ッ ジ の 重 み と す る グ ラ フ で あ る. Martonetal.(2009)[51に. お け る手 法 は,ラ ベ ル 伝 搬 を 用 い た 手 法 で は な い が ・. 単 語 の 表 現 と そ れ らの 問 の 類 似 度 は 同様 に グ ラ フ と して 表 す こ とが 可 能 で あ り,そ こで は 未 知 語 に 対 応 す る ラ ベ ル 無 し ノー ド と,ベ ー ス ラ イ ン と して 用 い るPBSMT シ ス テ ム に お け る フ レー ズ テ ー ブル の 原 言 語 側 に存 在 す る 翻 訳 候 補 と,翻 訳 確 率 を 持 っ た ラ ベ ル 有 り ノ ー ドの,2種 国 で は,そ. の2種. 類 の ノ ー ドに,単 言 語 コ ー パ ス 中 の そ の 他 の 単 語 に 対 応 す る ラ. ベ ル無 し ノ ー ドを加 え た3種 フ に お い て は,同 後 者 は3部. 類 の ノ ー ドが 存 在 す る.Razmaraetal.(2013). 類 の ノ ー ドか ら な る グ ラ フ を構 築 す る.こ れ らの グ ラ. じ種 類 の ノ ー ドの 間 に は エ ッジ が 存 在 せ ず,前. グ ラ フ の 構 造 を とっ て い る(図4.2,図4.3). 11. 者 は2部. グ ラ フ,.
(20) 翻訳候補. 翻訳確 率. t1:0.335... t2:0.212... t3:0.136..,. ラベル. 未 知 語 ノー ド. ラベ ル 有 りノー ド. 図4.22部. グ ラフ. 各 ノー ドが エ ッ ジ に よ っ て 連 結 され る ノ ー ドは,同. じ種 類 の ノー ドを 除 い た ノ ー. ドの 内,当 該 ノ ー ドと の 類 似 度 が 上 位 κ 個 で あ る よ うな ノ ー ドに 限 定 され る.類 似 度 が 上 位 鳶個 以 内 に あ る ノー ドを見 つ け だ す に は,同 じ種 類 を 除 い た 全 て の ノー ド との 間 の 類 似 度 を 計 算 しな け れ ば な らな い が,Razmaraetal.(2013)[1]で. は,あ. る文 脈 語 を 文 脈 中 に持 つ 単 語 集 合 を 検 索 で き る転 置 イ ン デ ッ ク ス構 造 を用 い て,文 脈 語 を全 く共 有 して い な い単 語 を類 似 度 計 算 の 候 補 か ら外 す こ とで,候 補 数 を 削 減 して い る.そ の よ うに す る理 由 は,文 脈 語 数 の 次 元 を持 つ ベ ク トル に お い て,文 脈 語 を 全 く共 有 して い な けれ ば 内 積 が ゼ ロ に な るた め で あ る.. 4.4ラ. ベ ル 伝搬. 以 下 で は,グ. ラ フベ ー ス の ラベ ル 伝 搬 ア ル ゴ リズ ム[11]の. 説 明 を 行 う.. グ ラ フベ ー ス の ラ ベ ル伝 搬 ア ル ゴ リズ ム は一 般 的 に,少 数 の ラ ベ ル 有 りノ ー ドか. 12.
(21) 一. 未 知 語 ノー ド. 翻訳候補. 翻訳確率. t1:0.335... t2:0.212... t3:0.136..,. ラベ ル. ラベ ル 有 りノー ド. 図4.33部. ら,多. グ ラフ. くの ラベ ル 無 し ノ ー ドへ と ラ ベ ル 情 報 を 伝 搬 させ る,半 教 師 有 り学 習 の ア ル. ゴ リズ ム で あ る.今. 回 の 問 題 設 定 で は,ラ ベ ル は,目 的 言 語 側 に お け る翻 訳 候 補 の. 集 合 に 対 す る確 率 分 布 で あ り,フ レー ズ テ ー ブル に 存 在 す る 原 言 語 単 語 が そ の よ う な ラ ベ ル を既 に持 っ て い る. この よ うな グ ラ フ は,行 ノ ー ドの 数 をlVl,翻 と し,IVI×IVIの. 列 を用 い て 表 現 す る こ とが 可 能 で あ る.グ. ラ フ に用 い る. 訳 候 補 と な る 目 的 言 語 単 語 ま た は フ レ ー ズ の 次 元 数 をm+1 ノ ー ド間 の 遷 移 確 率 行 列Tと,IVI×(m+1)の. ラ ベ ル 行 列y. を 考 え る.そ の 時 遷 移 確 率 行 列Tは,. Ti・一 Σ道 伝 と な る.こ. こで,砺. 、(4・4). ゴ は,乞 番 目 と ゴ番 目 の ノ ー ドの 間 の エ ッ ジ の 重 み(類 似 度). で あ る.今 回 の 問 題 で は,全. て の ノ ー ドに 関 す る重 み の 総 和 を 求 め る の で は無 く, 13.
(22) 類 似 度 が 上 位 の κ個 の近 傍 に 関 す る重 み の み を 用 い て,そ れ らの 重 み の 和 に よ っ て 正 規 化 され た 重 み が,あ. るエ ッ ジ に 関 す る遷 移 行 列 の 値 に な る.. こ こ か ら,ラ ベ ル 伝 搬 ア ル ゴ リズ ム は,. y←TY. (4.5). とい う形 で 遷 移 行 列 と ラ ベ ル 行 列 を 作 用 させ る こ とに よ り,ラ ベ ル 行 列 の 値 が 入 っ て い な い セ ル に 対 して 値 を 伝 搬 さ せ,そ す.こ. の 時,毎. 回 の 反 復 の 度 に,Yの. る よ う に 正 規 化 す る.ま た,ア. して そ れ をyが. 収 束 す る ま で 繰 り返. 各 列 を全 て の 翻 訳 候 補 に 対 す る確 率 分 布 に な. ル ゴ リ ズ ム 開 始 時 の ラ ベ ル 有 り ノ ー ドに対 して,各. 反 復 時 に初 期 値 と して 与 え られ た ラ ベ ル 分 布 へ と復 元 さ せ,ラ. ベ ル 有 り ノー ドの ラ. ベ ル 分 布 が 変 化 しな い よ うに す る. 以 下 に ラ ベ ル 伝 搬 ア ル ゴ リズ ム の概 要 を 擬 似 コ ー ド形 式 で 示 す* Procedurellabelpropagation Input31abeldistributionmatrixY,transitionprobabilitymatrixT,sizeof vocaburalyl「. レ71,initialclassofeachinitiallylabelednodesc. Output:Y repeat y←Ty. fbrisuchthat1≦. 乞≦Ivldo. normalizeithrowofY endfbr fbr乞inindicesofinitiallylabelednodesdo Yic=δ(:yi,c). endfbr untilYconverges. *δ(・,・)はク ロ ネ ッ カ ー の デ ル タ で あ り,二 つ の 引 数 が 同 じ値 で あ る 場 合 に1を 返 す 関 数 で あ る.. 14. ,そ れ 以 外 の 場 合 に0を.
(23) 4.5PBSMTへ. の組 み込 み. ラベ ル 伝 搬 ア ル ゴ リズ ム に よ っ て,翻 訳 候 補 に 対 す る確 率 分 布 を 得 る こ とが で き た 未 知 語 は,そ. の 翻 訳 確 率 分 布 を テ ス トセ ッ トに お い てBLEU値. うend-to-endのPBSMTシ PBSMTシ. 等 で の 評価 を行. ス テ ム へ と組 み 込 む こ とが で き る.一 度 訓 練 さ れ た. ス テ ム が 存 在 す る時,構. 築 さ れ た 未 知 語 の 対 訳 辞 書 は,既. ズ テ ー ブ ル に 対 して 追 加 的 な 素 性 と して 加 え られ,MERTな. ど の ア ル ゴ リズ ム に. よ っ て,開 発 セ ッ トを 用 い て 再 度 重 み の チ ュ ー ニ ン グ が 行 わ れ,そ トに お い て 評 価 さ れ る.そ の 際. 存 の フ レー. の 後 テ ス トセ ッ. ベ イ ズ の 定 理 と単 言 語 デ ー タか ら抽 出 さ れ た カ ウ. ン トに 基 づ く周 辺 確 率 を用 い る こ とに よ っ て,取 得 さ れ た 前 向 き フ レ ー ズ 翻 訳 確 率 P(elf)か. ら,後 ろ 向 き フ レー ズ 翻 訳 確 率P(fle)を. 計 算 す る こ とが で き,そ れ も既. 存 の フ レー ズ テ ー ブ ル と同 じ よ う に,翻 訳 モ デ ル に お け る 素 性 と して 加 え られ る.. 15.
(24) 第5章. 提案手 法. こ の 章 で は,グ. ラ フ ベ ー ス のBLI手. 法 の改 善 に関 す る提 案 手 法 につ いて 説 明. す る.. 5.1分. 散 表現 を用 い た ノー ドのベ ク トル表 現. これ ま で のBLI手. 法 で は,文 脈 語 の 異 な り数 に等 しい 次 元 数 を 持 ち,非 ゼ ロ の成. 分 が 次 元 数 に 対 して 極 め て 少 な い疎 な ベ ク トル 表 現 が 用 い られ て き た.そ ベ ク トル を類 似 度 計 算 に用 い る場 合 に は,得. られ る 類 似 度 の信 頼 性,次. の よ うな. 元 数 が大 き. い こ と に よ る 計 算 量 の 問 題 等 が 起 こ る こ とが 考 え られ る. こ の 研 究 で は,単 語 分 散 表 現 に 基 づ く低 次 元 で 密 な ベ ク トル を 類 似 度 計 算 の た め の ノ ー ドの 表 現 と して 用 い る こ との 効 果 を検 討 す る た め に,単 習 デ ー タ と して 得 られ る 以 下 の2つ. 言 語 コー パ ス を学. の ベ ク トル 表 現 を グ ラ フ ペ ー ス のBLIに. 適用. した. SVD:単. 言 語 コ ー パ ス か ら得 ら れ る共 起 カ ウ ン トに よ っ て 構 成 され る共 起 行 列. の 各 セ ル をpositive-PMIの decomposition)を. 値 に よ っ て 置 き換 え た 行 列 に,SVD(singularvalue. 適 用 し行 列 の 次 元 削 減 を行 う.結 果 と し て 得 ら れ る行 列 の 各 行. を,対 応 す る ノ ー ドの ベ ク トル 表 現 と して 用 い た. word2vec:単. 言 語 コー パ ス を学 習 デ ー タ と してword2vec[17]を. と して 得 られ る単 語 ベ ク トル を ノー ドの 表 現 と して 用 い た.word2vecの い て は,オ. 学 習 し,結 果 学 習 にお. プ シ ョ ン と して 指 定 さ れ る最 小 カ ウ ン トが あ り,単 言 語 コ ー パ ス に お い. て そ れ 以 下 の 出 現 頻 度 で あ る語 に 対 して は ベ ク トル が 作 成 さ れ な い.学 習 され た モ デ ル 中 に 存 在 しな い 語 は ノ ー ド と して 使 用 せ ず に グ ラ フ を構 築 した.. 5.2低. 頻度 語 ノー ドの 削 除. 単 言 語 コ ー パ ス に お け る 低 頻 度 語 は,ラ 性 が 考 え ら れ る た め,低. ベ ル 伝 搬 に お け る ノ イ ズ と し て 働 く可 能. 頻 度 語 ノ ー ドを 用 い ず に グ ラ フ を 構 築 す る こ と を 試 み た.. Razmaraetal.(2013)[1]のpositive-PMIを. 用 い た3部. 16. グ ラ フ に お い て,単. 言語.
(25) コーパ ス にお い て出現 回数 が一 一定 の値 未 満 で あ る よ う な低 頻 度 語 を,グ. ラ フにお け. る未 知 語 ノ ー ド以 外 の ノ ー ドか ら除 去 す る こ との 効 果 を 検 証 した.. 5.3グ. ラ フ構 造 に関 す る改 善手 法. Razmaraetal.(2013)[1]は,翻. 訳 ルー ルが既 知で あ る フ レーズ テ ー ブル 中の単. 語 ま た は フ レ ー ズ に 対 応 す る ラ ベ ル 有 り ノ ー ド,未 ド,そ. 知 語 に 対 応 す る ラベ ル 無 し ノ ー. れ 以 外 の 単 言 語 コ ー パ ス 中 の 単 語 に 対 応 す る ラ ベ ル 無 し ノ ー ド,の3種. ノ ー ドか ら な る3部 法 を,ラ. グ ラ フ を 提 案 し て お り,ま. た,Martoneta1.(2009)[5]の. ベ ル 有 り ノ ー ド と 未 知 語 ノ ー ドか ら な る2部. の 論 文 で は,そ. の3部. グ ラ フ と2部. 5.3.1mutualk-NNグ. 手. グ ラ フ と し て 定 式 化 し た.こ. グ ラ フ の 両 方 に つ い て 改 善 手 法 を 提 案 す る.. ラ フ. グ ラ フ 中 の 各 ノ ー ド をk個 フ に お い て,各. 類 の. の 近 傍 へ と 繋 ぐ こ と に よ っ て 構 築 さ れ るk-NNグ. ノ ー ド は 最 小 でk個. グ ラ フ に お い て は し ば し ば,κ れ ら は ハ ブ と 呼 ば れ る.グ う な ノ ー ドで あ る が,ハ. ラ. の ノ ー ド と の 間 に エ ッ ジ を 持 っ て い る が,k-NN. 個 を 大 き く超 え る エ ッ ジ 数 を 持 っ ノ ー ドが あ り,そ. ラ フ に お け るハ ブ は 多 くの ノー ドに 対 して 近 傍 で あ る よ ブ の 存 在 は,近. 傍 検 索 の 精 度 を 損 ね う る こ とが 指 摘 さ れ て. い る[22]. ハ ブ の 出 現 を 減 ら す 方 法 の 一 つ に,mutualk-NNグ フ の サ ブ グ ラ フ の 構 築 が あ る[23].mutualk-NNグ. ラ フ と 呼 ば れ るk-NNグ ラ フ は,互. ノ ー ド間 に し か エ ッ ジ を 張 ら な い よ う な グ ラ フ で あ り,各 エ ッ ジ を 持 つ こ と に な り,結. 傍 である. ノ ー ドは 最 大 で κ 個 の. 果 と し て ハ ブ の 発 生 を 抑 え る こ と が で き る.. 今 回 の 実 験 で は,mutualk-NNグ フ と2部. い にk近. ラ. グ ラ フ に 関 し て 構 築 し,ラ. ラ フ をRazmaraetal.(2013)[1]の3部 ベ ル 伝 搬 に 対 す る そ の 効 果 を 検 証 し た.. 17. グラ.
(26) 第6章 6.1実. 実験 験設定. 私 は,科 学 論 文 の ドメ イ ン に お け る 日英 翻 訳 の タ ス ク に お い て,今. 回の 手法 に関. す る 実 験 を 行 っ た.. 6.1.1コ. ー パ ス. コ ー パ ス と して は,科. 学 論 文 ドメ イ ン の 日 中 英 対 訳 コ ー パ ス で あ るASPEC*. コ ー パ ス の 日 英 対 訳 を 使 用 した .当. コー パ ス の 訓 練 セ ッ トは,約200万. 件 の学術 論. 文 日英 抄 録 か ら 自動 で 対 訳 文 が 抽 出 さ れ た も の で あ り,文 対 の 問 で の 類 似 度 ス コ ア が 高 い約300万. 文 対 の 対 訳 文 が,類 似 度 ス コ ア の 降 順 に並 べ られ て い る.今 回,対. 訳 デ ー タ が 少 な く原 言 語 側 の 単 言 語 デ ー タ が 豊 富 に あ る よ うな 場 合 に お け る 手 法 の 効 果 を検 証 す る た め に,ベ ー ス ライ ン シ ス テ ム の 訓 練 に は そ の 訓 練 セ ッ トか ら類 似 度 ス コ ア の 高 い5万. 文 対 の 日英 対 訳 文 を用 い,グ ラ フ ベ ー ス のBLIに. 用 い る単 言 語. コ ー パ ス と して は基 本 的 に,訓 練 に用 い た 対 訳 文 対 の 日本 語 側 を 完 全 に 含 む50万 文 の 日本 語 デ ー タ を 用 い た.当. コ ー パ ス の 開 発 セ ッ トとテ ス トセ ッ トは,訓 練 セ ッ. トに含 ま れ な い 学 術 論 文 口 英 抄 録 か ら,文 書 が 対 象 と す る 学 術 分 野 の 割 合 が 訓 練 セ ッ ト と同 程 度 に な る よ う に選 ば れ て お り,そ れ ぞ れ1790文. と1812文. か らな る.. そ れ ら を そ の ま ま今 回 の 実 験 に お け る 開 発 セ ッ ト とテ ス トセ ッ トと して 用 い た .. 6.1.2べ. 一 ス ラ イ ンPBSMTシ. 私 は,ベ PBSMTシ た.単. ステ ム. ー ス ラ イ ン と す るPBSMTシ. ス テ ム に 対 し て,今. ス テ ム と し て,Moses[14]を. デ フ ォ ル トの 素 性 とパ ラ メ ー タ で 利 用 し. 語 ア ラ イ メ ン トに 関 し て は,GIZA++[15】. モ デ ル の 学 習 に は,KenEMを 今 回 の 実 験 で は,ア. 'http=〃lotus. .kuee.kyot⑪. 回 の 手 法 を 適 用 し た.. 用 い て5-gram[16】. を 用 い,英. 語 側 のn-gram言. 語. の モ デ ル を 学 習 した .. ル フ ァ ベ ッ トを含 む 単 語 と数 字 を 含 む 単 語 を 全 て の 種 類 の. 一u.ac.jp/ASPEC/. 18.
(27) ノー ドか ら除 去 した.ま. た,BLIの. 対 象 と な る未 知 語 に 関 して は,そ れ ら に加 え て. 固 有 名 詞 を 除 去 した.固 有 名 詞 の 除 去 は,開 発 セ ッ トと テ ス トセ ッ トを 日本 語 述 語 項 構 造 解 析 器SynCha†. で 解 析 した 結 果 を 用 い て,品. 詞 細分 類 が 固 有名 詞 に な って. い る もの を 対 象 に した ‡.5万 文 対 の 訓 練 デ ー タ に よ る シ ス テ ム で のdev,testセ トに お け る未 知 語 の 数 は,合 わ せ て1,882個. 6.1.3グ. ッ. で あ っ た.. ラ フ ベ ー スBLI. 比 較 対 象 と して,Razmaraetal.(2013)[1]を 窓 サ イ ズ は 事 前 実 験 の 結 果 か ら左 右3単 ドに 対 し エ ッ ジ を 張 る 近 傍 の 数kに. 再 実 装 した.そ の 際 に,文 脈 語 の 語 ず つ に し,グ ラ フ構 築 に お い て あ る ノ ー. は20を. 用 い た §.ノ ー ドの ベ ク トル 表 現 の 各. 成 分 の 値 とな る関 連 性 尺 度 に は,共 起 カ ウ ン トに 基 づ くpositive-PMIを. 用 い,ベ. ク トル 間 の 類 似 度 の 計 算 に は コサ イ ン類 似 度 を 用 い た. グ ラ フ ベ ー ス の ラベ ル 伝 搬 ア ル ゴ リズ ム に は,Juntoに ベ ル 伝 搬 ア ル ゴ リズ ム[11]を. お いて実 装 されて い る ラ. 用 い た.そ の 際 の イ テ レー シ ョ ン 回 数 は3と. 単 言 語 コー パ ス と して は50万. 文 を用 い た が,事. 前 実 験 に お い て200万. した. 文 の 日本. 語 デ ー タ を用 い た と こ ろ結 果 の 大 き な改 善 が 確 認 で きた.. 6.1.4提. 案 手 法 に関 す る設定. 分 散 表 現 に よ る 単 語 の ベ ク トル 表 現 を 学 習 す る 際 に は,SVD,word2vecと 次 元 数 は300と scikit-learnに. し,窓. サ イ ズ は 比 較 手 法 と 同 様 に3と. お い て 実 装 さ れ て い るtruncatedSVDを. に お い て は,cbow(continuousbag-of-words)モ で 学 習 を 行 い,単. もに. し た.SVDの. 学 習 で は,. 用 い た.word2vecの デ ル,skip-gramモ. 学習. デル の 両 方. 語 の 最 小 カ ウ ン ト と し て は デ フ ォ ル ト の 値 で あ る5を. 用 い た.. 出 現 回 数 が 最 小 カ ウ ン ト未 満 の 単 語 は 未 知 語 を 含 め て グ ラ フ 中 に 出 現 し な い た め,. †http://www. .cl.cs.titech.ac.jp/ryu-i/syncha/. ‡ベ ー ス ラ イ ン と したPBSMTとSynchaの. 単 語 分 割 結 果 が 異 な る部 分 が 存 在 す る た め,全. ての 固有 名. 詞 が 除 去 で き て い る 訳 で は な い. §3部 グ ラ フの 場 合 は,各. ラ ベ ル 無 し ノー ドが,15個. の ラ ベ ル 有 り ノ ー ド と,5個. と繋 が れ る.. 19. の ラ ベ ル 無 し ノ ー ドへ.
(28) positive-PMIを. 用 い る ベ ー ス ラ イ ン に お い て,同. で も実 験 を 行 いword2vecを. じ最 小 カ ウ ン トを 適 用 した 設 定. 用 い た 結 果 と比 較 した.. 3部 グ ラ フ に お け る未 知 語 以 外 の 低 頻 度 語 の 削 除 に つ い て は,単 言 語 コ ー パ ス に お け る 出 現 頻 度 の 最 小 カ ウ ン トを 変 化 させ,そ. の 値 未 満 の 出 現 回 数 で あ る低 頻 度 語. を グ ラ フ に お け る未 知 語 ノ ー ド以 外 の 種 類 の ノー ドか ら除 い た. mutual-kNNグ. ラ フ の 適 用 は,3部. グ ラ フ と2部. ド と ラ ベ ル 無 し ノ ー ドの 間 で 行 っ た.3部 ル 有 り ノー ド間,そ. グ ラ フ と も に,ラ ベ ル 有 り ノー. グ ラ フ に お い て は,未 知 語 ノ ー ド と ラベ. して 単 言 語 ノー ドと ラ ベ ル 有 りノ ー ド間 に お い て,相 互 に κ 近. 傍 で あ る よ う な ノ ー ド間 に の み で エ ッジ を持 つ よ う に した.2部. グ ラ フ に お い て は,. 未 知 語 ノー ド と ラ ペ ル 有 り ノー ド間 で 相 互 に ん 近 傍 な ノー ド間 の エ ッ ジ の み を保 持 した.. 6.2評. 価尺度. Razmaraetal.(2013)[1]と 内 的 な評 価 尺 度 と してMRR(平. 同 様 に,構 築 され た 対 訳 辞 書 を直 接 評 価 す るた め の 均 逆 順 位)とRecall(再. 現 率)を 用 い た.. 内 的 な 評 価 尺 度 の 値 を 出 す た め に は,未 知 語 に対 す る正 解 の 翻 訳 を 持 っ て い る必 要 が あ る.今 回 の 実 験 で は,Razmaraetal.(2013)[1]と ラ イ メ ン ト先 を正 解 の 翻 訳 と した.ア ルGIZA++を. 用 い た が,開. 同様 に 未 知 語 に 対 す る ア. ライ メ ン トの 取 得 に は 単 語 ア ラ イ メ ン トツ ー. 発 セ ッ トと テ ス トセ ッ トだ け で は 正 確 な ア ラ イ メ ン ト. を 得 る た め の デ ー タ量 と して 十 分 で は な い た め,類 似 度 ス コ アが 高 い100万 対 訳 デ ー タ を 両 セ ッ ト と結 合 した デ ー タ を,GIZA++へ. 文対 の. の 入 力 と して 用 い た .単. 語 ア ラ イ メ ン トの 精 度 に は 限 界 が あ るた め こ れ は完 全 な正 解 と は言 え な い が,手 の性 能 を 測 る た め の 目安 と して用 い た.こ. の 正 解 を用 い たMRRとRecallの. 法. 計算. 方 法 は 以 下 の よ う に な る. MRR:ラ. ベ ル 伝 搬 に よ っ て 獲 得 さ れ た未 知 語 の 翻 訳 候 補 リス トの 上 位100位. ま. で を,翻 訳 確 率 の 降 順 に ソ ー トし,そ の リス トに お け る未 知 語 に 対 す る正 解 の 翻 訳 の ラ ン ク を得 る.そ の ラ ン クの 逆 数 の平 均 値 をMRRの. 値 と して 用 い る ¶.. ¶一 つ の 未 知 語 に 対 して 複 数 の 単 語 ま た は フ レー ズ が 正 解 と して ア ラ イ メ ン トさ れ て い る 場 合 に は の 正 解 に 関 す る ラ ン クを 用 い て 平 均 を 計 算 した.. 20. ,全. て.
(29) 表6.13部. グ ラ フ に お け るMRRとRecall(%) ノ ー ド表 現MRRRecall PPMI. 4.46. 1.78. 5.31. 2.42. 十min51. SVD. 1.34. 3.71. cbow. 1.59. 5.00. skip-graln. 1.33. 4.43. 1単 言 語 コ ー パ ス に お い て 出 現 回 数5 回 未 満 の 単 語 を,未 知 語 ノー ドも含 む3種. 類 全 て の ノ ー ドか ら 削 除 し. た ベー ス ライン手法. Recall:SMTシ. ス テ ム に お い て は,言 語 モ デ ル に よ っ て 目 的 言 語 文 と して の 流. 暢 さが 評 価 さ れ る こ とに な る た め,正 解 の 翻 訳 が 上 位 で は な くて も シ ス テ ム が 用 い る フ レー ズ の 翻 訳 候 補 リス ト中 に 存 在 して い る こ と に は 意 味 が あ る.従 ク に 関 係 の 無 い 評 価 を 行 う た め に,Recallを 訳 が,手 れ ば0と. 計 算 す る.そ の 際,未. 法 に よ っ て 得 られ た リ ス トの 上 位20個. っ て,ラ. ン. 知 語 の正解 の 翻. 以 内11に存 在 す れ ば1,そ. うで な け. し て カ ウ ン トす る こ と と し,未 知 語 の 正 解 の 数 で 割 る こ と に よ っ て 値 を. 得 る.. 6.3実. 験結果. 6.3.1ノ. ー ドの ベ ク トル 表 現 に 関 す る 結 果. 各 ベ ク トル 表 現 に つ い て,対 50万. 文 を 用 い た 時 の,MRR,Recallに. 訳 コ ー パ ス と し て5万. 3部. グ ラ フ と2部. と に よ っ て,ど. ll上位20個. グ ラ フ の 比 較 に 関 し て は,3部. にMRRが. 言 語 コ ー パ ス と して. よ る 評 価 結 果 を 表6.1,表6.2に. 示 す.. グ ラ フ を ラ ベ ル 伝 搬 に用 い る こ. の ベ ク トル 表 現 に お い て もMRR,Recallと. の 向 上 が 見 ら れ,特 al.(2013)[1]の. 文 対,単. も に2部. よ り大 き な 向 上 を 見 せ て い る.こ. グ ラ フか ら. れ はRazmaraet. 実 験 と 同 様 の 結 果 で あ る.. を 用 い るの は,そ. れ が ベ ー ス ラ イ ン と して 用 い たSMTシ. 対 す る翻 訳 候 補 の 上 限 数 で あ る た め.. 21. ス テ ム に お け る,あ. る フ レー ズ に.
(30) 表6.22部. グ ラ フ に お け るMRRとRecall(%) ノ ー ド表 現MRRRecall. PPMI. 1.24. cbow. 0.81. 表6.3低. なし. MRR. 1.78. Recall. 4.46. 3. ベ ク トル 表 現 間 の 比 較 に つ い て は,ま. 6. 9. 12. 1.97. 1.91. 1.96. 1.81. 4.51. 4.31. 4.46. 4.31. ず,ノ. と は ど の 設 定 に お い て もpositive-PMIか. 出 現 回 数 が5回 て い る.ま Recallと skip-gramモ. ー ドの 表 現 と し てSVDを. 用 いるこ. ら 結 果 を 悪 化 さ せ た.word2vecを3部 低 下 さ せ る が,cbowモ. デ ル を 用 い た 場 合 は,. 未 満 の 単 語 を 削 除 し な い ベ ー ス ラ イ ン に 対 し て はRecallで. た,skip-gramモ. デ ル よ り もcbowモ. も に 良 い 結 果 を 得 た.2部. グ ラ フ に お い て は,word2vecがcbowモ. 用 い る ベ ー ス ラ イ ン に お い て,未. ン ト を 適 用 す る こ と でword2vecと お い て もcbowの. デ ル,. 下 回 る 結 果 と な っ た. 知 語 を 含 め て5回. の最 小 カ ウ. 同 じ 語 彙 を 用 い る よ う に す る と,そ. 結 果 を 上 回 っ た.従. る 結 果 の 改 善 は 見 ら れ な か っ た.こ ノ ー ドを 探 す 際 に,positive-PMIを. 上回 っ. デ ル を 用 い た 場 合 の 方 がMRR,. デ ル の い ず れ に お い て もpositive-PMIを. positive-PMIを. Recallに. 3.63. 頻 度 語 ノ ー ドの 削 除. 最小 カ ウ ン ト. グ ラ フ に お い て 用 い る こ と はMRRを. 4.26. っ て,word2vecを. の 一 つ の 原 因 と し て,各. の結果 は. 用 い る こ とに よ ノ ー ドの 近 傍 に な る. 用 い る 場 合 と 同 じ よ う に,文. 脈 語 を一 つ も共 有. し て い な い 単 語 は 候 補 か ら 外 さ れ 類 似 度 計 算 が さ れ な い た め に,適. 切 な近傍 の候 補. に 対 す る 類 似 度 計 算 が 行 わ れ て い な い 可 能 性 が 考 え ら れ る.. 6.3.2低. 頻 度 語 ノ ー ドの 削 除 に 関 す る結 果. 3部 グ ラ フ でpositive-PMIを. 用 い る 手 法 に お い て,未. 知 語 ノ ー ドを 除 く ノ ー ド. か ら,低 頻 度 語 に 対 応 す る ノ ー ドを 除 去 した 実験 の 結 果 を表6.3に 未 知 語 ノ ー ド以 外 の ノ ー ドか ら低 頻 度 語 を 除 去 す る こ とで,MRRに. 22. 示 す. は若 干 の 改.
(31) 表6.4mutualk-NN. MRR. グ ラフの種類. 善 が 見 ら れ る.こ. 3部 グ ラ フ. 0.46. 1.21. 2部 グ ラ フ. 0.67. 2.15. の こ とか ら,低 頻 度 の 単 語 に 対 応 す る ノ ー ドを グ ラ フか ら除 去 す. る こ とに よ っ て,ノ. 6.3.3グ. Recall. イ ズ と な り う る よ う な 単 語 を 除 去 で き て い る と考 え られ る.. ラ フ構 造 に 関 す る 結 果. mutualk-NNグ. ラ フを 用 いた結 果. ベ ク トル 表 現 と し てpositive-PMIを. 用 い る 手 法 に お い て,mutualk-NNグ. を 用 い て ラ ベ ル 伝 搬 を 行 っ た 結 果 を 表6.4に 今 回 のmutualk-NNグ い 結 果 と な っ て お り,特 る.し. 示 す.. ラ フ の 適 用 で は,3部 にRecallは2部. か し な が ら,mutualk-NNグ. グ ラ フ よ り も2部. グ ラ フ が3部. グ ラ フ と2部. フ と も に べ 一 ス ラ イ ン と 比 較 す る と 評 価 結 果 は 悪 化 して い る.エ に κ 近 傍 で あ る よ う な ノ ー ド間 の み へ と制 限 す る こ と で,グ. れ る.近. グ ラ フの方 が 良. グ ラ フ を 大 き く上 回 っ て い. ラ フ を 用 い る こ と で,3部. ら な い 部 分 が 多 く な り,MRR,Recallの. ラフ. グラ. ッ ジ の 保 持 を相 互. ラ フ中で エ ッジが 繋 が. ど ち ら も下 が っ て し ま っ て い る と考 え ら. 傍 の 数 κ を 増 加 させ る こ とで そ の よ う な 問 題 点 を 改 善 で き る 可 能 性 が あ. る と 考 え ら れ る た め,ん. の 値 を 大 き く し て 実 験 を 行 っ た が,結. か っ た.. 23. 果 の 改 善 は見 られ な.
(32) 第7章. おわ りに. こ の 研 究 で は,グ. ラ フ ベ ー ス の ラ ベ ル伝 搬 ア ル ゴ リズ ム を 用 い た,統 計 的 機 械 翻. 訳 に お い て 発 生 し た 未 知 語 に 対 す る対 訳 辞 書 構 築 手 法 に 関 す る改 善 手 法 を 提 案 し た.グ. ラ フ ベ ー ス の 対 訳 辞 書 構 築 は 半 教 師 あ り学 習 の 一 種 で あ り,既 知 の 翻 訳 ル ー. ル と大 規 模 な 単 言 語 コ ー パ ス や コ ンパ ラ ブ ル コ ー パ ス 等 の 言 語 デ ー タ を用 い る こ と に よ っ て,未. 知 語 に 対 す る新 た な 翻 訳 ル ー ル を取 得 す る こ とを 可 能 に す る.そ の 手. 法 に お い て は,単 語 の ベ ク トル 表 現 とそ の 間 の 類 似 度 尺 度 を用 い て グ ラ フ が 構 築 さ れ る. 私 は,単 語 の ベ ク トル 表 現 を これ まで の 共 起 情 報 に 基 づ く疎 な ベ ク トル 表 現 か ら, 分 散 表 現 に 基 づ く密 な ベ ク トル に 置 き換 え る手 法 と,グ ラ フ に お け る ノ ー ド と して 用 い る 単 言 語 コ ー パ ス 中 の 単 語 か ら低 頻 度 語 を除 去 す る こ と,そ に お け る ハ ブの 問 題 に 対 処 す る た め にmutualk-NNグ. してk-NNグ. ラフ. ラ フ を この 手 法 に適 用 す る. こ と に 関 す る 実 験 を行 い,そ の 結 果 を検 証 した. 結 果 と して は,ま ず,単 お い て3部. 言 語 コー パ ス を用 い た グ ラ フ ベ ー ス の ラ ベ ル 伝 搬 手 法 に. グ ラ フ を用 い る こ との 有 効 性 は,科 学 論 文 ドメ イ ン に お け る 日英 翻 訳 の. タ ス ク に お い て も検 証 され た.ベ. ク トル 表 現 に 関 す る提 案 手 法 と して,分. 散表 現 に. 基 づ くベ ク トル を用 い る こ とで よ り良 い 単 語 間 の 類 似 度 を測 る こ とが で き る と考 え た が,グ. ラ フベ ー ス の 対 訳 辞 書 構 築 に お い て 単 純 に そ の よ うな ベ ク トル を用 い る こ. との 効 果 は確 認 で き な か っ た.こ の こ とは,各. ノー ドの近 傍 を見 つ け る際 に,類 似. 度 計 算 を 行 う候 補 を 文 脈 語 の 共 有 を利 用 して 枝 刈 り して い るた め に,適 切 な 近 傍 の 候 補 を 得 られ て い な い た め で あ る可 能 性 が あ る.ま た,低 頻 度 語 を グ ラ フ か ら除 去 す る こ とに は 若 干 の 効 果 が 見 られ た が,こ. れ は計 算 さ れ た 類 似 度 が 信 頼 し に くい よ. う な 低 頻 度 語 を ラ ベ ル 伝 搬 に利 用 しな い こ との 効 果 で あ る と考 え られ る.そ mutualk-NNグ. して,. ラ フ を 適 用 す る こ と は ベ ー ス ライ ン に対 して 結 果 を 改 善 させ ず,3. 部 グ ラ フ よ り も2部. グ ラ フ の 方 が 良 い 結 果 と な っ た.. 更 に 適 用 す る こ とが 考 え られ る 手 法 と して は,今 回用 い た も の とは 異 な る学 習 方 法 に よ る ベ ク トル 表 現 を 用 い る こ とや,異 とが 考 え られ る.. 24. な る グ ラ フ伝 搬 ア ル ゴ リズ ム を用 い る こ.
(33) 参考文献 ー 1 ー MajidRazmara,MaryamSiahbani,GholamrezaHaffariandAnoopSarkar. Graphpropagationforparaphrasingout-of-vocabularywordsillstatistical machinetranslation.ProceedingsofThe6thInternationalJointConference onNaturalLanguageProcessing(IJCNLP2013),pp.1062-1066(2013).. ー 2 ー AvneeshSaluja,HanyHassan,KristinaToutanova,andChrisQuirk・ Graph-basedSemi-SupervisedLearningofTranslationModelsfromMonolingualData.Proceedingsofthe52ndAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers),pp.676-686. ー 3 ー. (2014). AnnIrvineandChrisCallison-burch.CombiningBilingualandComparable CorporaforLowResourceMachineTranslation.ProceedingsoftheEighth 、VorkshoponStatisticalMachineTrallslation,PP.262-270(2013). ー 4 ー AnnIrvineandChrisCallison-burch.SupervisedBilingualLexiconInductionwithMultipleMonolingualSignals.ProceedingsoftheMainConferenceonHumanLanguageTechnologyConferenceoftheNorthAmerican ChapteroftheAssociationofComputationalLinguistics(HLT-NAACL ,13). ー. 5 ー. ,pp.518-523(2013) YuvalMarton,ChrisCallison-Burch,andPhilipResnik.ImprovedStatisticalMachineTranslationUsingMonolingually-derivedParaphrases.Proceedingsofthe2009ConferenceonEmpiricalMethodsinNaturalLanguage Processing:Vblume1-Volume1.,pp.381-390(2009).. ー 6 ー ReinhardRapp.IdentifyingWordTranslationsinNon-parallelTexts.Pro一. 25.
(34) ceedingsofthe33rdAnnualMeetingonAssociationforComputational Linguistics(ACL1995),pp.320-322(1995). [7]PhilippKoehnandKevinKnight.LearningaTranslationLexiconfrom MonolingualCorpora.ProceedingsoftheACL-02WorkshoponUnsupervisedLexicalAcquisition-Volume9(ULA,02),pp.9-16(2002). [8】ChrisCallison-Burch,PhilippKoehnandMilesOsborne.ImprovedStatis.. ticalMachineTranslationUsingParaphrases.ProceedingsoftheMainConferenceonHumanLanguageTechnologyConferenceoftheNorthAmerican ChapteroftheAssociationofComputationalLinguistics(1{LT-NAACL ,06),pp.17-24(2006). [9]AndreiAlexandrescu,andKatrinKirchhofF.Graph-basedLearningfor StatisticalMachineTranslatio11.ProceedingsofHumanLanguageTechnologies:The2009AnnualConferenceoftheNorthAmericanChapterof theAssociationforComputationalLinguistics(NAACL,09),pp.119-127 (2009). [101AkihiroTamura,TaroWatanabe,andEiichiroSumita.BilingualLexiconExtractionfromComparableCorporaUsingL,abelPropagation.Proceedingsofthe2012JointConferenceonEmpiricalMethodsinNaturalLanguageProcessingandComputationalNaturalLanguageLearning (EMNLP-CoNLL,12),pp.24-36(2012). [11]XiaojinZhuandZoubinGhahramani.LearningfromLabeledandUnla. beledDatawithLabelPropagation.ProceedingsoftheEighteenthInternationalConferenceonMachineLearning(ICML,01),pp.19-26(2002). [12]ParthaPratimTalukdarandCKobyrammer.NewRegularizedAlgorithms forTransductiveLearning.ProceedingsoftheEuropeanConferenceon MachineLearningandKnowledgeDiscoveryinDatabases:PartII(ECML PKDD,09),pp.442-457(2009). [13]ShujieLiu,Chi-HoLi,MuLi,andMingZhou.LearningTranslationConsensuswithStructuredL,abelPropagation.Proceedingsofthe50thAnnual MeetingoftheAssociationforComputationalLinguistics:LongPapers.. 26.
(35) Volume1(ACL,12),pp.302-310(2012). [14]PhilippKoehn,HieuHoang,AlexandraBirch,ChrisCallison-Burch,MarcelloFederico,NicolaBertoldi,BrookeCowan,WadeShen,Christine Moran,RichardZens,ChrisDyer,OndiejBojar,AlexandraConstantin andEvanHerbst.Moses:OpenSourceToolkitforStatisticalMachine Translation.Proceedingsofthe45thAnnualMeetingoftheACLonInteractivePosterandDemonstrationSessions(ACL'07),pp.177-180(2007). [15]FranzJosefOchandHermalmNey.ASystematicComparisonofVarious StatisticalAlignmentModels.Comput.Linguist,pp.19-51(2003). [16]KennethHeafield.KenLM:Fasteralldsmallerlanguagemodelqueries. ProceedingsoftheSixthW6rkshoponStatisticalMachineTranslation, pp.187-197(2011). [17]TomasMikolov,IlyaSutskever,KaiChen,GregCorradoandJeffreyDean. DistributedRepresentationsof、VbrdsandPhrasesandtheirCompositionality.AdvancesinNeuralInformationProcessingSystems26,pp.3111-3119 (2013). [18】KishorePapineni,SalimRoukos,ToddWardandWei-JingZhu.BLEU: aMethodforAutomaticEvaluationofMachineTranslation.Proceedings ofthe40thAnnualMeetillgonAssociationforComputationalLinguistics (ACL,03),pp.311-318(2002). 【19]PeterF.Brown,JohnCocke,StephenA.DellaPietra,VincentJ.Della. Pietra,FredrickJelinek,JohnD.Lafferty,RobertLMercerandPaulS. Roossin.AStatisticalApproachtoMachineTranslation.Comput.Linguist. pp.79-85(1990) [20]FranzJosefOch.MinimumErrorRateTraininginStatisticalMaclline Translation.Proceedingsof40thAnnualMeetingonAssociationforComputationalLinguistics(ACL,03),pp.160-167(2003) [21]YoshikiNiwaandYoshihikoNitta.Co-occurrenceVectorsfro1:nCorporavs. DistanceVectorsfromDictionaries.Proceedingsofthe15thConferenceon ComputationalL,inguistics-Volume1.(COLING'94),pp.304-309(1994). 27.
(36) [22]MiloきRadovanovi6,AlexandrosNanopoulosandMirjanaIvanovi6.Hubs inSpace:PopularNearestNeighborsinHigh-DimensionalData.Journal ofMachineLearningReserachVblume11,pp.2487-2531(2010) [231KoheiOzaki,MasashiShimbo,MamoruKomachiandYujiMatsumoto. UsingtheMutualK-nearestNeighborGraphsforSemi-supervisedClassi丘 cationofNaturalLanguageData.ProceedingsoftheFifteenthConference onComputationalNaturalLanguageLearning(CoNLL,11),pp.154-162 (2011). 28. 一.
(37)