学位論文 統計的機械翻訳におけるグラフ伝搬を用いた未知語対訳辞書構築の改善

大和田, 賢一

pp.1 - 28 , 2016-03-25
内容記述
統計的機械翻訳では,翻訳元にあたる原言語の文と翻訳先にあたる目的言語の文からなる対訳文を大量に集めた大規模対訳コーパスから,フレーズの翻訳候補と翻訳確率を学習して,翻訳モデルを構築しなければならない.統計的機械翻訳システム全般に存在する問題の一つとして,対訳コーパスにおける未知語の問題がある.翻訳モデルの学習に用いる対訳コーパス中に存在しない単語が,システムの最適化に用いる開発セットや評価に用いるテストセットの中に出現すると,その単語は未知語(Out-of-Vocabulary word)として処理されることになる.そして,未知語がそのまま英語文中に出現するといった処理が未知語に対してなされることがある.そのような場合,未知語の存在は翻訳システムの性能を損ねうる.対訳コーパスのサイズが大きくない場合や,開発セットやテストセットと同じドメインの対訳コーパスが存在しないために異なるドメインのコーパスで学習しなければならないような場合には,未知語の問題はより深刻になりうる.未知語の数を減らすためには対訳コーパスを大きくすれば良いと考えられるが,大規模で質の良い対訳コーパスを構築することは難しく,そのような対訳コーパスを持つ言語ペアやドメインは限定されている.一方で,単一の言語のみからなる単言語コーパスや,同じドメインの内容について異なる言語で書かれている対照コーパスなどは,対訳コーパスと比較すればより容易に入手可能であると考えられる.そのような状況下において,対訳コーパスから学習された翻訳モデルと組み合わせて単言語コーパスや対照コーパスを用いることで,未知語に対して翻訳候補と翻訳確率を取得することを試みる,対訳辞書構築(bilingual lexicon induction)と呼ばれる研究の領域が,統計的機械翻訳の分野で発展してきた.対訳辞書構築手法の基本的な考え方は,コーパスにおける単語の共起情報とそれに基づく単語間の類似度を用いて,未知語に類似している単語の翻訳情報を未知語に誘導する,というものであるが,特に近年では,グラフ構造を用いたラベル伝搬アルゴリズムによって対訳辞書構築を行ういくつかの研究が取り組まれてきている.そこでは,単語をノードと見倣し単語間の類似度をノード間のエッジの重みとするようなグラフ構造を考え,翻訳が既知であるような単語に相当するラベル有りノードから未知語に対応するラベル無しノードへとラベルを伝搬させることによって,未知語の翻訳候補と翻訳確率を取得することを実現している.一般にグラフによるラベル伝搬手法は,相対的に少ない数のラベル有りノードから多くのラベル無しノードへとラベルを伝搬させる手法であり,先行研究では単言語コーパス等における単語をグラフ中のラベル無しノードとして利用することによって,対訳辞書構築へのこの手法を適用している.本研究では,未知語に対するグラフベースの対訳辞書構築手法を改善することを試みた.具体的には,これまで単語の表現として用いられてきた共起情報に基づく疎なベクトルとは異なるベクトル表現を用いること,そして先行研究とは異なるグラフ構造を用いてラベル伝搬を行うことに取り組んだ.それらの提案手法を,フレーズベース統計的機械翻訳システムを用いた日本語から英語への翻訳実験に適用し,取得された未知語対訳辞書に関して評価を行った.そしてその評価結果を分析し,グラフベースの対訳辞書構築手法の性質について考察を加えた.
Statistical machine translation needs to construct a translation model by learning phrase translation candidates and its translation probabilities from a parallel corpus consisting of a large amount of bilingual sentences which are pairs of source language's sentence and target language's sentence. The occurrence of unknown words in a parallel corpus still remains a large problem in general SMT systems. If words not found in the parallel corpus occur in the dev set for optimization of the system or the test set for evaluation of the system, the words are treated as unknown (Out-of-Vocabulary: OOV) words. OOV words are usually copied to the target sentence's output without any change by the systems. In that case, the occurence of OOV words harms the performance of the translation system. If a size of a parallel corpus isn't large enough or the domain of dev and test sets and the domain of parallel corpus are different, the problem of OOV words becomes severe. To reduce the number of OOV words, we ought to increase the size of the parallel corpus. However, constracting a high-quality large-scale parallel corpus is difficult, and the languages and the domains which have such parallel corpus are limited. On the other hand, monolingual corpus consisting of the sentences in a single language or comparable corpus consisting of bilingual texts from same domain written by different languages are easily available compared with parallel corpora. Under such condition, a task called Bilingual Lexicon Induction has been developed, which tries to achieve the translations of OOV words by using a. monolingual or comparable corpus with the translation model learned from the parallel corpus. The basis of Bilingual Lexicon Induction methods is the use of co-occurence information of words in a monolingual corpus and the similarities between that words, and the induction of the translation information of the words similar to OOV words, Recently, graph-based label propagation algorithms are applied to the Bilingual Lexicon Induction task, Words are regarded as nodes in the graph and similarities between words are treated as the weights of the edges of the nodes. From labeled nodes whose translation candidates and its probabilities are known in the phrase-table, the labels are propagated to the unlabeled nodes corresponding to OOV words, and we can get the translation candidates and its probabilities of OOV words. In general, graph-based label propagation is the method which propagates the labels from relatively smaller amount of labeled nodes to larger amount of unlabeled nodes, In previous work, by using words in a large monolingual corpus as additional unlabeled nodes in the graph, a graph-based method was applied to the Bilingual Lexicon Induction setting. In this research, I address the improvements of the graph-based Bilingual Lexicon Induction methods for OOV words. In particular, I use a dense vector based on distributional representation of a word instead of a sparse vector based on co-occurence information of a word in a corpus used in previous work. Futhermore, I try to use different graph structures from previous work. I apply proposed methods to the Japanese-to-English translation experiments using phrase-based SMT system, and evaluate the performance of Bilingual Lexicon Induction for OOV words. Then, I consider the evaluation results and the nature of graph-based Bilingual Lexicon Induction methods.
首都大学東京, 2016-03-25, 修士(工学)
本文を読む

https://tokyo-metro-u.repo.nii.ac.jp/?action=repository_action_common_download&item_id=6522&item_no=1&attribute_id=18&file_no=1

このアイテムのアクセス数:  回

その他の情報