Thesis or Dissertation 日本語学習者文の頑健な単語分割のための分野適応

塘, 優旗

pp.1 - 46 , 2016-03-25
Description
近年,日本語の学習者の増加とともに自然言語処理を利用した作文誤り検出・訂正を行うことが求められてきている.既存の誤り訂正手法の多くは事前に単語分割を行う必要があり,水本らの統計的機械翻訳の手法を用いた日本語学習者の作文自動誤り訂正においては,正しく単語分割できた場合は訂正の精度が高くなることが述べられている.しかしながら,日本語学習者の文は,うまく文字の変換がされていない場合や,誤りを含むなどの理由から,既存の単語分割器や形態素解析器では単語分割に失敗しやすい.本研究では上記のような誤りを含む日本語学習者の日本語文に対して頑健な単語分割を行うことを目標とする.現在,日本語単語分割の手法として主に利用されているのは,ルールベースのものや,機械学習に基づくものである.これらを上記のようなテキストに分野適応するには誤りや表記揺れに対応したたくさんのルールを人の手で定めることや,分野適応先の文に対して単語分割のアノテーションが行われた大量のコーパスを作る必用があり高コストである.そこで,本研究では予め大量の一般的なコーパスで学習を行い,一部のみアノテーションされた分野適応先のコーパスで追加学習を行う機械学習を用いた手法を提案する.1つ目の手法としてアノテーションが曖昧な部分に関しては周辺尤度を用いて学習を行う条件付き確率場(CRF)の拡張を利用し言語学習SNS Lang-8中における日本語学習者の文に対して分野適応を行う.予め様々な分野のテキストにアノテーションのされたコーパスである現代日本書き言葉均衡コーパス(BCCWJ)を用いて学習し,Lang-8から抽出した日本語学習者の文と添削文のペアから一部のみアノテーションされた訓練データを自動で作成し追加学習することで分野適応する.2つ目の手法として深層ニューラルネットを用いて日本語学習者文の分野適応を行う.予め日本語学習者の文を利用し,word2vecの手法を用いてシステムに入力される文字の分散表現を訓練し,それらの分散表現を初期値として上記のBCCWJを用いて深層ニューラルネット全体の訓練を行うことで分野適応を行う.また,CRFの拡張の場合と同様に部分的なアノテーションのされた訓練データを用いた分野適応も行った.これら2つの手法に対して実験を行い,分野適応の際に利用する訓練データの利用の仕方,適切なパラメータ設定により精度が向上することを示す.特にCRFの拡張を用いた手法においては,分野適応の訓練時に利用する文を学習者文と添削文間での挿入,削除数に関して制限することによって学習者テキストの単語分割精度の向上が見られた.また,手法間での出力結果を交えて考察を行う.本論文の構成は以下のようになっている.第1章では本研究全体の提案手法の概要,貢献を述べる.第2章では部分的アノテーションを利用した日本語学習者文の単語分割について関連研究,提案手法,実験,考察について述べる.第3章では深層ニューラルネットを利用した日本語学習者文の単語分割について関連研究,提案手法,実験,考察について述べる.最後に第4章では本研究のまとめ,今後の展望について述べる.
In recent years, error correction systems for Japanese learner's text using natural langauge processing have become necessary with increasing number of Japanese language learners. Most of error correction systems require word segmented sentences. One of the previous studies used statistical machine translation for error correction and showed that correctlly word segmented sentences are corrected easily. However, most of learner's sentences have character conversion and spelling errors. Therefore, word segmentation for learner's text is very difficult for existing word segmentation and morphological analysis systems. The purpose of this study is to introduce robust word segmentation for Japanese Learner's text including such errors. In these days, most of Japanese word segmentation systems are based on rules or machine learning technics. These systems need many rules or large annotated corpus for target domain to adapt to such sentences. Additionally, making these rules and corpus are very costly. For these reasons, we use standard Japanese word segmented corpus and partially annotated corpus for target domain to train machine learning systems. First, we use the extension of Conditional Random Fields (CRF) that models marginal probabilities over partially annotated data to adapt word segmentation model for Japanese learner's texts obtained from a free language-exchange social network Lang-8. Initially we train the mode] using popular Japanese fully annotated corpus called BCCWJ. Next, we retrain the model using partially annotated corpus constructed from the pairs of learner's and corrected sentences for domain adaptation. Second, we use Deep Neural Network for domain adapted word segmentation. Using the word2vec method, we make distributed representation of characters (character embedding) from Japanese learner's texts. We use the character embedding as initial value and train Deep Neural Network using BCCWJ corpus. In addition, we retrain the model usign partially annotated corpus. We show that using restricted training data and appropriate parameters improves word segmentation of Japanese learner's text. Especially in the extension of the CRF, restricting the sentences in training for domain adaptation with the numbers of insertion and deletion between corrected sentence and learner's sentence improve the accuracy of word segmentation in learner's text. Further-more, we compare the results of these methods and discuss the differences. This paper is organized as follows. Chapter 1 shows the outline of the pro-posed methods and the contribution of this study. Chapter 2 describes related work, proposed method, experiments, and discussion of the first method that the extention of CRF using partially annotated corpus. Chapter 3 explains related work, proposed method, experiments, and discussion of the second method using Deep Neural Network. Chapter 4 presents conclusion and future work.
首都大学東京, 2016-03-25, 修士(工学)
Full-Text

https://tokyo-metro-u.repo.nii.ac.jp/?action=repository_action_common_download&item_id=6535&item_no=1&attribute_id=18&file_no=1

Number of accesses :  

Other information