Journal Article 古典中国語(漢文)の形態素解析とその応用
Morphological Analysis of Classical Chinese Texts and Its Application

安岡, 孝一  ,  ウィッテルン, クリスティアン  ,  守岡, 知彦  ,  池田, 巧  ,  山崎, 直樹  ,  二階堂, 善弘  ,  鈴木, 慎吾  ,  師, 茂樹

59 ( 2 )  , pp.323 - 331 , 2018-02-15 , 情報処理学会
古典中国語(漢文)の解析手法として, MeCabを用いた形態素解析手法を提案する. 本手法では, 漢文の動賓構造を表現すべく, 4階層の「品詞」からなる新たな品詞体系を構築し, それに基づくMeCab漢文コーパスを設計した. 合わせて, MeCab漢文コーパスを入力するための専用ツールとして, XEmacs CHISEをベースとしたコーパス入力ツールを開発した. また, MeCab漢文コーパスを効果的に管理し, さらには品詞体系のリファクタリングを行うべく, MeCab漢文コーパスのLinked Data化を行い, WWW上で公開した. さらに, MeCabを用いた漢文形態素解析の応用として, 漢文における固有表現の自動抽出に挑戦した. 結果として, 地名の自動抽出は高精度に行うことができたが, 官職・人名の自動抽出はそれぞれに課題が残った.
A method to analyze classical Chinese texts is proposed. In the method, we use our original morphological analyzer based on MeCab. We propose a new four-level word-class system to represent the predicate-object structure of classical Chinese. In order to make a corpus for classical Chinese on MeCab, we have constructed a MeCab-corpus editor based on XEmacs CHISE. In order to control the corpus effectively, and to refactor our four-level word-class system, we have converted it into Linked Data on WWW. As an applied study for our morpholgical analysis of classical Chinese texts, we have tried to extract named entities: names of places, job titles, and names of people. As a result we are able to extract names of places from classical Chinese texts almost perfectly. But we have found some difficulties to extract job titles or names of people.

