Departmental Bulletin Paper 統語構造アノテーション支援ツールの開発
Development of a Syntactic Annotation Tool for Parsed Corpora

窪田, 悠介  ,  Yusuke, KUBOTA

(13)  , pp.107 - 125 , 2017-07 , 国立国語研究所
ISSN:2186-134x print2186-1358 online
本稿では,統語構造アノテーション支援ツールEmacsけやきモードの解説をする。けやきモードは,国立国語研究所「統語・意味解析コーパスの開発と言語研究」プロジェクトのために開発された。本ツールを開発する過程で,Emacsをテキストアノテーション作業用インターフェイス構築の土台として利用する手法の有効性と,この手法を採用する際に注意すべき点がいろいろと明らかになった。主な利点は,Emacsエディタに備わっているEmacs Lispと呼ばれるLispの方言を用いることで,強力なテキストアノテーション支援環境を素早く開発できることである。同時に,当初開発者側に盲点となっていたがツールを現場で運用する際に徐々に明らかになった落とし穴として,Emacsのデフォルトのインターフェイスの使いにくさがあることが分かった。本稿では,けやきモードの主な特徴と実装を簡単に説明したあと,Emacsをアノテーション支援ツール開発の基盤として用いることの利点と落とし穴を議論する。
This paper describes an extension of the Emacs editor for the annotation of syntactic structures in parsed corpora: “Emacs Keyaki Mode.” Keyaki Mode was developed for the purpose of aiding manual correction of syntactic annotation in the construction of the NINJAL Parsed Corpus of Modern Japanese. In the course of developing this software, we learned that the extensibility of Emacs via Emacs Lisp (which is a full-fledged programming language rather than an impoverished macro language for editor customization) is very useful and makes Emacs a potentially attractive environment for developing text annotation tools in general. At the same time, we encountered several challenges mainly due to the fact that the default interface of Emacs is somewhat idiosyncratic and unintuitive from a modern perspective. After explaining the main features of Keyaki Mode and sketching its implementation, the paper discusses potential advantages and pitfalls when Emacs is viewed as a platform for annotation tool development.

Number of accesses :  

Other information