Departmental Bulletin Paper FLOBコーパスの意味構造 : 確率論的トピックモデルによる言語使用域の特徴付け

田畑, 智司  ,  Tabata, Tomoji  ,  タバタ, トモジ

2016pp.5 - 21 , 2017-05-31 , 大阪大学大学院言語文化研究科 , Graduate School of Language and Culture, Osaka University , オオサカダイガク ダイガクイン ゲンゴブンカ ケンキュウカ
Topic modelling is a machine learning method for uncovering hidden semantic structures in a corpus of texts. Based on a probabilistic inference algorithm called latent Di richlet allocation, the technique makes it possible to identify sets of frequently co-occurring words, or topics, that characterize a text as well as classify texts into groups defined by inferred sets of strongly associated topics. One of the major advantages topic modellin g has over traditional key-word detection techniques employed in many stylometric or corpus linguistic studies is that topic models do not simply help to classify texts, but enable us to visualize complex yet meaningful interrelationships between vocabulary items, topics, and more importantly, association between topics and texts in the form of network diagrams and heatmaps. The present study applies topic modelling to the FLOB corpus with a view to analyzing latent semantic structures underlying in the corpus and mapping its subcorpora (or,registers) in the network of words, topics, and texts. What is of special interest is that by means of this approach it is now possible to shed new lighto n thematic structures composed by a large number of infrequent words, which would otherwise escape the net of key-word statistics due to infrequency of occurrence. Emerging results from this research are expected to open up a new avenue of inquiry into key semantic patterns in a large collection of texts, thereby demonstrating a possibility of building a bridge between findings from machine learning text mining and stylistics, distant reading and close reading,with an empirical interplay of insights that will benefit interdisciplinary stylistics.
本稿では,機械学習ツールキットのMALLETを用いて, LDAを実行することにより生成されたトピックモデルが,FLOB コーパスのサプコーパスとなっている15のレジスターおよび下位の標本テクストに内在する意味構造をどの程度適切に抽出しうるかを検討する。まず,生成された個々のトピックモデルの解釈を試み,それら各トピックがFLOBコーパスの各言語使用域の標本テクストとどのように結びついているかを考察する。トピックを構成するword clusters リスト,ネットワークグラフ,ワードクラウド,使用域毎のトピック密度グラフなどによる視覚化を行うことで,トピックモデリングがコーパスの局所的な特徴抽出,記述に有効であることを示す。マクロ的な視点からは,FLOB コーパスにおける言語使用域のクラスタリング,トピックのクラスタリングをヒートマップの形で要約し,構築されたトピックモデルがFLOBコーパスの標本テクストの特徴付け,潜在的意味構造の発見に寄与するということを明らかにする。

Number of accesses :  

Other information