Departmental Bulletin Paper 連濁の生起率に基づく日本語複合語の分類 : 連濁データベースによる研究
Classification of Japanese Compounds Based on the Frequency of Rendaku : A Study Using the Rendaku Database

太田, 聡  ,  太田, 真理  ,  Satoshi, OHTA  ,  Shinri, OHTA

(10)  , pp.179 - 191 , 2016-01 , 国立国語研究所
ISSN:2186-134x print2186-1358 online
連濁はもっとも広く知られた日本語の音韻現象の1つである。先行研究では,日本語の複合語は連濁の生起率の違いに基づいて,いくつかのグループに分類されることが提案されている。しかしながら先行研究では,連濁生起率の分類基準が恣意的であった点,またグループの数をあらかじめ仮定していた点に問題があった。そこで本研究では,混合正規分布モデルに基づくクラスター分析と連濁データベース(Irwin and Miyashita 2015)を用いて,日本語複合語を分類する際の最適な分類基準とクラスター数を検討した。複合名詞と複合動詞のどちらも,2つのクラスターを仮定したモデルが最適であり,クラスター同士の分類基準は,複合名詞では連濁生起率が90%,複合動詞では40%であった。これらの結果は先行研究のクラスター数や分類基準とは異なるものであった。我々の結果は,モデルに基づくクラスター分析が言語データに対する最適な分類を行う上で非常に有効であることを示すものである。
Rendaku is one of the most well-known phonological phenomena in Japanese, which voices the initial obstruent of the second element of a compound. Previous studies have proposed that Japanese compound words can be classified on the basis of the frequency of rendaku (rendaku rate). However, since these studies used arbitrary criteria to determine clusters, such as 33% and 66%, as well as arbitrary numbers of clusters, it is crucial to examine the plausibility of such criteria. In this study, we examined the optimal boundary criteria as well as the optimal number of clusters using a clustering analysis based on Gaussian mixture modeling and the Rendaku Database (Irwin and Miyashita 2015). The cluster analyses clarified that the two-cluster model was optimal for classifying both compound nouns and compound verbs. The boundary values of the rendaku rate for these clusters were approximately 90% and 40% for the compound nouns and compound verbs, respectively. These results were inconsistent with the findings of previous studies. Our findings demonstrate that model-based clustering analysis is an effective method of determining optimal classification of linguistic data.

Number of accesses :  

Other information