Conference Paper クラスタリングによるオンライン小説の多様性動向分析

飯田, 委哉  ,  伊東, 栄典  ,  佐嘉田, 悠樹

2018pp.1 - 7 , 2018-03-01 , 情報処理学会九州支部
近年,動画ではYouTube やニコニコ動画が,小説では小説家になろうといった利用者投稿型のCGM (Consumer Generated Media) サイトが人気である. CGM サイトには毎日多数のコンテンツが投稿されており,また膨大な利用者がコンテンツを閲覧している. 現在,CGM サイトへの投稿コンテンツの画一化が懸念されている.既に見たことのあるようなコンテンツや派生コンテンツの増加が感じられる.我々は今回,「小説家になろう」を対象に,Cos 類似度の総和を調べることで小説家になろうの画一化について定量的に評価をおこなった.次に,偏りのあるジャンルを特定するために,クラスタリングによるオンライン小説の多様性動向を調査する.各小説のあらすじをDoc2Vec を用いてベクトルで表現し,最後に,小説のベクトル群をX-means でクラスタリングする. クラスタ数やクラスタの要素数を分析することで,投稿小説の多様性動向の分析を行う.
In recent years, CGM (Consumer Generated Media) site, such as and for movies, for novels, become very popular. Many contents are posted on those CGM sites everyday, and a huge number of users are browsing the contents. Now a day, some bloggers mentioned that similar contents are well posted to the CGM site. It is felt that contents and derivative contents which have already seen have increased. We proposed contents diversity metric, that is the sum of cosine similarities of contents. We applied our metric to contents of and, and found that contents diversity was decrease in both CGM. To identify bias of contents, we investigate the diversity trend of online novel using clustering. We extract synopsis part from each novels, and vectorize them by Doc2Vec. After that, we clustered the vectors using X-means clustering. We report our method and results of clustering.

Number of accesses :  

Other information