会議発表論文 マルチモーダルi-vectorを用いた話者ダイアライゼーション

西, 史人  ,  Nishi, Fumito  ,  井上, 中順  ,  Inoue, Nakamasa  ,  篠田, 浩一  ,  Shinoda, Koichi

内容記述
映画を対象とするマルチモーダル話者ダイアライゼーションにおいて,マルチモーダル i-vector を用 いる手法を提案する. i-vector とは話者認識において使われている特徴量であり,発話者の情報を表した 低次元ベクトルである.音声の i-vector に,動画中の話者の顔画像から抽出した i-vector を結合すること で作られたマルチモーダル i-vector に対して教師無しクラスタリングを行う.評価実験は映画「ハンナと その姉妹」のデータセットで行い,Diarization Error Rate (DER) は音声のみを用いた場合比べ,68.3%か ら 65.5%に改善された.
本文を読む

http://t2r2.star.titech.ac.jp/rrws/file/CTT100694130/ATD100000413/nishi_SLP.pdf

このアイテムのアクセス数:  回

その他の情報