Conference Paper 音声・動画像の因子分析を用いる話者ダイアライゼーション

西, 史人  ,  Nishi, Fumito  ,  井上, 中順  ,  Inoue, Nakamasa  ,  篠田, 浩一  ,  Shinoda, Koichi

Description
話者ダイアライゼーションとは「誰が,いつ」発話しているかを音声や画像の情報を用いて事前情報なしに推定するタスクである。トークショーや映画における話者ダイアライゼーションは電話や会議における話者ダイアライゼーションと比べ,BGMや環境音などの影響が大きい。そのため,音声と映像を用いたマルチモーダル話者ダイアライゼーションが効果的である。Felicienら[1]はトークショーを対象にした実験で,音声情報と話者の服の色を特徴量として用いているが,本研究の対象である映画のように明暗の切り替わりが激しい映像で用いることは難しい。そこで本研究では音声・動画像の因子分析を用いる話者ダイアライゼーションを提案する。
Full-Text

http://t2r2.star.titech.ac.jp/rrws/file/CTT100696818/ATD100000413/nishi_ASJ.pdf

Number of accesses :  

Other information