テクニカルレポート 顔から声への統計的対応付けに関する技術的諸検討

大杉, 康仁  ,  齋藤, 大輔  ,  峯松, 信明

2017-MUS-115 ( 34 )  , pp.1 - 6 , 2017-06-10
ISSN:2188-8752
NII書誌ID(NCID):AN10438388
内容記述
音声インターフェースを擬人化する場合に,合成音声とともに擬人化エージェントの顔を提示する方法があるが,どのような声や顔を選択すべきかという問題が生じる.本研究では,声の話者性と顔の静的な個人性に表われる声 ・ 顔の印象に基づいて,顔から声への統計的対応付けを検討した.声 ・ 顔の印象を表す特徴量の抽出には Eigenvoice と CLNF (Constrained Local Neural Filed) を使用し,GMM (Gaussian Mixture Model) または CCA (Canonical Correlation Analysis) に基づいて顔の特徴量から声の特徴量を推定した.ここでは,あらかじめ複数人の被験者を集め,ある顔に印象的に対応すると思われる声を対応付ける主観実験を実施し,顔と声を対応付けたパラレルコーパスを作成し,CCA 及び GMM の学習に利用した.ただし,顔と声の変換写像は被験者に依存する可能性を考慮し,被験者依存の形で実験を行った.比較においては,声の特徴量が表す話者の音声を Eigenvoice Conversion により合成し,そのメルケプストラムひずみを利用した.結果として,GMM を用いた方が CCA を用いるよりも精度が高く,より確率的な写像が有効であることが示唆された.
本文を読む

https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=182236&item_no=1&attribute_id=1&file_no=1

その他の情報