学位論文 マルチモーダル潜在的ディリクレ配分法の多層化による知識の確率的表現

Muhammad, Attamimi  ,  Muhammad, Attamimi

pp.1 - 151 , 2015-03-25 , The University of Electro-Communications
内容記述
近年,ロボットと人の共存を目指すための研究が盛んに行われている.現状のロボット技術において,様々なロボットが開発されているが,限られた環境で特定のタスクを実行するものが殆どであり,タスクに必要な行動や入力パターンに対する応答などを人が全て事前に与えなければならない.ロボットが人と自然に暮らすためには,人の言葉を理解する必要があり,その言葉の背後にある潜在的な意味を解釈して行動しなければならない.また,コミュニケーションのために,ロボット自身の意図を言語として創出することが望まれる.旧来の人工知能の研究では,単語を単なる記号として扱い,その記号で閉じた世界の中で言語を理解する努力を続けてきた.自然言語処理・理解は,この流れを強く受けている.これに対して近年のロボティクス・人工知能研究では,いわゆる記号接地問題を基本として,言語の本質的な意味を扱い始めているが,未だに言語の理解や生成の本質的な解決には遠く及ばない.本論文では,ロボットが経験によって得るマルチモーダル情報に基づいて多様な概念を形成し,この概念を基盤とした言語理解・生成を考えることでこの問題を解決する新たな方向性を示す.ここで,概念とはマルチモーダルな情報を分類して形成される「カテゴリ」であり,この概念を通して様々な予測をすることが「理解」であると定義する.さらに言語は,こうした概念と結び付いた音韻ラベルであり,人との自然なインタラクションの中で獲得することが可能である.つまり本論文で提案するモデルは,ロボットが日常の活動によって得ることのできる情報を基盤に概念を形成し,音韻ラベルとの結び付きや語の順番を意味する文法をボトムアップに獲得することで,言語の意味理解や生成を実現するものである.これまで,マルチモーダル情報を用いた物体のカテゴリ分類手法は中村らによって提案されており,実際に,ロボットが経験することによって得た情報をカテゴリ分類することで,人間の感覚に近い物体概念の形成が可能であることを示している.また,形成された概念を利用して未観測情報を予測することができ,ロボットによる物体の理解が前述の定義の範囲で可能であると言える.しかし,より人間のように柔軟な理解をロボットで実現するためには,物体概念の獲得だけでは不十分であることは明らかである.なぜなら,ほとんどの物体はそれを使う人や使う人の動き,使われる場所などが関連しており,これらの情報を予測できない限りその物体を理解したとは言えないためである.つまり,物体概念のみならず人の動き概念や場所概念など多様な概念を学習すると同時に,それらの関係性を獲得する必要がある.このような多様な概念の獲得は,マルチモーダル情報の階層的カテゴリ分類へと発展させることで実現することで可能であり,最終的にはこれがロボットによる「事物の真の理解の計算モデル」となることを明らかにする.これが本論文のゴールである.本論文ではまず,第2章でロボットが家庭環境で作業することを考慮し,これまで著者が開発したヒューマノイドによる掃除タスクを一例として取り上げる.掃除タスクを行うために,「掃除」を定義する必要があり,その定義に従ったタスクの実現に必要な視覚認識システムやタスクの制御などを実装する.これによって定義範囲内の物体認識や把持行動などを実現することができるが,未知な環境に対して柔軟にタスクを行うことができない.この結果を踏まえて,「掃除」の本質的な意味を考察する.例えば,「掃除機をかける」という行動は掃除機を持って細かいごみの上で動かすことであると考え,「掃除機」という物体概念,「何かの上で動かす」という動き概念の相互関係から形成される概念であると考えることができる.すなわち,「掃除」とは多様な概念の階層的な相互依存関係から構成される概念であると考える.こうした多様な概念の形成とそれらの階層的な構造の構築がロボットの知識として重要である.第2章での議論に基づき第3章では,ロボットの確率的知識表現のためのマルチモーダル情報の階層的カテゴリ分類手法を提案する.提案手法は,マルチモーダル潜在的ディリクレ配分法(Multimodal Latent Dirichlet Allocation:MLDA)を階層化した多層マルチモーダル潜在的ディリクレ配分法(multilayered MLDA:mMLDA)である.下層のMLDAでは下位概念である,物体,動き,場所,人物の概念がそれぞれ形成され,上層のMLDA ではこれらの概念を統合する上位概念が形成される.このモデルを用いることで例えば,下位概念としてジュースという物体概念や物を口に運ぶという動き概念,ダイニングという場所概念などが形成される.上位層ではこれらの関係性が学習され,「飲む」という行動概念が形成される.これにより,ジュースを見ることでそれを口に運ぶ「飲む」という行動や,その「飲む」という行動が「ダイニング」という場所で行なわれやすいといった未観測情報の予測を行うことが可能となる.第4章では,形成された多様な概念を利用し,同時に語意や文法を獲得することで,観測したシーンを文章で表現する手法を検討する.ここで扱う問題は,階層的な概念における語意の獲得であり,どの階層のどの概念にどの単語が結び付くかという問題を解く必要がある.本論文では,単語と概念間の相互情報量を用いることで,どの単語が本来どの概念に結び付いているのかを自動的に推定する手法を提案する.これにより単語と概念の結び付きを学習することが可能であり,各単語に対応する,物体,場所や人などといった概念クラスの推定が可能である.従って,教示発話における概念クラスの生起順を学習することで,概念クラスの遷移確率という形で表現される確率文法を学習することができる.これによって,ロボットによる言語の意味理解や生成を実現することが可能となる.一方,実際のコミュニケーションは,背景知識や周辺の状況などといった文脈を考慮しなければ成立しない.つまり,事物に対する理解をより柔軟に行うためには,学んできた多様な概念を活用した上で,様々な文脈を考慮する必要がある.第5章では,ロボットが人と生活する上で,様々な文脈においてどのように行動決定するかを議論する.つまり,獲得した多様な概念と文脈と統合することで,適切な行動を決定する手法を提案する.これにより例えば,人が普段ソファーでテレビを見ているときに,お菓子を食べながらお茶を飲んでいるということを知っていれば,人が「お菓子を持ってきて」と命令した際の音声認識に誤りが生じたとしても,そのときに「ソファーでテレビを見ていてお茶を飲んでいる」という文脈を用いることで,ロボットが適切に判断をして正しい行動をとることができる可能性がある.第6章では,本論文のまとめと今後の課題について述べる.
本文を読む

http://ir.lib.uec.ac.jp/infolib/user_contents/9000000790/9000000790.pdf

このアイテムのアクセス数:  回

その他の情報