Thesis or Dissertation 探索的LOD分析のための情報可視化システムに関する研究

矢部, 彩佳

pp.1 - 72 , 2016-03-25
Description
本論文では,RDF(Resource Description Framework)で記述されたLOD(Linked Open Data)を探索的にブラウズする作業を支援することを目的として,SPARQLクエリによるサンプリングに基づくLOD構造の推定を用いた情報可視化システムを提案する.構築したシステムを実際のRDFデータに適用し,その有効性を示す.近年,計算機で処理しやすい形式でデータを公開・共有する仕組みとしてLODが注目され,行政・公共データや地理空間情報,ライフサイエンス分野等の公開に用いられている.海外では,欧米を中心に政府がLODとしてデータ公開を推進している.日本でも,欧米諸国にはデータ数が劣るものの政府によるデータカタログサイトが運営されており,さらにオープンデータ活用支援プラットフォームや,LODチャレンジと呼ばれるLOD普及イベントの存在により,徐々に広がりを見せている.LODは自分の手元にない外部リソースを扱えることが利点である一方,公開者が自由に構造を決めているため,他者が公開したデータを使用する場合,データ構造が不明という問題点がある.RDFスキーマやHTTP URIなどにより,利用語彙に関する情報が公開されていればデータ構造の理解に有用であるが,構造理解に十分な情報が公開されているとは言えないのが現状である.LODデータの公開によく用いられるデータモデルとして,RDFがある.RDFとは,リソースの情報を主語(Subject)・述語(Predicate)・目的語(Object)の3つの要素(トリプル)を用いて表現するデータモデルである.W3Cによって規格化されており,セマンティックWebを実現する技術的要素の1つである.RDFのデータセットは,主語と目的語をノード,述語をエッジとするグラフ構造で表現される.RDFデータは,SPARQLと呼ばれるクエリ言語によって検索を行うことが可能であるが,構造が未知であるデータに対し,適切なクエリを生成することが難しいという問題点がある.そのため,効率的なデータ検索・抽出のためにはデータ構造の把握が必要となる.さらに,特定のデータ抽出が目的ではなく,データベースの全体像を知ることが目的の場合もあると考える.しかし,SPARQLの検索結果は表形式であることが一般的であるため,RDFデータのグラフ構造を把握するのに適していないという問題点がある.そこで本論文では,LOD構造の把握支援を目的として,LODを探索的に分析するための情報可視化システムを提案する.提案システムでは探索作業を支援するために,探索の起点として有効なリソースを抽出し,その周辺のグラフ構造を可視化する.提案システムを実際のRDFデータに適用し,有効性について検討する.本論文は5章から構成される.1章では,研究背景及び本論文の目的について述べる.2章では,LOD及びRDFの概要や,グラフ構造データの分析,そしてLODやRDFの既存研究等についてまとめる.3章では,提案する探索的LOD情報可視化システムのサンプリングの流れや構造推定,構造推定結果の可視化手法,追加問合せによる探索行為について述べる.探索において,前述の通り,他者が公開したLODデータの構造は事前に不明であることが多いため,探索的にLODをブラウズし,その構造を把握する必要があると考える.ユーザに提示する探索起点として有効なノードを発見するためには,LODのデータ構造を分析する必要があるが,全データを取得して分析を行うのでは,外部リソースの活用というLODの利点が生かせないと考える.また,全データの分析結果を一度にグラフとして描画・提示することによる視認性の低下も考えられる.そこで本論文では,LODデータから少数データを複数回検索することでサンプリングを行う.また,現在日本で公開されているLODデータを調査したところ,Excel等の表形式を持ったデータ(テーブルデータ)をRDFデータに変換したものが多く発見された.テーブルデータをRDFデータに変換した場合,基本構造が把握できれば,それ以上探索の必要はないと考える.そこで本論文ではLODを,サンプリングを元に表構造を持つものとそれ以外に分類し,その結果をグラフ構造で可視化し,ユーザに提示する.ユーザは提示されたノードを選択することでその周辺に存在するリソースを探索することが可能であるため,SPARQLを知らないユーザであってもインタラクティブにデータの探索を行うことが可能である.4章では実際に公開されているLODに構築したプロトタイプシステムを適用して評価を行い,提案システムの有効性について考察する.5章では,提案システムの有効性についてまとめるとともに,今後の展望について述べる.
This thesis proposes information visualization system for exploratory LOD Analysis. The LOD (Linked Open Data) is it framework to make data open to the public. Recently, it has been widely used to publish various kinds of data such as statistical data, geographical information, and academic data. The IMF (Resource Description Framework), which describes data as the set of triples consisting of subject, predicate and object, is used frequently to publish data as LOD. When we want to use LOD, it is necessary to under-stand structure of LOD. In order to support the analysis of LOD for understanding the structure of EDF dataset, the proposed system extracts and visualizes table structure and resources for starting point of exploratory analysis with resource sampling. Effectiveness of the proposed system is evaluated by applying it to several LOD resources.
首都大学東京, 2016-03-25, 修士(工学)
Full-Text

https://tokyo-metro-u.repo.nii.ac.jp/?action=repository_action_common_download&item_id=6542&item_no=1&attribute_id=18&file_no=1

Number of accesses :  

Other information