学位論文 ソーシャルメディアのプライバシー保護と攻撃に関する情報処理モデルの研究

片岡, 春乃  ,  カタオカ, ハルノ  ,  Kataoka, Haruno

pp.1 - 90 , 2015-09-30 , The University of Electro-Communications
内容記述
ソーシャルメディアは,現代社会のコミュニケーション基盤としての地位を確立しつつある一方,プライバシー情報や機密情報の漏洩問題を引き起こしている.これに対して,公開範囲の設定などのプライバシー保護対策が実施されているが,これらの対策はソーシャルメディアの本来の目的であるコミュニケーションの活性化と相反している.また,ソーシャルメディアのプライバシーに対する攻撃として,近年,メディアに公開された情報がデータベース等の異種の情報と照合されることで,個人特定等に至ることが懸念されているが,そのリスクの現実性は明らかになっていない.そこで,本研究では,ソーシャルメディアにおいてコミュニケーションとの両立が可能なプライバシー保護および,異種情報の照合による攻撃リスクの明確化を目的とする.上記のプライバシー保護と攻撃の両面において,プライバシー情報すなわち個人特定などのプライバシー侵害に至る可能性のある情報の扱いが共通課題となる.特に,プライバシー情報は個人に依存し範囲が曖昧である上,ソーシャルメディアで多様な表現形態を有するため,これを計算機で定式的に処理することが大きな問題となる.コミュニケ―ションとの両立が可能なプライバシー保護については,プライバシー保護の新しい形態として「自然言語情報の開示制御DCNL(Disclosure Control of Natural Language Information)」を提案する.DCNL は,ユーザがプライバシーを考慮せずにメディアに投稿した文章を検査して,プライバシー情報の漏洩個所を検知し,警告あるいは該当箇所の言い換えを行う.その際,漏洩個所を局所化することで,ユーザの文章をできるだけ変更せず,コミュニケーションを妨げないようにする.DCNL の中核は,投稿文からのプライバシー情報の検知であるが,その実現には以下の問題に対応する必要がある.(1)プライバシー情報はユーザによって異なるので,ユーザが定義する必要があるが,プライバシー情報の範囲は曖昧であるため,厳密な定義は困難であり,ユーザへの負担となる.(2)投稿文においてプライバシー情報は多様な表現形態を有する.勤務先名称などの固有名詞の直接的な記載以外に,複数の単語の組合せによる表現や間接的な示唆もある.上記の問題により,ユーザによるプライバシー情報の定義の簡易化と,システムによる多様な表現の検知を同時に満たすことが課題となる.そこで,ユーザが自分のプライバシーをNG ワードと呼ばれる単語によって定義し,投稿文中の多様な表現とNG ワードとの結びつきをシステムが推定する手法を提案する.この推定では,投稿文中の単語およびその組み合わせをキーワードとしてWeb 検索を行い,検索結果にNG ワードが含まれる位置と回数に基づいて,結びつきを定量化する.11 人の学生のTwitter のつぶやき各1000件および1 名の社会人のmixi の日記7047 文をサンプルとして,通学・通勤先および職種情報の検知精度を評価した結果,人間が情報漏洩と判断した文章の約90%を検知できる一方,人間が見逃していた情報漏洩を検知したケースが,情報漏洩した文章数の10%程度に達した.このことから,提案システムは,本評価実験の範囲では,プライバシー情報の漏洩防止手段として実用的であるだけでなく,ユーザの注意力を補えることが明らかになった.異種情報の照合によるプライバシーリスクの明確化については,Twitter のつぶやきと個人の履歴書との照合を通じて,多数のつぶやきの中から特定個人のつぶやきを抽出する技術を検討した.つぶやきでは,履歴書の情報(たとえば勤務先の固有名詞)が直接表現されることは少ないが,関連情報(仕事の内容や地名)は表現される.そこで,つぶやきと履歴書の間接的な結びつきを検知するために,履歴書をNG ワードの集合とみなし,上述したWeb 検索による多様な表現への対応技術を拡張して用いた.学生10 人,社会人2人の履歴書とつぶやきをサンプルとして,履歴書の人物を含む101 人のTwitter ユーザのつぶやきから,履歴書の人物のつぶやきを特定できるか評価したところ,12 人の被験者のうち8 人については101 人の中から1 人に特定でき,3 人については101 人中4 人に絞り込むことができた.また,被験者のつぶやきの数が増える程,特定精度が高まることが明らかになった.これにより,たとえば就職希望者や社員等の履歴書を用いることで,当該人物のつぶやきを特定し,交友関係や日頃の言動を調査できることを示し,異種情報の照合による社会的リスクの現実性を明らかにした.以上の研究を通じて,プライバシー情報という曖昧性,個人性の大きい情報を検知するための計算モデルとして,個人毎のプライバシー情報をNG ワードによって表現し,Web検索を通じてプライバシー情報の多様な表現とNG ワードを照合するモデルを提案し,その有効性を明らかにした.また,この計算モデルがプライバシーの保護と攻撃の両面に利用できることを明らかにした.
本文を読む

http://ir.lib.uec.ac.jp/infolib/user_contents/9000000809/9000000809.pdf

このアイテムのアクセス数:  回

その他の情報